組件 | 詳細信息 |
JindoFileSystem | 多種存儲模式 Block模式:數(shù)據(jù)以Block形式存儲在后端存儲OSS上,本地Namespace服務維護元數(shù)據(jù)信息。在元數(shù)據(jù)性能和數(shù)據(jù)性能上,Block模式較優(yōu)。Block模式支持不同的存儲策略,包括WARM存儲策略(本地-副本,OSS-副本)、COLD(僅OSS-副本)、 HOT(本地多副本、OSS-副本)、TEMP(僅本地-副本)和ALL_HDD(本地多副本),默認為WARM,用戶可以根據(jù)不同的應用場景對目錄設(shè)置不同的存儲策略。 Cache模式: 該模式主要兼容現(xiàn)有OSS存儲方式。在Cache模式下,文件以對象的形式存儲在OSS上,每個文件根據(jù)實際訪問情況會在本地進行數(shù)據(jù)和元數(shù)據(jù)的緩存,從而提高訪問數(shù)據(jù)以及元數(shù)據(jù)的性能。Cache模式提供不同元數(shù)據(jù)同步策略以滿足用戶在不同場景下的需求。
外部客戶端支持 客戶端SDK提供了E-MapReduce集群外訪問E-MapReduce JindoFS 的文件系統(tǒng)的能力,通過客戶端可以訪問Block模式的Namespace,但外部客戶端不能利用到E-MapReduce JindoFS在E-MapReduce集群內(nèi)部構(gòu)建的數(shù)據(jù)緩存,性能上相對于E-MapReduce集群內(nèi)部使用也有一定的差距。 Cache模式則保留了原有OSS存儲的語義,通過JindoFS在E-MapReduce集群內(nèi)部實現(xiàn)了數(shù)據(jù)緩存加速,因此,E-MapReduce 集群外部可以直接通過OSS客戶端訪問數(shù)據(jù),例如,OSS SDK或者E-MapReduce的OssFileSystem等。
生態(tài)組件支持 JindoFS目前已經(jīng)支持E-MapReduce上的眾多計算引擎,例如,Spark、Flink、Hive、MapReduce、Impala和Presto等。 針對計算和存儲分離的場景,也可以把作業(yè)日志存儲在JindoFS上,例如,YARN Container log和Spark Event log。 JindoFS可以作為HBase的HFile后端存儲,擴展HBase的存儲能力。
|
OssFileSystem | |
Bigboot | |
Hadoop | |
Spark | Relational Cache 支持Relational Cache,Relational Cache通過預計算加速用戶查詢。用戶可以創(chuàng)建Relational Cache對數(shù)據(jù)進行預計算,在執(zhí)行用戶查詢時,Spark Optimizer自動發(fā)現(xiàn)合適的Cache,并改寫SQL執(zhí)行計劃,基于Cache的數(shù)據(jù)繼續(xù)計算,從而提升查詢速度,適用于報表、Dashboard、數(shù)據(jù)同步和多維分析等場景。 通過DDL,進行CACHE、UNCACHE、ALTER、SHOW等操作,Cache的數(shù)據(jù)支持Spark的所有數(shù)據(jù)源和數(shù)據(jù)格式。 支持自動的Cache數(shù)據(jù)更新以及通過REFRESH命令更新Cache數(shù)據(jù),支持基于分區(qū)的增量更新。 支持基于Relational Cache的執(zhí)行計劃優(yōu)化。
Streaming SQL 規(guī)范Stream Query Writer的參數(shù)配置。 優(yōu)化Kafka數(shù)據(jù)表Schema兼容性檢查。 Kafka數(shù)據(jù)表Schema不存在時自動創(chuàng)建到SchemaRegistry。 優(yōu)化Kafka Schema不兼容時的日志信息。 修復查詢結(jié)果寫Kafka表時必須顯式指定列名的問題。 去掉流式SQL查詢只支持Kafka和Loghub數(shù)據(jù)輸入源的限制。
Delta 新增Delta,用戶可使用Spark創(chuàng)建Delta datasource,以支持流式數(shù)據(jù)寫入、事務性讀寫、數(shù)據(jù)校驗和數(shù)據(jù)回溯等應用場景。詳情請參見Delta詳細信息。 支持使用DataFrame API從Delta讀取數(shù)據(jù)或者寫入數(shù)據(jù)到Delta。 支持使用Structured Streaming API以Delta作為source或者sink進行數(shù)據(jù)的讀或?qū)憽?/p> 支持使用Delta API對數(shù)據(jù)進行update、delete、merge、vacuum、optimize等操作。 支持使用SQL創(chuàng)建基于Delta的表、導入數(shù)據(jù)到Delta和讀取Delta表等操作。
Others
|
Flink | log4j日志回滾。 |
Kafka | |
Zeppelin | 升級依賴的commons-lang3包到3.7版本,修復pyspark無法寫OSS的問題,詳情請參見Spark 2.4 incompatibility with commons-lang3 in Zeppelin。 |
Ranger | 增加Show grants支持。 |
Analytics-Zoo | 修復NumPy安裝錯誤問題。 |
Impala | 兼容Apache Kudu 1.10.0版本。 |
Presto | 升級到0.221版本。 |
ZooKeeper | 升級到3.5.5版本。 |