SmartData組件是EMR Jindo引擎的存儲(chǔ)部分,為EMR各個(gè)計(jì)算引擎提供統(tǒng)一的存儲(chǔ)、緩存、計(jì)算優(yōu)化以及功能擴(kuò)展。SmartData組件主要包括JindoFS,JindoTable和相關(guān)工具集。本文介紹SmartData(3.0.x)版本的更新內(nèi)容。

JindoFS存儲(chǔ)優(yōu)化

  • 改進(jìn)Jindo Namespace服務(wù)單機(jī)配置,單機(jī)情況下也可以更新并異步寫入元數(shù)據(jù)至Tablestore。
  • 移除Jindo Namespace服務(wù)的Tablestore作為元數(shù)據(jù)后端的配置,不再支持基于Tablestore的HA方案。
  • 支持歸檔存儲(chǔ),允許文件數(shù)據(jù)按照OSS歸檔類型進(jìn)行存儲(chǔ),以節(jié)省成本。
  • 提供JindoFS分層存儲(chǔ)的Archive、Unarchive和Status命令,允許歸檔至指定目錄,查看歸檔操作進(jìn)度和相關(guān)狀態(tài)。
  • 提供JindoFS ls2命令,允許查看文件信息。
  • 支持JindoFS存儲(chǔ)系統(tǒng)fsimage的離線導(dǎo)出和分析查詢。
  • 支持跨集群訪問JindoFS存儲(chǔ)系統(tǒng)。

JindoFS分層存儲(chǔ)命令詳情請(qǐng)參見分層存儲(chǔ)命令使用說明

JindoFS緩存優(yōu)化

  • 改進(jìn)緩存數(shù)據(jù)磁盤組織,解除對(duì)系統(tǒng)盤的依賴,實(shí)現(xiàn)數(shù)據(jù)盤之間完全獨(dú)立,增強(qiáng)磁盤下線操作。
  • 改進(jìn)緩存服務(wù),增強(qiáng)節(jié)點(diǎn)容錯(cuò)處理和節(jié)點(diǎn)下線操作。
  • 改進(jìn)緩存塊寫入磁盤的選擇策略,默認(rèn)支持輪詢(Round Robin)。
  • 改進(jìn)讀寫流程,增強(qiáng)容錯(cuò)處理。
  • 提供JindoFS分層存儲(chǔ)的Cache、Uncache和Status命令,允許緩存至指定目錄,支持?jǐn)?shù)據(jù)預(yù)加載,查看緩存進(jìn)度和相關(guān)狀態(tài)。
  • 優(yōu)化小文件占用緩存空間的問題,準(zhǔn)確地統(tǒng)計(jì)相關(guān)指標(biāo)。

JindoTable計(jì)算優(yōu)化

  • 提供JindoTable Optimize命令,支持優(yōu)化Hive表操作,例如分區(qū)小文件合并。
  • 提供JindoTable Archive、Unarchive和Status命令,允許歸檔至指定表和分區(qū),查看歸檔操作進(jìn)度和相關(guān)狀態(tài)。
  • 支持JindoTable Cache、Uncache和Status命令,允許緩存至指定表和分區(qū),支持?jǐn)?shù)據(jù)預(yù)加載,查看緩存進(jìn)度和相關(guān)狀態(tài)。
  • 支持導(dǎo)出MaxCompute表至JindoFS緩存系統(tǒng)上,以實(shí)現(xiàn)機(jī)器學(xué)習(xí)訓(xùn)練前結(jié)構(gòu)化數(shù)據(jù)的預(yù)加載機(jī)制。

JindoTable詳情請(qǐng)參見JindoTable使用說明

JindoFS OSS擴(kuò)展和支持

  • 支持在客戶端進(jìn)行Ranger權(quán)限集成,獲取OSS各種操作,通過JindoFS服務(wù)記錄進(jìn)行Ranger權(quán)限檢查。
  • 支持在客戶端進(jìn)行操作審計(jì),獲取OSS各種操作,通過JindoFS服務(wù)記錄操作記錄,作為審計(jì)用途。
  • 支持Hadoop Credentials Provider框架,允許按照Hadoop常用方式指定OSS的AccessKey配置。
  • 支持Flink Connector,允許Flink引擎將OSS作為source、sink和checkpoint存儲(chǔ)。
  • 提供JindoFS OSS SDK(Hadoop Connector)輕量版本(lite),主要適用于非標(biāo)準(zhǔn)環(huán)境,例如用戶的IDC(Internet Data Center)集群環(huán)境。

JindoManager系統(tǒng)管理

支持通過UI來查看JindoFS存儲(chǔ)系統(tǒng)上的系統(tǒng)狀態(tài)、文件統(tǒng)計(jì)和緩存系統(tǒng)上的緩存指標(biāo)統(tǒng)計(jì)。

JindoTools工具集

改進(jìn)Jindo DistCp工具的分發(fā)機(jī)制,針對(duì)EMR集群內(nèi)使用場(chǎng)景和非EMR集群環(huán)境使用場(chǎng)景,分別使用不同的發(fā)行包。

Jindo DistCp提供輕量版本(lite),主要適用于非標(biāo)準(zhǔn)環(huán)境,例如用戶的IDC集群環(huán)境。