SmartData組件是EMR Jindo引擎的存儲部分,為EMR各個計算引擎提供統一的存儲、緩存、計算優化以及功能擴展。SmartData組件主要包括JindoFS、JindoTable和相關工具集。本文介紹SmartData(3.4.x)版本的更新內容。

JindoFS OSS擴展和支持

  • 新增OSS recoverable OutputStream功能,支持Flush和Recover API。適用于高可靠寫入場景,例如Flume。
  • 優化OSS Rename操作性能,結合OSS服務端提升Rename操作的執行時間。
  • 優化OSS多版本下的List操作性能,避免Bucket多版本下大量臨時文件影響目錄的List性能。
  • 優化OSS多版本JindoMagicCommitter性能,新增JindoDirectCommitter。
  • 增強Credentials Provider框架,新增JindoCommonCredentialsProvider。
  • 優化文件Create操作的性能,去掉OSS寫入時的冗余檢查。

JindoFS存儲優化

JindoFS Block模式支持數據加密,加密密鑰支持阿里云密鑰管理服務KMS(Key Management Service)和國際AES加密算法。

JindoTable計算優化

完善Native Orc Reader,Block模式支持新的免密方式。

JindoFS工具集

增強JindoDistcp,優化增量遷移場景。例如,遷移HDFS數據至OSS時,實現遷移路徑的Checksum比對。

JindoFS生態支持

新增Python版本的Jindo OSS SDK,支持基本的OSS操作,兼容OSS2 Python庫。