本文為您介紹OSS和OSS-HDFS的使用方式、優點和特性對比。

背景信息

阿里云對象存儲OSS(Object Storage Service)是一款海量、安全、低成本、高可靠的云存儲服務,可提供99.9999999999%(12個9)的數據持久性,99.995%的數據可用性。多種存儲類型供選擇,全面優化存儲成本。更多信息,請參見什么是對象存儲OSS。

OSS-HDFS服務(JindoFS服務)是一款云原生數據湖存儲產品?;诮y一的元數據管理能力,在完全兼容HDFS文件系統接口的同時,提供充分的POSIX能力支持,能更好地滿足大數據和AI等領域的數據湖計算場景。更多信息,請參見OSS-HDFS服務概述。

JindoData是阿里云開源大數據團隊自研的數據湖存儲加速套件,面向大數據和AI生態,為阿里云和業界主要數據湖存儲系統提供全方位訪問加速解決方案。JindoData套件基于統一架構和內核實現,主要包括 JindoFS 存儲系統(原JindoFS Block模式),JindoFSx存儲加速系統(原JindoFS Cache模式),JindoSDK大數據萬能SDK和全面兼容的生態工具(JindoFuse、JindoDistCp)、插件支持。更多信息,請參見JindoData概述。

使用方式

  • 在EMR環境中,已經默認部署JindoSDK,您可以直接通過JindoSDK來訪問OSS或OSS-HDFS。
  • 在非EMR環境中,您可以通過下載最新版本的JindoSDK自行部署使用。具體操作,請參見在非EMR集群中部署JindoSDK

優點

使用OSS或OSS-HDFS作為底層存儲具有以下優勢:
  • 即插即用。OSS和OSS-HDFS是云原生存儲服務,通過Restful API提供服務,本身無需部署。在阿里云EMR集群中,已默認安裝 JindoSDK,您可以通過JindoSDK直接訪問。
  • 節省成本。使用OSS或OSS-HDFS存儲數據可以有效節省成本,結合低頻、歸檔和冷歸檔等方式,可以進一步優化冷數據的存儲成本。
  • 可擴展性。OSS和OSS-HDFS具有更好的可擴展性,不受硬盤容量限制,無需人工擴容。

特性

通過JindoSDK使用OSS和OSS-HDFS的特性對比如下:
場景 特性 OSS OSS-HDFS
大數據場景(Hadoop) 支持目錄、文件語義和操作 支持 支持
添加目錄、文件權限 不支持 支持
目錄原子性、rename性能 支持,但性能不佳 支持,毫秒級
通過setTimes設置時間 不支持 支持
擴展屬性XAttrs 不支持 支持
ACL 不支持 支持
本地讀緩存加速 支持 支持
快照Snapshot 不支持 支持
文件append、flush和sync操作 不支持 支持
文件truncate 不支持 支持
校驗和Checksum 支持 支持
HDFS回收站自動清理 不支持 支持
AI場景(POSIX) 元數據一致性
文件append、flush和sync操作 支持,但有使用限制 支持
文件truncate操作 不支持 支持
隨機寫 不支持 支持