本文為您介紹OSS和OSS-HDFS的使用方式、優點和特性對比。
背景信息
阿里云對象存儲OSS(Object Storage Service)是一款海量、安全、低成本、高可靠的云存儲服務,可提供99.9999999999%(12個9)的數據持久性,99.995%的數據可用性。多種存儲類型供選擇,全面優化存儲成本。更多信息,請參見什么是對象存儲OSS。
OSS-HDFS服務(JindoFS服務)是一款云原生數據湖存儲產品?;诮y一的元數據管理能力,在完全兼容HDFS文件系統接口的同時,提供充分的POSIX能力支持,能更好地滿足大數據和AI等領域的數據湖計算場景。更多信息,請參見OSS-HDFS服務概述。
JindoData是阿里云開源大數據團隊自研的數據湖存儲加速套件,面向大數據和AI生態,為阿里云和業界主要數據湖存儲系統提供全方位訪問加速解決方案。JindoData套件基于統一架構和內核實現,主要包括 JindoFS 存儲系統(原JindoFS Block模式),JindoFSx存儲加速系統(原JindoFS Cache模式),JindoSDK大數據萬能SDK和全面兼容的生態工具(JindoFuse、JindoDistCp)、插件支持。更多信息,請參見JindoData概述。
使用方式
- 在EMR環境中,已經默認部署JindoSDK,您可以直接通過JindoSDK來訪問OSS或OSS-HDFS。
- 在非EMR環境中,您可以通過下載最新版本的JindoSDK自行部署使用。具體操作,請參見在非EMR集群中部署JindoSDK。
優點
使用OSS或OSS-HDFS作為底層存儲具有以下優勢:
- 即插即用。OSS和OSS-HDFS是云原生存儲服務,通過Restful API提供服務,本身無需部署。在阿里云EMR集群中,已默認安裝 JindoSDK,您可以通過JindoSDK直接訪問。
- 節省成本。使用OSS或OSS-HDFS存儲數據可以有效節省成本,結合低頻、歸檔和冷歸檔等方式,可以進一步優化冷數據的存儲成本。
- 可擴展性。OSS和OSS-HDFS具有更好的可擴展性,不受硬盤容量限制,無需人工擴容。
特性
通過JindoSDK使用OSS和OSS-HDFS的特性對比如下:
場景 | 特性 | OSS | OSS-HDFS |
---|---|---|---|
大數據場景(Hadoop) | 支持目錄、文件語義和操作 | 支持 | 支持 |
添加目錄、文件權限 | 不支持 | 支持 | |
目錄原子性、rename性能 | 支持,但性能不佳 | 支持,毫秒級 | |
通過setTimes設置時間 | 不支持 | 支持 | |
擴展屬性XAttrs | 不支持 | 支持 | |
ACL | 不支持 | 支持 | |
本地讀緩存加速 | 支持 | 支持 | |
快照Snapshot | 不支持 | 支持 | |
文件append、flush和sync操作 | 不支持 | 支持 | |
文件truncate | 不支持 | 支持 | |
校驗和Checksum | 支持 | 支持 | |
HDFS回收站自動清理 | 不支持 | 支持 | |
AI場景(POSIX) | 元數據一致性 | 弱 | 強 |
文件append、flush和sync操作 | 支持,但有使用限制 | 支持 | |
文件truncate操作 | 不支持 | 支持 | |
隨機寫 | 不支持 | 支持 |