JindoFSx存儲加速系統提供了透明緩存的使用方式,兼容原生OSS/OSS-HDFS存儲方式,文件以對象的形式存儲在OSS/OSS-HDFS上,每個文件根據實際訪問情況會在本地進行緩存,提升訪問OSS/OSS-HDFS的效率,同時兼容了原有OSS/OSS-HDFS文件形式,數據訪問上能夠與其他OSS/OSS-HDFS客戶端完全兼容,作業訪問OSS/OSS-HDFS的方式無需做任何修改。
前提條件
已在E-MapReduce上創建EMR-3.42.0及后續版本、EMR-5.6.0及后續版本的集群,且選擇JINDODATA服務,詳情請參見創建集群。
使用限制
僅EMR-3.42.0及后續版本、EMR-5.6.0及后續版本集群支持該功能。
操作流程
本文以EMR-3.42.0版本為例介紹。
步驟一:配置AccessKey
進入JindoData服務的common頁簽。
登錄EMR on ECS。
在頂部菜單欄處,根據實際情況選擇地域和資源組。
在集群管理頁面,單擊目標集群操作列的集群服務。
單擊JindoData服務區域的配置。
單擊common頁簽。
新增配置。
單擊新增配置項。
在新增配置項對話框中,新增以下配置項。
新增配置項的具體操作,請參見添加配置項。全局方式和按照Bucket方式配置任選其中一種即可。
全局方式配置(所有Bucket使用同一種方式)
Key
描述
jindofsx.oss.accessKeyId
OSS/OSS-HDFS的AccessKey ID。
jindofsx.oss.accessKeySecret
OSS/OSS-HDFS的AccessKey Secret。
jindofsx.oss.endpoint
OSS/OSS-HDFS的Endpoint。例如:
OSS: oss-cn-***-internal.aliyuncs.com
OSS-HDFS: cn-***.oss-dls.aliyuncs.com
按照Bucket配置
Key
描述
jindofsx.oss.bucket.XXX.accessKeyId
XXX
的Bucket的AccessKey ID。jindofsx.oss.bucket.XXX.accessKeySecret
XXX
的Bucket的AccessKey Secret。jindofsx.oss.bucket.XXX.endpoint
XXX
的Bucket的Endpoint。例如:OSS: oss-cn-***-internal.aliyuncs.com
OSS-HDFS: cn-***.oss-dls.aliyuncs.com
說明XXX
為OSS Bucket的名稱。
單擊確定。
重啟服務。
在JindoData服務頁面,選擇右上角的 。
在彈出的對話框中,輸入執行原因,其他參數保持默認,單擊確定。
在確認對話框中,單擊確定。
步驟二:配置JindoSDK
進入配置頁面。
登錄EMR on ECS。
在頂部菜單欄處,根據實際情況選擇地域和資源組。
在集群管理頁面,單擊目標集群右側操作列的集群服務。
單擊Hadoop-Common服務區域的配置。
單擊core-site.xml頁簽。
修改以下配置。
修改配置項的具體操作,請參見修改配置項。
內容
是否必填
參數
描述
配置OSS實現類
是
fs.AbstractFileSystem.oss.impl
固定值為com.aliyun.jindodata.oss.OSS。
fs.oss.impl
固定值為com.aliyun.jindodata.oss.JindoOssFileSystem。
配置xengine類型
是
fs.xengine
固定值為jindofsx。
配置JindoFSx Namespace服務地址
是
fs.jindofsx.namespace.rpc.address
格式為${headerhost}:8101。例如:master-1-1:8101。
說明如果使用高可用NameSpace,配置詳情請參見高可用JindoFSx Namespace配置和使用。
啟用緩存加速功能
說明啟用緩存會利用本地磁盤對訪問的熱數據塊進行緩存,默認狀態為禁用,即可以直接訪問OSS上的數據。
是
fs.jindofsx.data.cache.enable
數據緩存開關:
false(默認值):禁用數據緩存。
true:啟用數據緩存。
配置AccessKey
是
fs.oss.accessKeyId
OSS/OSS-HDFS的AccessKey ID。
fs.oss.accessKeySecret
OSS/OSS-HDFS的AccessKey Secret。
fs.oss.endpoint
OSS/OSS-HDFS的Endpoint。例如:
OSS: oss-cn-***-internal.aliyuncs.com
OSS-HDFS: cn-***.oss-dls.aliyuncs.com
其他可選參數(選填):
內容
參數
描述
元緩存加速功能(可選)
fs.jindofsx.meta.cache.enable
元數據緩存開關:
false(默認值):禁用元數據緩存。
true:啟用元數據緩存。
小文件緩存加速功能(可選)
fs.jindofsx.slice.cache.enable
小文件緩存優化開關:
false(默認值):禁用小文件緩存。
true:啟用小文件緩存。
短路讀功能(可選)
fs.jindofsx.short.circuit.enable
短路讀開關:
true(默認值):打開短路讀開關。
false:關閉短路讀開關。
保存配置。
單擊頁面左下角的保存。
在彈出的對話框中,輸入執行原因,單擊保存。
步驟三:磁盤空間水位控制
緩存啟用后,JindoFSx服務會自動管理本地緩存備份,通過水位清理本地緩存,請您根據需求配置一定的比例用于緩存。JindoFSx后端基于OSS/OSS-HDFS,可以提供海量的存儲,但是本地盤的容量是有限的,因此JindoFSx會自動淘汰本地較冷的數據備份。您可以通過修改storage.watermark.high.ratio和storage.watermark.low.ratio兩個參數來調節本地存儲的使用容量,取值范圍為0~1,表示使用磁盤空間的比例。
修改磁盤水位配置。
在JindoData服務的配置頁簽內的storage頁簽,修改以下參數。
參數
描述
storage.watermark.low.ratio
表示使用量的下水位比例,觸發清理后會自動清理冷數據,將緩存數據目錄占用空間清理到下水位。默認值:0.2。
storage.watermark.high.ratio
表示磁盤使用量的上水位比例,每塊數據盤的緩存數據目錄占用的磁盤空間到達上水位即會觸發清理。默認值:0.4。如果需要比較高的磁盤利用率可以設置較大值。
說明修改該參數時,下水位比例必須小于上水位比例,設置合理的值即可。
保存配置。
單擊下方的保存。
在彈出的對話框中,輸入執行原因,單擊確定。
重啟服務。
在JindoData服務頁面,選擇右上角的 。
在彈出的對話框中,輸入執行原因,其他參數保持默認,單擊確定。
在確認對話框中,單擊確定。