EMR-3.30版本JindoFS引入分層存儲(chǔ)功能。通過(guò)該功能您可以根據(jù)數(shù)據(jù)冷熱程度選擇不同的存儲(chǔ)介質(zhì)來(lái)存儲(chǔ)數(shù)據(jù),以減少數(shù)據(jù)存儲(chǔ)成本,或者加速訪問(wèn)數(shù)據(jù)的速度。

使用Jindo jfs

執(zhí)行以下命令,獲取幫助信息。
jindo jfs -help archive
-archive -i/a <path> ... :
Archive commands.

JindoFS分層存儲(chǔ)命令均為異步執(zhí)行,分層存儲(chǔ)命令只是啟動(dòng)相關(guān)任務(wù)執(zhí)行。

Cache命令

Cache命令可以備份對(duì)應(yīng)路徑的數(shù)據(jù)至本集群的磁盤(pán),以便于后續(xù)可以讀取本地?cái)?shù)據(jù),無(wú)需讀取OSS上的數(shù)據(jù)。
jindo jfs -cache -p <path>

-p參數(shù)可以保證本地?cái)?shù)據(jù)不受磁盤(pán)水位清理。

Uncache命令

Uncache命令可以刪除本地集群中的本地備份,只存儲(chǔ)數(shù)據(jù)在OSS標(biāo)準(zhǔn)存儲(chǔ)上,以便于后續(xù)讀取OSS上的數(shù)據(jù)。
jindo jfs -uncache  <path>

Archive命令

Archive命令可以歸檔存儲(chǔ)數(shù)據(jù),刪除本地磁盤(pán)上的數(shù)據(jù)備份,歸檔OSS上的數(shù)據(jù)至低頻訪問(wèn)存儲(chǔ)或者歸檔存儲(chǔ)上。存儲(chǔ)類(lèi)型請(qǐng)參見(jiàn)對(duì)象存儲(chǔ)OSS的存儲(chǔ)類(lèi)型介紹
jindo jfs -archive -i|-a <path>

-i參數(shù)可以歸檔數(shù)據(jù)至OSS低頻存儲(chǔ)類(lèi)型。-a參數(shù)可以歸檔數(shù)據(jù)至OSS歸檔存儲(chǔ)類(lèi)型。

Unarchive命令

Unarchive命令可以將數(shù)據(jù)從歸檔存儲(chǔ)類(lèi)型恢復(fù)到低頻存儲(chǔ)或者標(biāo)準(zhǔn)存儲(chǔ),同時(shí)可以臨時(shí)解凍歸檔存儲(chǔ)類(lèi)型,使數(shù)據(jù)臨時(shí)可讀,有效時(shí)間為1天。
jindo jfs -unarchive -i/-o <path>

Unarchive默認(rèn)可以將數(shù)據(jù)恢復(fù)成標(biāo)準(zhǔn)存儲(chǔ),-i參數(shù)可以恢復(fù)數(shù)據(jù)至低頻存儲(chǔ)類(lèi)型。-o參數(shù)可以臨時(shí)解凍歸檔存儲(chǔ)類(lèi)型,使數(shù)據(jù)臨時(shí)可讀。

Status命令

Status命令可以查看任務(wù)進(jìn)度信息,默認(rèn)會(huì)統(tǒng)計(jì)該路徑需要執(zhí)行分層存儲(chǔ)的文件數(shù)目以及已經(jīng)完成的數(shù)據(jù)。
jindo jfs -status -detail/-sync <path>

-detail參數(shù)可以查看文件進(jìn)度信息。-sync參數(shù)表示該命令需要同步等待分層存儲(chǔ)任務(wù)結(jié)束才會(huì)退出。

ls2命令

JindoFS擴(kuò)展hadoop ls相關(guān)操作,提供ls2命令可以查看文件存儲(chǔ)狀態(tài)。
hadoop fs -ls2 <path>
返回信息會(huì)包含文件的存儲(chǔ)類(lèi)型,示例如下。
drwxrwxrwx  - -         0    2020-06-05 04:27 oss://xxxx/warehouse
-rw-rw-rw-  1 Archive   1484 2020-09-23 16:40 oss://xxxx/wikipedia_data.csv
-rw-rw-rw-  1 Standard  1676 2020-06-07 20:04 oss://xxxx/wikipedia_data.json