本文以OSS為例,介紹如何將Hadoop文件系統上的數據遷移至JindoFS。
遷移數據
-
Hadoop FsShell
對于文件較少或者數據量較小的場景,可以直接使用Hadoop的FsShell進行同步:
hadoop dfs -cp hdfs://emr-cluster/README.md jfs://emr-jfs/
hadoop dfs -cp oss://oss_bucket/README.md jfs://emr-jfs/
-
DistCp
對于文件較多或者數據量較大的場景,推薦使用Hadoop內置的DistCp進行同步:
hadoop distcp hdfs://emr-cluster/files jfs://emr-jfs/output/
hadoop distcp oss://oss_bucket/files jfs://emr-jfs/output/
說明 DistCp參數詳情,請參見DistCp Version2 Guide。
利用JindoFS緩存模式
緩存模式是兼容現有OSS的存儲方式,文件會以原生對象的形式存儲在OSS上,同時OSS文件通過JindoFS緩存模式訪問時,也有機會在本地進行數據和元數據的緩存、加速訪問,具體請參見JindoFS緩存模式。