本文以OSS為例,介紹如何將Hadoop文件系統上的數據遷移至JindoFS。

遷移數據

  • Hadoop FsShell

    對于文件較少或者數據量較小的場景,可以直接使用Hadoop的FsShell進行同步:

    • hadoop dfs -cp hdfs://emr-cluster/README.md jfs://emr-jfs/
    • hadoop dfs -cp oss://oss_bucket/README.md jfs://emr-jfs/
  • DistCp

    對于文件較多或者數據量較大的場景,推薦使用Hadoop內置的DistCp進行同步:

    • hadoop distcp hdfs://emr-cluster/files jfs://emr-jfs/output/
    • hadoop distcp oss://oss_bucket/files jfs://emr-jfs/output/
    說明 DistCp參數詳情,請參見DistCp Version2 Guide

利用JindoFS緩存模式

緩存模式是兼容現有OSS的存儲方式,文件會以原生對象的形式存儲在OSS上,同時OSS文件通過JindoFS緩存模式訪問時,也有機會在本地進行數據和元數據的緩存、加速訪問,具體請參見JindoFS緩存模式。