數(shù)據(jù)集成(Data Integration)是阿里巴巴集團提供的數(shù)據(jù)同步平臺。該平臺具備可跨異構(gòu)數(shù)據(jù)存儲系統(tǒng)、可靠、安全、低成本、可彈性擴展等特點,可為20多種數(shù)據(jù)源提供不同網(wǎng)絡環(huán)境下的離線(全量/增量)數(shù)據(jù)進出通道。

關(guān)于數(shù)據(jù)集成的更多信息,請參見數(shù)據(jù)集成(Data Integration)支持的數(shù)據(jù)源與讀寫插件

應用場景

  • AnalyticDB PostgreSQL版可以通過數(shù)據(jù)集成的同步任務將數(shù)據(jù)同步到其他的數(shù)據(jù)源中(AnalyticDB PostgreSQL版數(shù)據(jù)導出),并對數(shù)據(jù)進行相應的處理。
  • 可以通過數(shù)據(jù)集成的同步任務將處理好的其他數(shù)據(jù)源數(shù)據(jù)同步到AnalyticDB PostgreSQL版AnalyticDB PostgreSQL版數(shù)據(jù)導入)。

無論是哪種應用場景,都可以通過DataWorks的數(shù)據(jù)集成功能完成數(shù)據(jù)的同步過程,詳細的操作步驟(包括創(chuàng)建數(shù)據(jù)集成任務、數(shù)據(jù)源配置、作業(yè)配置、白名單配置等),請參考DataWorks文檔中的使用指南-->數(shù)據(jù)集成一欄。文章中余下部分會介紹AnalyticDB PostgreSQL版的數(shù)據(jù)導入導出操作詳細步驟。

準備工作

數(shù)據(jù)集成任務準備

  1. 開通DataWorks服務
  2. 開通MaxCompute,自動產(chǎn)生一個默認的MaxCompute數(shù)據(jù)源,并使用主賬號登錄DataWorks
  3. 創(chuàng)建工作空間。您可在工作空間中協(xié)作完成工作流,共同維護數(shù)據(jù)和任務等,因此使用DataWorks前需要先創(chuàng)建工作空間。
說明 如果您想通過子賬號創(chuàng)建數(shù)據(jù)集成任務,可以賦予其相應的權(quán)限。詳情請參見創(chuàng)建RAM用戶

AnalyticDB PostgreSQL版準備:

  1. 進行數(shù)據(jù)導入操作前,請通過PostgreSQL客戶端創(chuàng)建好AnalyticDB PostgreSQL版中需要遷入數(shù)據(jù)的目標數(shù)據(jù)庫和表。
  2. 對于數(shù)據(jù)導出,請登錄AnalyticDB PostgreSQL版的管理控制臺進行IP白名單設置,詳情請參見 添加白名單

數(shù)據(jù)導入

源端的數(shù)據(jù)源需要在DataWorks管理控制臺進行添加,數(shù)據(jù)源添加的詳細步驟請參考配置AnalyticDB for PostgreSQL數(shù)據(jù)源

配置同步任務:

配置好數(shù)據(jù)源后,就可以配置同步任務,完成數(shù)據(jù)源數(shù)據(jù)到AnalyticDB PostgreSQL版的數(shù)據(jù)導入。配置同步任務有兩種模式:向?qū)J?/span>和腳本模式

  • 向?qū)J健Mㄟ^向?qū)J脚渲脭?shù)據(jù)集成任務,需要依次完成以下幾步:
    1. 新建數(shù)據(jù)同步節(jié)點。
    2. 選擇數(shù)據(jù)來源。
    3. 選擇數(shù)據(jù)去向(這里的數(shù)據(jù)去向一定是AnalyticDB PostgreSQL版)。
    4. 配置字段的映射關(guān)系。
    5. 配置作業(yè)速率上限、臟數(shù)據(jù)檢查規(guī)則等信息。
    6. 配置調(diào)度屬性。
    說明 具體操作步驟請參考DataWorks通過向?qū)J脚渲秒x線同步任務
  • 腳本模式。通過腳本模式配置數(shù)據(jù)集成任務,需要依次完成以下幾步:
    1. 新建數(shù)據(jù)同步節(jié)點。
    2. 導入模板。
    3. 配置同步任務的讀取端。
    4. 配置同步任務的寫入端(這里寫入端一定是AnalyticDB PostgreSQL版)。
    5. 配置字段的映射關(guān)系。
    6. 配置作業(yè)速率上限、臟數(shù)據(jù)檢查規(guī)則等信息。
    7. 配置調(diào)度屬性。
    說明 具體操作步驟請參考DataWorks通過腳本模式配置離線同步任務

數(shù)據(jù)導出

數(shù)據(jù)導出的步驟和數(shù)據(jù)導入的步驟一樣,區(qū)別是在數(shù)據(jù)導出中,數(shù)據(jù)源配置需要配置為AnalyticDB PostgreSQL版(參見配置AnalyticDB for PostgreSQL數(shù)據(jù)源),而目的端可以配置為其他的數(shù)據(jù)源類型。

參考信息

更多數(shù)據(jù)集成詳細信息請參考DataWorks文檔