數(shù)據(jù)集成(Data Integration)是阿里巴巴集團提供的數(shù)據(jù)同步平臺。該平臺具備可跨異構(gòu)數(shù)據(jù)存儲系統(tǒng)、可靠、安全、低成本、可彈性擴展等特點,可為20多種數(shù)據(jù)源提供不同網(wǎng)絡環(huán)境下的離線(全量/增量)數(shù)據(jù)進出通道。
關(guān)于數(shù)據(jù)集成的更多信息,請參見數(shù)據(jù)集成(Data Integration)和支持的數(shù)據(jù)源與讀寫插件。
應用場景
- AnalyticDB PostgreSQL版可以通過數(shù)據(jù)集成的同步任務將數(shù)據(jù)同步到其他的數(shù)據(jù)源中(AnalyticDB PostgreSQL版數(shù)據(jù)導出),并對數(shù)據(jù)進行相應的處理。
- 可以通過數(shù)據(jù)集成的同步任務將處理好的其他數(shù)據(jù)源數(shù)據(jù)同步到AnalyticDB PostgreSQL版(AnalyticDB PostgreSQL版數(shù)據(jù)導入)。
無論是哪種應用場景,都可以通過DataWorks的數(shù)據(jù)集成功能完成數(shù)據(jù)的同步過程,詳細的操作步驟(包括創(chuàng)建數(shù)據(jù)集成任務、數(shù)據(jù)源配置、作業(yè)配置、白名單配置等),請參考DataWorks文檔中的使用指南-->數(shù)據(jù)集成一欄。文章中余下部分會介紹AnalyticDB PostgreSQL版的數(shù)據(jù)導入導出操作詳細步驟。
準備工作
數(shù)據(jù)集成任務準備
- 開通DataWorks服務
- 開通MaxCompute,自動產(chǎn)生一個默認的MaxCompute數(shù)據(jù)源,并使用主賬號登錄DataWorks
- 創(chuàng)建工作空間。您可在工作空間中協(xié)作完成工作流,共同維護數(shù)據(jù)和任務等,因此使用DataWorks前需要先創(chuàng)建工作空間。
AnalyticDB PostgreSQL版準備:
- 進行數(shù)據(jù)導入操作前,請通過PostgreSQL客戶端創(chuàng)建好AnalyticDB PostgreSQL版中需要遷入數(shù)據(jù)的目標數(shù)據(jù)庫和表。
- 對于數(shù)據(jù)導出,請登錄AnalyticDB PostgreSQL版的管理控制臺進行IP白名單設置,詳情請參見 添加白名單
數(shù)據(jù)導入
源端的數(shù)據(jù)源需要在DataWorks管理控制臺進行添加,數(shù)據(jù)源添加的詳細步驟請參考配置AnalyticDB for PostgreSQL數(shù)據(jù)源
配置同步任務:
配置好數(shù)據(jù)源后,就可以配置同步任務,完成數(shù)據(jù)源數(shù)據(jù)到AnalyticDB PostgreSQL版的數(shù)據(jù)導入。配置同步任務有兩種模式:向?qū)J?/span>和腳本模式。
- 向?qū)J健Mㄟ^向?qū)J脚渲脭?shù)據(jù)集成任務,需要依次完成以下幾步:
- 新建數(shù)據(jù)同步節(jié)點。
- 選擇數(shù)據(jù)來源。
- 選擇數(shù)據(jù)去向(這里的數(shù)據(jù)去向一定是AnalyticDB PostgreSQL版)。
- 配置字段的映射關(guān)系。
- 配置作業(yè)速率上限、臟數(shù)據(jù)檢查規(guī)則等信息。
- 配置調(diào)度屬性。
說明 具體操作步驟請參考DataWorks通過向?qū)J脚渲秒x線同步任務 - 腳本模式。通過腳本模式配置數(shù)據(jù)集成任務,需要依次完成以下幾步:
- 新建數(shù)據(jù)同步節(jié)點。
- 導入模板。
- 配置同步任務的讀取端。
- 配置同步任務的寫入端(這里寫入端一定是AnalyticDB PostgreSQL版)。
- 配置字段的映射關(guān)系。
- 配置作業(yè)速率上限、臟數(shù)據(jù)檢查規(guī)則等信息。
- 配置調(diào)度屬性。
說明 具體操作步驟請參考DataWorks通過腳本模式配置離線同步任務
數(shù)據(jù)導出
數(shù)據(jù)導出的步驟和數(shù)據(jù)導入的步驟一樣,區(qū)別是在數(shù)據(jù)導出中,數(shù)據(jù)源配置需要配置為AnalyticDB PostgreSQL版(參見配置AnalyticDB for PostgreSQL數(shù)據(jù)源),而目的端可以配置為其他的數(shù)據(jù)源類型。
參考信息
更多數(shù)據(jù)集成詳細信息請參考DataWorks文檔