日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

文檔

數據集成側同步任務能力說明

更新時間:

DataWorks為您提供多種數據源之間進行不同數據同步場景的全增量同步任務,包括實時數據同步、離線全量同步、離線增量同步等同步場景,助力企業數據更高效、更便捷的一鍵上云。

背景信息

實際業務場景下,數據同步通常不能通過一個或多個簡單離線同步或者實時同步任務完成,而是由多個離線同步、實時同步數據處理等任務組合完成,這就會導致數據同步場景下的配置復雜度非常高。

為了解決上述問題,DataWorks提出了面向業務場景的同步任務配置化方案,支持不同數據源的一鍵同步功能,例如,“一鍵實時同步至Elasticsearch”、“一鍵實時同步至Hologres”和“一鍵實時同步至MaxCompute”功能等,通過此類功能,您只需要進行簡單的配置,就可以完成一個復雜業務場景。

說明

以業務數據庫數據同步到MaxCompute數據倉庫為例,當有大量的數據存儲在數據庫系統里,需要將數據庫中的全量及增量數據同步到MaxCompute進行數倉分析時,數據集成傳統方式是通過全量同步或者依賴數據庫表中的modify_time等字段進行增量同步。但實際生產場景下,數據庫表中不一定存在modify_time等字段,因此不能使用傳統的基于JDBC抽取的方式進行增量同步。而“一鍵實時同步至MaxCompute”功能實現了數據庫全增量實時同步到MaxCompute以及在MaxCompute上進行自動的全增量合并,可以使整個同步場景化繁為簡。

全增量同步任務具有如下優勢:

  • 全量數據初始化。

  • 增量數據實時寫入。

  • 增量數據和全量數據定時自動合并寫入新的全量表分區。

功能概述

全增量同步任務支持的能力如下圖所示:架構

功能

描述

復雜網絡環境下的數據同步

支持云數據庫、本地IDC、ECS自建數據庫或非阿里云數據庫等環境下的數據同步。您可以根據數據庫所在網絡環境,選擇合適的全增量同步任務來實現數據源與資源組的網絡連通。在配置同步任務前,您需要確保數據集成資源組與您將同步的數據來源端與目標端網絡環境已經連通,對應數據庫環境與網絡連通配置詳情請參見:配置資源組與網絡連通。

數據同步場景

全增量同步任務支持單表數據同步至目標端單表、分庫分表數據同步至目標端單表、整庫(多表)數據同步至目標端多表。

DataWorks為您提供多種類型的全增量同步任務。包括整庫離線同步(一次性全量同步、周期性全量同步、離線全增量同步、一次性增量同步、周期性增量同步)、一鍵實時同步(一次性全量同步,實時增量同步)。詳情請參見:支持的數據源及同步方案。

全增量同步任務配置

全增量同步任務配置時支持的能力如下,詳細配置請參見:數據集成側同步任務配置。任務配置相關能力說明請參見:數據集成側同步任務配置相關能力。

全增量同步任務運維

  • 全增量同步任務為您提供了一鍵增加及刪除同步表功能,方便您為已成功配置運行的同步任務快速添加新表或刪除已有同步表。詳情請參見:管理全增量同步任務。

  • 支持您查看所選時間周期中,目標全增量同步任務的整體運行狀態分布、資源使用率,以及離線和實時子任務的運行狀態分布、同步速率、同步數據及任務延遲情況,詳情請參見:查看任務運行概況。

  • 全增量同步任務將根據方案屬性,生成實時子任務或多個離線子任務,您可以對子任務自定義監控報警規則。實時同步子任務監控報警詳情請參見實時同步任務運維,離線同步子任務詳情請參見離線同步任務運維

數據集成側同步任務配置相關能力

支持的能力

說明

刷新表映射

單擊刷新源端與目標端表映射按鈕后,下方表格會顯示刷新后的結果。刷新映射關系如上圖所示,hudi_b.tb_order_1為已有表,hudi_b.tb_order_2hudi_b.tb_order_3為自動建表。

查看或修改單表表結構

單擊表名列的表名,可以打開可視化建表的配置窗口,支持您根據業務需要,對表進行編輯。編輯表結構

上圖示例對自動建表hudi_b.tb_order_3增加了一個add_col字段,數據類型配置為TEXT,字段描述為新建表增加字段。調整完畢后,單擊應用并刷新映射按鈕進行保存。

重要

在自動建表場景下:

  • 源端已有字段不允許刪除或調整順序。

  • 源端已有字段名不允許修改。

  • 源端已有字段可以調整數據類型、主鍵、描述等配置。

已有表上圖示例對已有表hudi_b.tb_order_1增加了一個add_col字段,數據類型配置為TEXT,字段描述為已有表增加字段。調整完畢后,單擊應用并刷新映射按鈕進行保存。

重要

在使用已有表場景下:

  • 已有字段除描述外,不允許做任何調整。

  • 可以新增字段。

批量修改目標表結構

修改目標表結構

選中多行記錄后,單擊批量修改目標表結構按鈕,可以對選中表進行批量操作。調整完畢后,單擊應用并刷新映射按鈕進行保存。

重要
  • 單擊批量修改目標表結構按鈕后,彈窗默認顯示選中表字段的交集。

  • 在此彈窗中,可以添加新的字段,如上圖所示,添加字段batch_add_col。

您還可以單擊hudi_b.tb_order_3查看執行批量操作后的最終表結構,如下圖所示:查看結果

自定義目標schema名或表名

全增量同步任務默認將源端數據庫、數據表寫入目標端同名schema或同名表中,如果目標端不存在該schema或表,將會自動創建。同時,支持您定義最終寫入目標端的schema或表名稱。詳情請參見:設置表(庫)名的映射規則。

說明
  • 源端表名、schema名支持通過正則表達式轉換為目標端最終寫入的表名、schema名。

  • 您還可以使用內置的變量組合生成目標表名,同時,對轉換后的目標表名支持添加前綴和后綴。

為目標字段賦值

全增量同步任務默認同名映射,將源端字段寫入目標端同名字段中。同時,支持您為目標表新增字段并為字段賦值常量或變量。單擊目標表字段賦值列的編輯,彈窗會自動顯示出調整后的表結構。

  • id、name字段在源表、目標表中均存在,此字段默認使用源端表對應字段的值,不允許修改。

  • add_col、batch_add_col為手動調整后的Hologres表與源端表結構的DIFF字段,此字段允許進行賦值操作。以下圖配置為例:

    • 手動賦值:輸入固定字符串固定值寫入,則此字符串將被寫入到Hologres表中add_col字段中。

    • 選擇變量:選擇內置變量,變量代表不同的業務含義,變量指代的內容,將被寫入到Hologres表的batch_add_col字段中。

賦值
說明

支持的變量解釋:

  • DATASOURCE_NAME_SRC:源端數據源名稱

  • DB_NAME_SRC:源端數據庫名稱

  • TABLE_NAME_SRC:源表名稱

  • DATASOURCE_NAME_DEST:目標端數據源名稱

  • DB_NAME_DEST:目標端數據庫名稱

  • TABLE_NAME_DEST:目標表名稱

  • DB_NAME_SRC_TRANSED:源庫名轉換后名稱

  • EXECUTE_TIME:源端事件變更時間

定義DDL/DML消息處理策略

針對源端DDL類型的消息,您可以在任務配置時,根據業務需要,對不同的DDL消息設置同步至目標端的處理策略。目標端支持的DML與DDL操作詳情請參見:支持的DML及DDL操作

說明
  • 整庫離線同步場景不支持該功能。

  • DML規則支持邏輯刪除:開啟邏輯刪除后,將自動在目標表追加字段_data_integration_deleted_,字段類型為Boolean。當上游數據為DELETE操作時,Hologres側將轉換為update tb_xxx set _data_integration_deleted_=true where id=xxx進行實際寫入,以實現邏輯刪除功能。

  • 開啟邏輯刪除后,可以再次查看目標表結構配置,如下圖所示:查看配置