本文中含有需要您注意的重要提示信息,忽略該信息可能對您的業務造成影響,請務必仔細閱讀。
本文介紹如何使用數據傳輸服務DTS(Data Transmission Service),將PolarDB MySQL版集群同步至阿里云消息隊列Kafka版,擴展消息處理能力。
前提條件
已創建目標阿里云消息隊列Kafka版實例,詳情請參見概述。
目標實例阿里云消息隊列Kafka版中已創建用于接收同步數據的Topic,請參見步驟一:創建Topic。
注意事項
DTS不會將源數據庫中的外鍵同步到目標數據庫,因此源數據庫的級聯、刪除等操作不會同步到目標數據庫。
類型 | 說明 |
源庫限制 |
|
其他限制 |
|
其他注意事項 | DTS會在源庫定時執行CREATE DATABASE IF NOT EXISTS `test`命令以推進Binlog位點。 |
單條記錄大小限制
由于寫入Kafka單條記錄的大小是10MB,因此當源端一行數據超過10MB時,DTS由于無法成功寫入Kafka會導致任務中斷。在該場景下建議您不要同步該表,如果一定要同步,也只能同步部分列,即配置DTS任務時,過濾掉這些大字段的記錄。如果已經是在同步中的任務,則需要修改同步對象,將該表移出,再次點擊修改同步對象,加入該表,并將該表的大字段列過濾,不做同步。
支持的同步架構
一對一單向同步。
一對多單向同步。
多對一單向同步。
級聯單向同步。
關于各類同步架構的介紹及注意事項,請參見數據同步拓撲介紹。
支持同步的SQL操作
操作類型 | SQL操作語句 |
DML | INSERT、UPDATE、DELETE |
DDL |
|
數據庫賬號的權限要求
數據庫 | 權限要求 |
源PolarDB MySQL版集群 | 待同步對象的讀權限。 |
操作步驟
進入同步任務的列表頁面。
登錄DMS數據管理服務。
在頂部菜單欄中,單擊集成與開發。
在左側導航欄,選擇 。
說明實際操作可能會因DMS的模式和布局不同,而有所差異。更多信息,請參見極簡模式和自定義DMS界面布局與樣式。
您也可以登錄新版DTS同步任務的列表頁面。
在同步任務右側,選擇同步實例所屬地域。
說明新版DTS同步任務列表頁面,需要在頁面左上角選擇同步實例所屬地域。
單擊創建任務,配置源庫及目標庫信息。
警告選擇源和目標實例后,建議您仔細閱讀頁面上方顯示的使用限制,否則可能會導致任務失敗或數據不一致。
類別
配置
說明
無
任務名稱
DTS會自動生成一個任務名稱,建議配置具有業務意義的名稱(無唯一性要求),便于后續識別。
源庫信息
選擇DMS數據庫實例
您可以按實際需求,選擇是否使用已有實例。
如使用已有實例,下方數據庫信息將自動填入,您無需重復輸入。
如不使用已有實例,您需要輸入下方的數據庫信息。
數據庫類型
選擇PolarDB MySQL。
接入方式
選擇云實例。
實例地區
選擇源PolarDB MySQL版集群所屬地域。
是否跨阿里云賬號
本場景為同一阿里云賬號間遷移,選擇不跨賬號。
PolarDB實例ID
選擇源PolarDB MySQL版集群ID。
數據庫賬號
填入源PolarDB MySQL版集群的數據庫賬號,權限要求請參見數據庫賬號的權限要求。
數據庫密碼
填入該數據庫賬號對應的密碼。
連接方式
根據需求選擇非加密連接或SSL安全連接。如果設置為SSL安全連接,您需要提前開啟RDS MySQL實例的SSL加密功能,詳情請參見使用云端證書快速開啟SSL鏈路加密。
連接方式
請根據實際情況選擇。更多關于SSL加密功能的信息,請參見設置SSL加密。
目標庫信息
選擇DMS數據庫實例
您可以按實際需求,選擇是否使用已有實例。
如使用已有實例,下方數據庫信息將自動填入,您無需重復輸入。
如不使用已有實例,您需要輸入下方的數據庫信息。
數據庫類型
選擇Kafka。
接入方式
選擇專線/VPN網關/智能網關。
說明由于DTS暫時不支持直接選擇阿里云消息隊列Kafka版,此處將其作為自建Kafka來配置數據同步。
實例地區
選擇目標阿里云消息隊列Kafka版實例所屬地域。
已和目標端數據庫聯通的VPC
選擇目標阿里云消息隊列Kafka版實例所屬的專有網絡ID。您可以在Kafka實例的基本信息頁面中查看到專有網絡ID。
主機名或IP地址
填入阿里云消息隊列Kafka版實例默認接入點中的任意一個IP地址。
說明您可以在阿里云消息隊列Kafka版實例的基本信息頁面中,獲取默認接入點對應的IP地址。
端口
阿里云消息隊列Kafka版實例的服務端口,默認為9092。
數據庫賬號
填入目標阿里云消息隊列Kafka版實例的數據庫賬號。
說明如果阿里云消息隊列Kafka版實例的實例類型為VPC實例,無需配置數據庫賬號和數據庫密碼。
數據庫密碼
填入該數據庫賬號對應的密碼。
Kafka版本
根據Kafka實例版本,選擇對應的版本信息。
連接方式
根據業務及安全需求,選擇非加密連接或SCRAM-SHA-256。
Topic
在下拉框中選擇具體的Topic。
存儲DDL的Topic
在下拉框中選擇具體的Topic,用于存儲DDL信息。如果未指定,DDL信息默認存儲在Topic選擇的Topic中。
是否使用Kafka Schema Registry
Kafka Schema Registry是元數據提供服務層,提供了一個RESTful接口,用于存儲和檢索Avro Schema。
否:不使用Kafka Schema Registry。
是:使用Kafka Schema Registry。您需要輸入Avro Schema在Kafka Schema Registry注冊的URL或IP。
如果您的自建數據庫具備白名單安全設置,您需要復制彈跳框中的DTS服務器IP地址,并加入自建數據庫的白名單安全設置中。然后單擊測試連接以進行下一步。
說明DTS服務器IP地址的更多說明,請參見添加DTS服務器的IP地址段。
配置任務對象及高級配置。
配置
說明
同步類型
固定選中增量同步。默認情況下,您還需要同時選中庫表結構同步和全量同步。預檢查完成后,DTS會將源實例中待同步對象的全量數據在目標集群中初始化,作為后續增量同步數據的基線數據。
目標已存在表的處理模式
預檢查并報錯攔截:檢查目標數據庫中是否有同名的表。如果目標數據庫中沒有同名的表,則通過該檢查項目;如果目標數據庫中有同名的表,則在預檢查階段提示錯誤,數據同步任務不會被啟動。
說明如果目標庫中同名的表不方便刪除或重命名,您可以更改該表在目標庫中的名稱,請參見庫表列名映射。
忽略報錯并繼續執行:跳過目標數據庫中是否有同名表的檢查項。
警告選擇為忽略報錯并繼續執行,可能導致數據不一致,給業務帶來風險,例如:
表結構一致的情況下,如在目標庫遇到與源庫主鍵或唯一鍵的值相同的記錄:
全量期間,DTS會保留目標集群中的該條記錄,即源庫中的該條記錄不會同步至目標數據庫中。
增量期間,DTS不會保留目標集群中的該條記錄,即源庫中的該條記錄會覆蓋至目標數據庫中。
表結構不一致的情況下,可能會導致無法初始化數據、只能同步部分列的數據或同步失敗,請謹慎操作。
投遞到Kafka的數據格式
根據需求選擇同步到Kafka實例中的數據存儲格式。
如果您選擇DTS Avro,根據DTS Avro的schema定義進行數據解析,schema定義詳情請參見DTS Avro的schema定義。
如果您選擇Canal Json,Canal Json的參數說明和示例請參見Canal Json說明。
Kafka壓縮格式
根據需求選擇Kafka壓縮消息的壓縮格式。
LZ4(默認):壓縮率較低,壓縮速率較高。
GZIP:壓縮率較高,壓縮速率較低。
說明對CPU的消耗較高。
Snappy:壓縮率中等,壓縮速率中等。
投遞到Kafka Partition策略
根據業務需求選擇同步的策略,詳細介紹請參見Kafka Partition遷移策略說明。
目標庫對象名稱大小寫策略
您可以配置目標實例中同步對象的庫名、表名和列名的英文大小寫策略。默認情況下選擇DTS默認策略,您也可以選擇與源庫、目標庫默認策略保持一致。更多信息,請參見目標庫對象名稱大小寫策略。
源庫對象
在源庫對象框中單擊待同步對象,然后單擊將其移動至已選擇對象框。
說明同步對象的選擇粒度為表。
已選擇對象
如需更改單個同步對象在目標實例中的名稱,請右擊已選擇對象中的同步對象,設置方式,請參見庫表列名單個映射。
如需批量更改同步對象在目標實例中的名稱,請單擊已選擇對象方框右上方的批量編輯,設置方式,請參見庫表列名批量映射。
說明如需按庫或表級別選擇同步的SQL操作,請在已選擇對象中右擊待同步對象,并在彈出的對話框中選擇所需同步的SQL操作。支持的操作請參見支持同步的SQL操作。
如需設置WHERE條件過濾數據,請在已選擇對象中右擊待同步的表,在彈出的對話框中設置過濾條件。設置方法請參見設置過濾條件。
單擊下一步高級配置,進行高級配置。
配置
說明
選擇調度該任務的專屬集群
DTS默認將任務調度到共享集群上,您無需選擇。若您希望任務更加穩定,可以購買專屬集群來運行DTS同步任務。更多信息,請參見什么是DTS專屬集群。
源庫、目標庫無法連接后的重試時間
在同步任務啟動后,若源庫或目標庫連接失敗則DTS會報錯,并會立即進行持續的重試連接,默認持續重試時間為720分鐘,您也可以在取值范圍(10~1440分鐘)內自定義重試時間,建議設置30分鐘以上。如果DTS在設置的重試時間內重新連接上源庫、目標庫,同步任務將自動恢復。否則,同步任務將會失敗。
說明針對同源或者同目標的多個DTS實例,如DTS實例A和DTS實例B,設置網絡重試時間時A設置30分鐘,B設置60分鐘,則重試時間以低的30分鐘為準。
由于連接重試期間,DTS將收取任務運行費用,建議您根據業務需要自定義重試時間,或者在源和目標庫實例釋放后盡快釋放DTS實例。
源庫、目標庫出現其他問題后的重試時間
在同步任務啟動后,若源庫或目標庫出現非連接性的其他問題(如DDL或DML執行異常),則DTS會報錯并會立即進行持續的重試操作,默認持續重試時間為10分鐘,您也可以在取值范圍(1~1440分鐘)內自定義重試時間,建議設置10分鐘以上。如果DTS在設置的重試時間內相關操作執行成功,同步任務將自動恢復。否則,同步任務將會失敗。
重要源庫、目標庫出現其他問題后的重試時間的值需要小于源庫、目標庫無法連接后的重試時間的值。
是否限制全量遷移速率
在全量同步階段,DTS將占用源庫和目標庫一定的讀寫資源,可能會導致數據庫的負載上升。您可以根據實際情況,選擇是否對全量同步任務進行限速設置(設置每秒查詢源庫的速率QPS、每秒全量遷移的行數RPS和每秒全量遷移的數據量(MB)BPS),以緩解目標庫的壓力。
說明僅當同步類型選擇了全量同步時才可以配置。
是否限制增量同步速率
您也可以根據實際情況,選擇是否對增量同步任務進行限速設置(設置每秒增量同步的行數RPS和每秒增量同步的數據量(MB)BPS),以緩解目標庫的壓力。
環境標簽
您可以根據實際情況,選擇用于標識實例的環境標簽。本示例無需選擇。
是否去除正反向任務的心跳表sql
根據業務需求選擇是否在DTS實例運行時,在源庫中寫入心跳SQL信息。
是:不在源庫中寫入心跳SQL信息,DTS實例可能會顯示有延遲。
否:在源庫中寫入心跳SQL信息,可能會影響源庫的物理備份和克隆等功能。
配置ETL功能
選擇是否配置ETL功能。關于ETL的更多信息,請參見什么是ETL。
是:配置ETL功能,并在文本框中填寫數據處理語句,詳情請參見在DTS遷移或同步任務中配置ETL。
否:不配置ETL功能。
監控告警
是否設置告警,當同步失敗或延遲超過閾值后,將通知告警聯系人。
不設置:不設置告警。
設置:設置告警,您還需要設置告警閾值和告警聯系人。更多信息,請參見在配置任務過程中配置監控告警。
可選:在已選擇對象區域框中,將鼠標指針放置在目標Topic名上,然后右擊Topic名后出現編輯,在彈出的對話框中設置源表在目標Kafka實例中的Topic名稱、Topic的Partition數量、Partition Key等信息。
配置
說明
表名稱
設置源表同步到的目標Topic名稱。
警告設置的Topic名稱必須在目標Kafka實例中真實存在,否則將導致數據同步失敗。
過濾條件
過濾條件支持標準的SQL WHERE語句(僅支持
=
、!=
、<
和>
操作符),只有滿足WHERE條件的數據才會被同步到目標Topic。本案例填入p_id>1
。過濾條件中如需使用引號,請使用單引號('),例如
address in('hangzhou','shanghai')
。
設置新Topic的Partition數量
本場景中,目標Kafka為消息隊列Kafka實例,暫不支持該功能,無需配置本參數。
設置Partition Key
當您在步驟5中選擇同步策略為按主鍵的hash值投遞到不同Partition時,您可以配置本參數,指定單個或多個列作為Partition Key來計算Hash值,DTS將根據計算得到的Hash值將不同的行投遞到目標Topic的各Partition中。
保存任務并進行預檢查。
若您需要查看調用API接口配置該實例時的參數信息,請將鼠標光標移動至下一步保存任務并預檢查按鈕上,然后單擊氣泡中的預覽OpenAPI參數。
若您無需查看或已完成查看API參數,請單擊頁面下方的下一步保存任務并預檢查。
說明在同步作業正式啟動之前,會先進行預檢查。只有預檢查通過后,才能成功啟動同步作業。
如果預檢查失敗,請單擊失敗檢查項后的查看詳情,并根據提示修復后重新進行預檢查。
如果預檢查產生警告:
對于不可以忽略的檢查項,請單擊失敗檢查項后的查看詳情,并根據提示修復后重新進行預檢查。
對于可以忽略無需修復的檢查項,您可以依次單擊點擊確認告警詳情、確認屏蔽、確定、重新進行預檢查,跳過告警檢查項重新進行預檢查。如果選擇屏蔽告警檢查項,可能會導致數據不一致等問題,給業務帶來風險。
預檢查通過率顯示為100%時,單擊下一步購買。
在購買頁面,選擇數據同步實例的計費方式、鏈路規格,詳細說明請參見下表。
類別
參數
說明
信息配置
鏈路規格
DTS為您提供了不同性能的同步規格,同步鏈路規格的不同會影響同步速率,您可以根據業務場景進行選擇,詳情請參見數據同步鏈路規格說明。
配置完成后,閱讀并勾選《數據傳輸(按量付費)服務條款》。
單擊購買并啟動,并在彈出的確認對話框,單擊確定。
您可在數據同步界面查看具體任務進度。