DataWorks是阿里云推出的全鏈路大數據開發治理平臺,融合了數據集成、數據開發、數據運維等多種功能。Lindorm寬表引擎支持通過DataWorks配置導入任務,將MySQL、PolarDB、PostgreSQL、Oracle、SQL Server和Cassandra中的數據全量導入至Lindorm寬表引擎中。本文介紹如何通過DataWorks配置Lindorm導入任務。
前提條件
已將客戶端IP添加至Lindorm白名單。如何添加,請參見設置白名單。
注意事項
如果您想要通過公網訪問或您的實例類型為Lindorm單節點,在執行本文操作前,需要先升級SDK并更改配置。具體操作,請參見通過HBase Java API連接并使用寬表引擎章節中的步驟1。
如果應用部署在ECS實例,通過專有網絡訪問Lindorm實例前,需要確保Lindorm實例和ECS實例滿足以下條件,以保證網絡的連通性。
所在地域相同,并建議所在可用區相同(以減少網絡延時)。
ECS實例與Lindorm實例屬于同一專有網絡。
步驟一:創建工作空間
在配置導入任務前,您需要先在DataWorks中創建工作空間,用于后續數據開發和任務管理。如何創建,請參見創建工作空間。
步驟二:創建資源組
資源組(Resource Group)能夠幫助您合理分配賬號內的資源,管理用戶的授權。
可創建的資源組如下表所示:
資源組類型 | 配置文檔 | 注意事項 |
獨享資源組 | 獨享資源不支持跨地域使用。例如,華東2(上海)地域的獨享資源,只能給華東2(上海)地域的工作空間使用(無法綁定其他區域的VPC),并且獨享資源組不能夸Vswtich訪問Lindorm集群。 | |
默認資源組 | 無 | 公網訪問Lindorm會在DataWorks產生額外費用。 |
步驟三:網絡配置
在配置導入任務前,您需要根據資源組的類型進行網絡配置,以保證DataWorks和Lindorm實例的連通性。
獨享資源組
默認資源組
默認資源組機器的IP地址獲取方式,請參見添加白名單。請將區域對應的IP地址添加至Lindorm白名單,具體操作請參見設置白名單。
步驟四:創建同步任務
創建數據導入離線同步任務,如何操作,請參見通過腳本模式配置離線同步任務。
步驟五:修改任務配置
如果使用Lindorm SQL方式訪問,請參考Reader腳本Demo和Writer腳本Demo配置文檔中TableService模型的配置。
如果使用HBase兼容方式訪問,請參考Reader腳本Demo和Writer腳本Demo配置文檔中WideColumn模型的配置。
腳本Demo中的lindorm.client.seedserver參數為Lindorm寬表引擎的HBase Java API兼容地址,如何獲取,請參見查看寬表引擎連接地址。
步驟六:提交并發布任務
若任務需要進行周期性調度運行,您需要將任務發布至生產環境。關于任務發布的相關說明,請參見發布任務。