本教程以用戶畫像為例,在華東2(上海)地域演示如何使用DataWorks完成數據同步、數據加工和質量監控的全流程操作。為了確保您能夠順利完成本教程,您需要準備教程所需的EMR Serverless StarRocks集群、DataWorks工作空間,并進行相關的環境配置。
OSS 環境準備
本案例將使用自定義函數,注冊函數所用資源將上傳于OSS,請確保您已開通OSS實例并創建好OSS Bucket。詳情請參見開始使用OSS。
EMR Serverless StarRocks 環境準備
本案例采用EMR Serverless StarRocks進行實驗,請確保您已擁有StarRocks實例,若您沒有StarRocks實例,可前往阿里云免費試用頁面查看是否有試用資格,或直接購買實例,購買詳情請參見E-MapReduce Serverless StarRocks 版購買頁面。
實例類型:存算一體。
地域:華東2(上海)地域。
實例系列:入門版。
重要該版本僅用于體驗和功能測試,不承諾SLA,您可以根據需要選擇標準版。
版本:3.1。
本案例將在數據庫user_behavior_analysis
中進行,所以在EMR Serverless StarRocks實例創建成功后,需要新建數據庫user_behavior_analysis
,可登錄EMR Serverless StarRocks 實例的SQL Editor中執行以下SQL新建數據庫。
CREATE DATABASE user_behavior_analysis;
DataWorks環境準備
在DataWorks上開發前需要已開通DataWorks服務,詳情請參見DataWorks準備工作流程。
步驟一:創建工作空間
登錄DataWorks控制臺,在左上角切換地域至擁有DataWorks服務地域。
單擊左側導航欄中的工作空間列表,進入空間列表頁面,單擊創建工作空間,即可新建工作空間,詳情請參見創建工作空間。
如果已有工作空間,也可以忽略該步驟,使用已有工作空間。
本案例提供的MySQL數據源和HttpFile所處地域在華東2(上海)地域,故本案例采用華東2(上海)地域。
步驟二:創建資源組
新購資源組:在DataWorks上運行StarRocks任務需使用資源組。關于資源組的購買,詳情請參見新增和使用Serverless資源組。
網絡連通:確保資源組與StarRocks的網絡連通,網絡連通方案,詳情請參見網絡連通方案。
確認StarRocks網絡環境
為DataWorks綁定相同VPC網絡。
StarRocks添加白名單允許DataWorks Serverless資源組訪問。
獲取DataWorks Serverless資源組出口IP。
單擊StarRocks實例名,進入樣例詳情內在基礎信息頁面中,單擊內網白名單添加DataWorks Serverless資源組的交換機網段IP。
為資源組配置公網訪問能力。
登錄專有網絡-公網NAT網關控制臺,在頂部菜單欄切換至華東2(上海)地域。
單擊創建NAT網關。配置相關參數。
參數
取值
所屬地域
華東2(上海)。
所屬專有網絡
選擇資源組綁定的VPC和交換機。
您可以前往DataWorks管理控制臺,切換地域后,在左側導航欄單擊資源組列表,找到已創建的資源組,然后單擊操作列的網絡設置,在數據調度 & 數據集成區域查看綁定的專有網絡和交換機。VPC和交換機的更多信息,請參見什么是專有網絡。
關聯交換機
訪問模式
VPC全通模式(SNAT)。
彈性公網IP
新購彈性公網IP。
關聯角色創建
首次創建NAT網關時,需要創建服務關聯角色,請單擊創建關聯角色。
說明上表中未說明的參數保持默認值即可。
單擊立即購買,勾選服務協議后,單擊確認訂單,完成購買。
步驟三:創建StarRocks數據源
在DataWorks控制臺導航欄左側單擊管理中心,然后在下拉框內選擇目標空間單擊進入管理中心。在管理中心中單擊 頁面,單擊新增數據源,選擇StarRocks,創建StarRocks數據源,將StarRocks實例通過阿里云實例模式創建數據源的方式添加至DataWorks當前空間。
StarRocks數據源基本信息配置。
您需要前往EMR控制臺,在 DataWorks 中根據您實例詳情內的信息,配置StarRocks 數據源的基礎信息,以便后續進行任務同步及加工。以下是配置項的詳細信息。
配置項
配置內容
數據源名稱
配置數據源名稱,本案例命名為:
Doc_StarRocks_Storage_Compute_Tightly_01
。數據源描述
對該數據源進行文字補充描述。
配置模式
阿里云實例模式。
地域
華東 2-上海
實例
選擇Serverless版的相應實例。
數據庫名稱
配置StarRocks內數據庫名,本案例為:
user_behavior_analysis
,本案例的所有數據操作都將在該數據庫下執行。用戶名
StarRocks數據庫賬號。
密碼
StarRocks數據庫密碼。
測試資源連通性:連通性驗證通過后,單擊完成編輯,StarRocks數據源即可成功創建。
步驟四:創建MySQL數據源
進入
頁面,單擊新增數據源,選擇MySQL,創建MySQL數據源,將MySQL實例通過連接串模式創建數據源的方式添加至DataWorks當前空間。MySQL數據源基礎信息配置。
創建MySQL數據源的基礎信息配置說明如下。
配置項
描述
數據源類型
選擇連接串模式。
數據源名稱
請輸入MySQL公共數據源在您空間下的顯示名,本教程數據源命名為
user_behavior_analysis_mysql
。數據源描述
對數據源進行簡單描述。
本數據源為DataWorks案例體驗專用數據源,在離線同步配置時讀取該數據源即可訪問平臺提供的測試數據,該數據源只支持數據集成場景讀取,其他模塊不支持使用。
JDBC URL
輸入
jdbc:mysql://rm-bp1z69dodhh85z9qa.mysql.rds.aliyuncs.com:3306/workshop
。用戶名
輸入用戶名,請填寫workshop。
密碼
輸入密碼,請填寫workshop#2017。
認證選項
無認證。
版本
自動選擇。
測試資源連通性:連通性通過后,單擊完成編輯,MySQL數據源即可創建成功。
步驟五:創建HttpFile數據源
進入
頁面,單擊新增數據源,選擇HttpFile,創建HttpFile數據源,將HttpFile數據源添加至DataWorks當前空間。HttpFile數據源基礎信息配置。
創建HttpFile數據源,基礎信息配置說明如下。
配置項
描述
數據源名稱
請輸入HttpFile公共數據源在您空間下的顯示名,本教程數據源命名為user_behavior_analysis_httpfile。
數據源描述
對數據源進行簡單描述。
本數據源為DataWorks案例體驗專用數據源,在離線同步配置時讀取該數據源即可訪問平臺提供的測試數據,該數據源只支持數據集成場景中的讀取,其他模塊不支持使用。
URL域名
輸入
https://dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.com
。測試資源連通性:連通性通過之后,只需單擊完成編輯,HttpFile數據源即可成功創建。
后續步驟
現在,您已經完成了環境的準備,您可以繼續下一個教程。在下一個教程中,您將學習將用戶基本信息數據、用戶網站訪問日志數據同步至StarRocks中。詳情請參見同步數據。