DataWorks支持StarRocks數據源,通過數據源對接EMR Serverless StarRocks,可實現EMR Serverless StarRocks的數據集成、開發、分析、數據服務等功能。本文為您介紹EMR Serverless StarRocks在DataWorks上的操作流程。
背景信息
了解EMR Serverless StarRocks
StarRocks是新一代極速全場景MPP(Massively Parallel Processing)數據庫,致力于構建極速和統一分析體驗。
EMR Serverless StarRocks是開源StarRocks在阿里云上的全托管服務,您可以通過EMR Serverless StarRocks靈活創建和管理StarRocks實例以及數據。StarRocks作為一款兼容MySQL協議的OLAP分析引擎,提供了極致的性能和豐富的OLAP場景模型,包括OLAP多維分析、數據湖分析、高并發查詢以及實時數據分析。
更多關于StarRocks、EMR Serverless StarRocks的介紹請參見什么是EMR Serverless StarRocks。
也可查找釘釘群號:24010016636,加入EMR Serverless StarRocks交流釘釘群。
了解DataWorks on EMR Serverless StarRocks
DataWorks作為阿里云一站式大數據開發治理平臺,通過數據源對接EMR Serverless StarRocks,可實現EMR Serverless StarRocks的數據集成、作業周期性調度,同時結合StarRocks引擎在數據分析和數據服務上的極速表現,全面助力StarRocks在各類業務場景上的使用。
使用EMR Serverless StarRocks,涉及的主要DataWorks子產品模塊、主要概念的簡單介紹如下。
基本概念/子產品 | 簡介 | 參考文檔 |
資源組 | 您需要使用DataWorks資源組以滿足各類任務在DataWorks上運行。 | |
數據源 | 您需要創建數據源以便在DataWorks上使用該數據源。使用EMR Serverless StarRocks時,您需要創建StarRocks類型的數據源,以便可通過數據源對接EMR Serverless StarRocks進行任務開發與運行。 | 數據源介紹詳情請參見StarRocks數據源。 |
數據集成 | DataWorks為您提供數據集成子模塊,可實現多種數據源間多種同步場景下的數據同步。 | 數據集成模塊介紹請參見數據集成概述。 |
數據開發與運維中心 | DataWorks為您提供數據開發與運維中心兩個子模塊,可實現在數據開發中開發并調試任務,完成后將任務提交發布至運維中心,實現周期性自動運行。 | |
數據分析 | DataWorks數據分析可幫助您在線洞察分析、編輯和分享數據。 | |
數據服務 | DataWorks的數據服務功能模塊是靈活輕量、安全穩定的數據API構建平臺,旨在為個人、團隊與企業提供全面的數據服務與共享能力,幫助用戶統一管理面向內外部的API服務。 | |
數據地圖 | DataWorks的數據地圖是在元數據基礎上提供的企業數據目錄管理模塊,涵蓋全局數據檢索、元數據詳情查看、數據預覽、數據血緣和數據類目管理等功能。數據地圖可以幫助您更好地查找、理解和使用數據。 |
前提條件
已開通DataWorks并創建工作空間。操作詳情請參見開通DataWorks服務。
已購買資源組并完成資源組的空間綁定、網絡等配置。詳情請參見資源組管理。
已創建EMR Serverless StarRocks實例,操作詳情請參見快速使用存算一體版實例。
說明創建完成StarRocks實例后,您可以通過在EMR控制臺查看實例信息,并通過EMR StarRocks Manager連接實例查看數據庫、表等信息。
已將DataWorks資源組的白名單IP地址添加至EMR Serverless StarRocks實例的白名單中。
添加EMR Serverless StarRocks實例白名單的操作入口如下。
創建數據源
在DataWorks上使用EMR Serverless StarRocks時,您需要先創建StarRocks類型的數據源,對接已創建的EMR Serverless StarRocks數據庫,以便后續在DataWorks的各個子模塊中使用EMR Serverless StarRocks。
數據源介紹詳情請參見StarRocks數據源,數據源的創建入口及配置要點如下。
進入數據源頁面。
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的管理中心,在下拉框中選擇對應工作空間后單擊進入管理中心。
進入工作空間管理中心頁面后,單擊左側導航欄的
,進入數據源頁面。
單擊新增數據源,數據源配置要點如下,其他參數可保持默認值。
根據StarRocks實例與DataWorks資源組的網絡連通情況,選擇對應的方式創建數據源。具體網絡連通方案,請參見網絡連通方案。
內網連通
關鍵參數
說明
配置模式
選擇阿里云實例模式。
所屬云賬號
如果EMR Serverless StarRocks實例與DataWorks屬于同一賬號,則選擇當前阿里云主賬號。
如果EMR Serverless StarRocks實例屬于其他阿里云賬號,則選擇其他阿里云主賬號,選擇其他阿里云主賬號后,還需配置對方阿里云主賬號UID和對方RAM角色,對方RAM角色配置的更多信息,請參見跨賬號授權配置。
地域
選擇EMR Serverless StarRocks實例所在的地域。
實例
選擇具體Serverless版的StarRocks實例。
數據庫名稱
待連接使用的數據庫名稱。您可以通過EMR StarRocks Manager連接實例后,在元數據管理中查看。
用戶名/密碼
實例的用戶名和密碼。
創建StarRocks實例默認創建一個admin用戶,密碼為創建實例時自定義的密碼。
連接配置
您需要測試數據源與購買的資源組的連通性,連通狀態為可連通表明數據源與資源組間網絡是連通的。
公網連通
關鍵參數
說明
配置模式
選擇連接串模式。
主機地址/IP
EMR Serverless StarRocks實例中FE的公網地址。
端口
EMR Serverless StarRocks實例中FE的查詢端口(默認為9030)。
Load URL
StarRocks FE的地址用于Streamload,可以為多個FE地址,形如
FE公網地址:FE的HTTP端口
,使用逗號分割。數據庫名稱
待連接使用的數據庫名稱。您可以通過EMR StarRocks Manager連接實例后,在元數據管理中查看。
用戶名/密碼
實例的用戶名和密碼。
創建StarRocks實例默認創建一個admin用戶,密碼為創建實例時自定義的密碼。
連接配置
您需要測試數據源與購買的資源組的連通性,連通狀態為可連通表明數據源與資源組間網絡是連通的。
數據集成
DataWorks支持同步多種數據源的數據至EMR Serverless StarRocks表中,如MySQL、Hive、Kafka、OSS、HDFS等。以下以離線同步一個MySQL數據至EMR Serverless StarRocks表中為例,為您介紹操作要點。
StarRocks數據源同步任務的更多配置細節,請參見StarRocks數據源。
進入數據開發頁面。
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的 ,在下拉框中選擇對應工作空間后單擊進入數據開發。
創建離線同步節點,設置數據來源為MySQL,數據去向為StarRocks數據源。
選擇資源組后,并分別測試與來源數據源、去向數據源的連通性。
設置調度周期,提交發布節點后周期執行任務。
完成調試后,您可以單擊側邊欄的調度配置,配置調度周期、重跑策略等調度參數,設置任務使用的資源組,完成后單擊提交、發布按鈕。
數據開發與調度運維
對于需要周期調度的EMR Serverless StarRocks任務,您可以在DataStudio模塊中創建StarRocks節點,選擇已經連接到的StarRocks數據源,即可編寫EMR Serverless StarRocks SQL任務,并設置調度周期來周期執行。操作步驟要點如下:
進入數據開發頁面。
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的 ,在下拉框中選擇對應工作空間后單擊進入數據開發。
在DataStudio中創建StarRocks節點,選擇已經連接到的StarRocks的數據源,即可編寫EMR Serverless StarRocks SQL任務。
在DataStudio調試EMR Serverless StarRocks SQL任務時,您需要選中待調試的SQL命令并單擊運行按鈕,選中資源組后進行調試。
設置調度周期,提交發布節點后周期執行任務。
完成調試后,您可以單擊側邊欄的調度配置,配置調度周期、重跑策略等調度參數,設置任務使用的資源組,完成后單擊提交、發布按鈕。
數據分析
您可以使用DataWorks的數據分析子模塊,對EMR Serverless StarRocks表數據進行快速分析,操作要點如下。
進入SQL查詢頁面。
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的 ,在下拉框中選擇對應工作空間后單擊進入SQL查詢。
單擊左邊側邊欄的系統管理,設置StarRocks類的查詢資源組為任務使用的資源組。
回到SQL查詢頁面,在右上角切換引擎類型為StarRocks,并選擇數據源,即可編輯查詢語句并運行,進行EMR Serverless StarRocks數據分析。
數據服務
數據服務支持生成StarRocks數據源類型的API。
進入數據服務頁面。
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的數據服務,在下拉框中選擇對應工作空間后單擊進入數據服務。
生成一個API,并配置API參數。
數據服務支持向導模式和腳本模式兩種編輯場景,腳本模式支持根據查詢SQL語句自動生成API的請求參數和返回參數。以下以向導模式為例為您示例操作要點。
選擇數據源類型為StarRocks,選擇創建的StarRocks數據源后,選擇對應的表,根據界面選擇API的請求參數、返回參數等API配置。
單擊右邊側邊欄的服務資源組,配置資源組為獨享數據服務資源組。
測試API成功后,提交并發布API。
數據地圖
數據地圖模塊支持對StarRocks數據的元數據采集、搜索和表詳情頁。
元數據采集
進入數據地圖頁面。
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的 ,在右側頁面中單擊進入數據地圖。
在左側導航欄單擊元數據采集,然后單擊StarRocks模塊右上角的管理。
切換至未采集列表頁簽,在操作列單擊元數據采集。
配置資源組名稱、測試連通性通過并設置采集計劃后,單擊確認,完成元數據采集配置。
說明元數據采集的更多信息,請參見元數據采集。
僅支持Serverless資源組運行該任務。
搜索
進入數據地圖頁面。
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的 ,在右側頁面中單擊進入數據地圖。
在左側導航欄單擊搜索,數據源選擇StarRocks,然后即可在頂部根據不同類型進行搜索表。
說明搜索的更多信息,請參見通用數據查詢與管理。
表詳情
進入數據地圖頁面。
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的 ,在右側頁面中單擊進入數據地圖。
在數據地圖首頁或搜索中找到目標表后,單擊表名,進入表詳情頁。
在表詳情頁即可查看表基礎信息、技術信息、業務信息、明細信息、產出信息及血緣信息等。