日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

文檔

DataWorks on EMR Serverless StarRocks最佳實踐

更新時間:

DataWorks支持StarRocks數據源,通過數據源對接EMR Serverless StarRocks,可實現EMR Serverless StarRocks的數據集成、開發、分析、數據服務等功能。本文為您介紹EMR Serverless StarRocks在DataWorks上的操作流程。

背景信息

了解EMR Serverless StarRocks

StarRocks是新一代極速全場景MPP(Massively Parallel Processing)數據庫,致力于構建極速和統一分析體驗。

EMR Serverless StarRocks是開源StarRocks在阿里云上的全托管服務,您可以通過EMR Serverless StarRocks靈活創建和管理StarRocks實例以及數據。StarRocks作為一款兼容MySQL協議的OLAP分析引擎,提供了極致的性能和豐富的OLAP場景模型,包括OLAP多維分析、數據湖分析、高并發查詢以及實時數據分析。

更多關于StarRocks、EMR Serverless StarRocks的介紹請參見什么是EMR Serverless StarRocks。

也可查找釘釘群號:24010016636,加入EMR Serverless StarRocks交流釘釘群。

了解DataWorks on EMR Serverless StarRocks

DataWorks作為阿里云一站式大數據開發治理平臺,通過數據源對接EMR Serverless StarRocks,可實現EMR Serverless StarRocks的數據集成、作業周期性調度,同時結合StarRocks引擎在數據分析和數據服務上的極速表現,全面助力StarRocks在各類業務場景上的使用。

單擊查看基本概念和主要DataWorks子產品介紹

使用EMR Serverless StarRocks,涉及的主要DataWorks子產品模塊、主要概念的簡單介紹如下。

基本概念/子產品

簡介

參考文檔

資源組

您需要使用DataWorks資源組以滿足各類任務在DataWorks上運行。

數據源

您需要創建數據源以便在DataWorks上使用該數據源。使用EMR Serverless StarRocks時,您需要創建StarRocks類型的數據源,以便可通過數據源對接EMR Serverless StarRocks進行任務開發與運行。

數據源介紹詳情請參見StarRocks數據源。

數據集成

DataWorks為您提供數據集成子模塊,可實現多種數據源間多種同步場景下的數據同步。

數據集成模塊介紹請參見數據集成概述。

數據開發與運維中心

DataWorks為您提供數據開發運維中心兩個子模塊,可實現在數據開發中開發并調試任務,完成后將任務提交發布至運維中心,實現周期性自動運行。

數據分析

DataWorks數據分析可幫助您在線洞察分析、編輯和分享數據。

數據分析概述

數據服務

DataWorks的數據服務功能模塊是靈活輕量、安全穩定的數據API構建平臺,旨在為個人、團隊與企業提供全面的數據服務與共享能力,幫助用戶統一管理面向內外部的API服務。

數據服務概述

數據地圖

DataWorks的數據地圖是在元數據基礎上提供的企業數據目錄管理模塊,涵蓋全局數據檢索、元數據詳情查看、數據預覽、數據血緣和數據類目管理等功能。數據地圖可以幫助您更好地查找、理解和使用數據。

數據地圖概述

前提條件

  • 已開通DataWorks并創建工作空間。操作詳情請參見開通DataWorks服務

  • 已購買資源組并完成資源組的空間綁定、網絡等配置。詳情請參見資源組管理

  • 已創建EMR Serverless StarRocks實例,操作詳情請參見快速使用存算一體版實例。

    說明

    創建完成StarRocks實例后,您可以通過在EMR控制臺查看實例信息,并通過EMR StarRocks Manager連接實例查看數據庫、表等信息。

  • 已將DataWorks資源組的白名單IP地址添加至EMR Serverless StarRocks實例的白名單中。

    添加EMR Serverless StarRocks實例白名單的操作入口如下。

    image.png

創建數據源

在DataWorks上使用EMR Serverless StarRocks時,您需要先創建StarRocks類型的數據源,對接已創建的EMR Serverless StarRocks數據庫,以便后續在DataWorks的各個子模塊中使用EMR Serverless StarRocks。

數據源介紹詳情請參見StarRocks數據源,數據源的創建入口及配置要點如下。

  1. 進入數據源頁面。

    1. 登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的管理中心,在下拉框中選擇對應工作空間后單擊進入管理中心

    2. 進入工作空間管理中心頁面后,單擊左側導航欄的數據源 > 數據源列表,進入數據源頁面。

  2. 單擊新增數據源,數據源配置要點如下,其他參數可保持默認值。

    根據StarRocks實例與DataWorks資源組的網絡連通情況,選擇對應的方式創建數據源。具體網絡連通方案,請參見網絡連通方案

    內網連通

    關鍵參數

    說明

    配置模式

    選擇阿里云實例模式

    所屬云賬號

    • 如果EMR Serverless StarRocks實例與DataWorks屬于同一賬號,則選擇當前阿里云主賬號

    • 如果EMR Serverless StarRocks實例屬于其他阿里云賬號,則選擇其他阿里云主賬號,選擇其他阿里云主賬號后,還需配置對方阿里云主賬號UID對方RAM角色,對方RAM角色配置的更多信息,請參見跨賬號授權配置

    地域

    選擇EMR Serverless StarRocks實例所在的地域。

    實例

    選擇具體Serverless版的StarRocks實例。

    數據庫名稱

    待連接使用的數據庫名稱。您可以通過EMR StarRocks Manager連接實例后,在元數據管理中查看。

    用戶名/密碼

    實例的用戶名和密碼。

    創建StarRocks實例默認創建一個admin用戶,密碼為創建實例時自定義的密碼。

    連接配置

    您需要測試數據源與購買的資源組的連通性,連通狀態為可連通表明數據源與資源組間網絡是連通的。

    公網連通

    關鍵參數

    說明

    配置模式

    選擇連接串模式。

    主機地址/IP

    EMR Serverless StarRocks實例中FE的公網地址

    image

    端口

    EMR Serverless StarRocks實例中FE的查詢端口(默認為9030)。

    Load URL

    StarRocks FE的地址用于Streamload,可以為多個FE地址,形如FE公網地址:FE的HTTP端口,使用逗號分割。

    數據庫名稱

    待連接使用的數據庫名稱。您可以通過EMR StarRocks Manager連接實例后,在元數據管理中查看。

    image

    用戶名/密碼

    實例的用戶名和密碼。

    創建StarRocks實例默認創建一個admin用戶,密碼為創建實例時自定義的密碼。

    連接配置

    您需要測試數據源與購買的資源組的連通性,連通狀態為可連通表明數據源與資源組間網絡是連通的。

數據集成

DataWorks支持同步多種數據源的數據至EMR Serverless StarRocks表中,如MySQL、Hive、Kafka、OSS、HDFS等。以下以離線同步一個MySQL數據至EMR Serverless StarRocks表中為例,為您介紹操作要點。

說明

StarRocks數據源同步任務的更多配置細節,請參見StarRocks數據源。

  1. 進入數據開發頁面。

    登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的數據建模與開發 > 數據開發,在下拉框中選擇對應工作空間后單擊進入數據開發。

  2. 創建離線同步節點,設置數據來源為MySQL,數據去向為StarRocks數據源。

    image.png

  3. 選擇資源組后,并分別測試與來源數據源、去向數據源的連通性。

  4. 設置調度周期,提交發布節點后周期執行任務。

    完成調試后,您可以單擊側邊欄的調度配置,配置調度周期、重跑策略等調度參數,設置任務使用的資源組,完成后單擊提交、發布按鈕。

數據開發與調度運維

對于需要周期調度的EMR Serverless StarRocks任務,您可以在DataStudio模塊中創建StarRocks節點,選擇已經連接到的StarRocks數據源,即可編寫EMR Serverless StarRocks SQL任務,并設置調度周期來周期執行。操作步驟要點如下:

  1. 進入數據開發頁面。

    登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的數據建模與開發 > 數據開發,在下拉框中選擇對應工作空間后單擊進入數據開發

  2. 在DataStudio中創建StarRocks節點,選擇已經連接到的StarRocks的數據源,即可編寫EMR Serverless StarRocks SQL任務。

    image.png

  3. 在DataStudio調試EMR Serverless StarRocks SQL任務時,您需要選中待調試的SQL命令并單擊運行按鈕,選中資源組后進行調試。

  4. 設置調度周期,提交發布節點后周期執行任務。

    完成調試后,您可以單擊側邊欄的調度配置,配置調度周期、重跑策略等調度參數,設置任務使用的資源組,完成后單擊提交、發布按鈕。

數據分析

您可以使用DataWorks的數據分析子模塊,對EMR Serverless StarRocks表數據進行快速分析,操作要點如下。

  1. 進入SQL查詢頁面。

    登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的數據分析 > SQL查詢,在下拉框中選擇對應工作空間后單擊進入SQL查詢。

  2. 單擊左邊側邊欄的系統管理,設置StarRocks類的查詢資源組為任務使用的資源組。

    image.png

  3. 回到SQL查詢頁面,在右上角切換引擎類型為StarRocks,并選擇數據源,即可編輯查詢語句并運行,進行EMR Serverless StarRocks數據分析。

    image.png

數據服務

數據服務支持生成StarRocks數據源類型的API。

  1. 進入數據服務頁面。

    登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的數據服務,在下拉框中選擇對應工作空間后單擊進入數據服務。

  2. 生成一個API,并配置API參數。

    數據服務支持向導模式和腳本模式兩種編輯場景,腳本模式支持根據查詢SQL語句自動生成API的請求參數和返回參數。以下以向導模式為例為您示例操作要點。

    image.png

    選擇數據源類型為StarRocks,選擇創建的StarRocks數據源后,選擇對應的表,根據界面選擇API的請求參數、返回參數等API配置。

  3. 單擊右邊側邊欄的服務資源組,配置資源組為獨享數據服務資源組。

    image.png

  4. 測試API成功后,提交并發布API。

數據地圖

數據地圖模塊支持對StarRocks數據的元數據采集、搜索和表詳情頁。

元數據采集

  1. 進入數據地圖頁面。

    登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的數據治理 > 數據地圖,在右側頁面中單擊進入數據地圖。

  2. 在左側導航欄單擊元數據采集,然后單擊StarRocks模塊右上角的管理。

    image

  3. 切換至未采集列表頁簽,在操作列單擊元數據采集

  4. 配置資源組名稱測試連通性通過并設置采集計劃后,單擊確認,完成元數據采集配置。

    image

    說明
    • 元數據采集的更多信息,請參見元數據采集。

    • 僅支持Serverless資源組運行該任務。

搜索

  1. 進入數據地圖頁面。

    登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的數據治理 > 數據地圖,在右側頁面中單擊進入數據地圖

  2. 在左側導航欄單擊搜索,數據源選擇StarRocks,然后即可在頂部根據不同類型進行搜索表。

    說明

    搜索的更多信息,請參見通用數據查詢與管理

    image

表詳情

  1. 進入數據地圖頁面。

    登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的數據治理 > 數據地圖,在右側頁面中單擊進入數據地圖。

  2. 在數據地圖首頁或搜索中找到目標表后,單擊表名,進入表詳情頁。

  3. 在表詳情頁即可查看表基礎信息、技術信息、業務信息明細信息產出信息血緣信息等。

    說明
    • 表詳情的更多信息,請參見通用數據查詢與管理

    • StarRocks Serverless集群的3.1.13版本、3.2.9版本及以后的版本支持開啟元數據、血緣分析能力,具體配置方法,請參見查看血緣

    image