日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

DataWorks on EMR快速入門

DataWorks支持基于E-MapReduce創建Hive、Spark SQL、Presto和MR等節點,實現任務工作流的配置和定時調度、元數據管理及數據質量監控告警等功能,為用戶提供一站式數據湖開發和治理的環境。本文為您介紹如何在DataWorks上快速使用EMR集群。

操作流程

  1. 步驟一:創建集群

    在EMR控制臺,快速創建一個DataLake集群。更多詳情,請參見創建集群

  2. 步驟二:創建工作空間

    在DataWorks控制臺,快速創建一個工作空間。更多詳情,請參見創建工作空間

  3. 步驟三:綁定E-MapReduce

    在DataWorks控制臺,快速綁定E-MapReduce。更多詳情,請參見注冊EMR集群至DataWorks

  4. 步驟四:數據開發和治理

    EMR環境配置完成后,您可以在DataWorks控制臺上進行EMR元數據管理、任務運維監控及數據質量監控,保證EMR數據能夠正常產出。更多的信息,請參見DataWorks On EMR使用說明

步驟一:創建集群

  1. 進入創建集群頁面。

    1. 登錄EMR on ECS控制臺

    2. 在頂部菜單欄處,根據實際情況選擇地域和資源組。

      • 地域:創建的集群會在對應的地域內,一旦創建不能修改。

      • 資源組:默認顯示賬號全部資源。

    3. 單擊上方的創建集群

  2. 在創建集群頁面,完成集群相關配置。

    配置區域

    配置項

    示例

    描述

    軟件配置

    地域

    華東1(杭州)

    集群節點ECS實例所在的物理位置。

    重要

    集群創建后,無法更改地域,請謹慎選擇。

    業務場景

    數據湖

    選擇適合的業務場景,創建集群時阿里云EMR會自動為您配置默認的組件、服務和資源,以簡化集群配置,并提供符合特定業務場景需求的集群環境。

    產品版本

    EMR-5.14.0

    當前最新的軟件版本。

    服務高可用

    不開啟

    默認不開啟。打開服務高可用開關后,EMR會把Master節點分布在不同的底層硬件上以降低故障風險。

    可選服務

    HADOOP-COMMON、 OSS-HDFS、YARN、Hive、Spark3、Tez、Knox和OpenLDAP。

    根據您的實際需求選擇組件,被選中的組件會默認啟動相關的服務進程。

    說明

    除過集群默認的服務,還需選擇Knox和OpenLDAP服務。

    允許采集服務運行日志

    開啟

    支持一鍵開啟或關閉所有服務的日志采集。默認開啟,將收集您的服務運行日志,這些日志僅供集群診斷使用。

    集群創建后,您可以在基礎信息頁面,修改服務運行日志收集狀態

    重要

    關閉日志采集后,EMR的健康檢查和技術支持將受到限制,但其他功能仍可正常使用。如何關閉及影響詳情,請參見如何停止采集服務日志?

    元數據

    DLF統一元數據

    表示元數據存儲在數據湖構建DLF中。

    系統會為您選擇默認的DLF數據目錄,如果您不同集群期望使用不同的數據目錄,可以單擊創建數據目錄

    說明

    選擇該方式時,需要開通阿里云數據湖構建服務。

    集群存儲根路徑

    1366993922******

    當您在可選服務區域選擇了OSS-HDFS服務時,需要配置該參數,如果選擇的是HDFS服務,則無需配置該參數。

    說明
    • 在選擇使用OSS-HDFS服務之前,請確保您選擇的地域支持該服務。否則,您可以嘗試更換地域或使用HDFS服務替代OSS-HDFS服務。OSS-HDFS服務目前支持的地域信息,請參見開通并授權訪問OSS-HDFS服務

    • EMR-5.12.1及后續版本,EMR-3.46.1及后續版本的DataLake、DataFlow、DataServing和Custom集群,支持選擇OSS-HDFS服務。

    硬件配置

    付費類型

    按量付費

    在測試場景下,建議使用按量付費,測試正常后可以釋放該集群,再新建一個包年包月的生產集群正式使用。

    可用區

    可用區 I

    集群創建后,無法直接更改可用區,請謹慎選擇。

    專有網絡

    vpc_Hangzhou/vpc-bp1f4epmkvncimpgs****

    選擇對應區域下的專有網絡。如果沒有,單擊創建VPC前往新建。創建專有網絡完成后,單擊刷新,可以選擇剛創建好的VPC。

    交換機

    vsw_i/vsw-bp1e2f5fhaplp0g6p****

    選擇在對應專有網絡下可用區的交換機,如果在這個可用區沒有可用的交換機,則需要新創建一個。

    默認安全組

    sg_seurity/sg-bp1ddw7sm2risw****

    重要

    禁止使用ECS上創建的企業安全組。

    如果已有在使用的安全組,則可以直接選擇使用。您也可以新建一個安全組。

    節點組

    打開Master節點組下的掛載公網開關,其余使用默認值即可。

    您可以根據業務訴求,配置Master節點組、Core節點組或Task節點組信息。詳情請參見選型配置說明

    基礎配置

    集群名稱

    Emr-DataLake

    集群的名字,長度限制為1~64個字符,僅可使用中文、字母、數字、短劃線(-)和下劃線(_)。

    身份憑證

    密碼。

    用于遠程登錄集群的Master節點。

    登錄密碼確認密碼

    自定義密碼。

    請記錄該配置,登錄集群時您需要輸入該密碼。

  3. 選中服務協議,單擊確認訂單

    在EMR on ECS頁面,當集群狀態顯示為運行中時,表示集群創建成功。更多集群參數信息,請參見創建集群

步驟二:創建工作空間

  1. 登錄DataWorks控制臺

  2. 單擊創建工作空間

  3. 配置工作空間基本信息。

    配置項

    示例

    描述

    工作空間名稱

    emr_dataworks

    工作空間名稱的長度需要在3~23個字符,以字母開頭,且只能包含字母、下劃線(_)和數字。

    生產、開發環境隔離

    定義工作空間模式。

    • 是:需隔離生產、開發環境,該方式創建的工作空間為標準模式工作空間。

    • 否:無需隔離生產、開發環境,該方式創建的工作空間為簡單模式工作空間。

  4. 單擊提交,工作空間創建完成。

步驟三:綁定E-MapReduce

在DataWorks上使用EMR的詳細開發流程,可以參見DataWorks On EMR使用說明

  1. 工作空間創建完后,在創建工作空間面板中,單擊E-MapReduce區域的立即綁定

  2. 綁定E-MapReduce頁面,單擊綁定并進入下一步

  3. 在開源集群頁面,單擊注冊集群

  4. 注冊E-MapReduce集群頁面,配置相關參數,單擊完成注冊

    參數

    示例

    描述

    集群顯示名稱

    dataworks_test

    定義集群在DataWorks中的名稱,名稱必須唯一。

    集群所屬云賬號

    當前阿里云主賬號

    選擇需要將哪個賬號下的EMR集群注冊至當前工作空間。

    集群類型

    數據湖(DataLake)

    選擇需要綁定的EMR集群類型。

    集群

    Emr-DataLake

    選擇需要綁定在DataWorks上運行任務的EMR集群。

    默認訪問身份

    集群賬號:hadoop

    定義在當前工作空間下,使用什么身份訪問該EMR集群。

  5. EMR集群頁面,單擊資源組初始化

    可以對需要使用的資源組進行初始化,驗證獨享調度資源組和EMR引擎的網絡連通性。

    說明
    • DataWorks僅支持使用獨享調度資源組運行EMR任務,所以此處僅支持選擇獨享調度資源組進行資源組初始化操作。

    • 資源組初始化可能導致正在運行的任務失敗。非必要場景(例如,集群配置變更,需要立即重新初始化資源組,否則會導致大量任務運行失敗),建議在業務低峰期對資源組執行初始化操作。

步驟四:數據開發和治理

操作

描述

文檔

數據開發

您可以根據業務需要,選擇合適的節點類型進行EMR任務開發。

元數據管理

數據地圖通過元數據采集方式管理EMR元數據。您可以在數據地圖中查看EMR表元數據、產出信息和血緣等功能。

數據地圖

數據質量監控

數據質量提供對調度任務產出的表數據的質量監控能力,您可以通過配置表的質量監控規則實現對表數據的監控。

說明

DataLake和自定義類型集群配置質量規則時,您需選擇dqc_emr_plugin_datalake插件。

任務運維監控

智能監控提供調度任務執行狀態的監控能力,您可以通過配置智能監控規則實現任務運行狀態的監控。