DataWorks支持基于E-MapReduce創建Hive、Spark SQL、Presto和MR等節點,實現任務工作流的配置和定時調度、元數據管理及數據質量監控告警等功能,為用戶提供一站式數據湖開發和治理的環境。本文為您介紹如何在DataWorks上快速使用EMR集群。
操作流程
在EMR控制臺,快速創建一個DataLake集群。更多詳情,請參見創建集群。
在DataWorks控制臺,快速創建一個工作空間。更多詳情,請參見創建工作空間。
在DataWorks控制臺,快速綁定E-MapReduce。更多詳情,請參見注冊EMR集群至DataWorks。
EMR環境配置完成后,您可以在DataWorks控制臺上進行EMR元數據管理、任務運維監控及數據質量監控,保證EMR數據能夠正常產出。更多的信息,請參見DataWorks On EMR使用說明。
步驟一:創建集群
進入創建集群頁面。
在頂部菜單欄處,根據實際情況選擇地域和資源組。
地域:創建的集群會在對應的地域內,一旦創建不能修改。
資源組:默認顯示賬號全部資源。
單擊上方的創建集群。
在創建集群頁面,完成集群相關配置。
配置區域
配置項
示例
描述
軟件配置
地域
華東1(杭州)
集群節點ECS實例所在的物理位置。
重要集群創建后,無法更改地域,請謹慎選擇。
業務場景
數據湖
選擇適合的業務場景,創建集群時阿里云EMR會自動為您配置默認的組件、服務和資源,以簡化集群配置,并提供符合特定業務場景需求的集群環境。
產品版本
EMR-5.14.0
當前最新的軟件版本。
服務高可用
不開啟
默認不開啟。打開服務高可用開關后,EMR會把Master節點分布在不同的底層硬件上以降低故障風險。
可選服務
HADOOP-COMMON、 OSS-HDFS、YARN、Hive、Spark3、Tez、Knox和OpenLDAP。
根據您的實際需求選擇組件,被選中的組件會默認啟動相關的服務進程。
說明除過集群默認的服務,還需選擇Knox和OpenLDAP服務。
允許采集服務運行日志
開啟
支持一鍵開啟或關閉所有服務的日志采集。默認開啟,將收集您的服務運行日志,這些日志僅供集群診斷使用。
集群創建后,您可以在基礎信息頁面,修改服務運行日志收集狀態。
重要關閉日志采集后,EMR的健康檢查和技術支持將受到限制,但其他功能仍可正常使用。如何關閉及影響詳情,請參見如何停止采集服務日志?。
元數據
DLF統一元數據
表示元數據存儲在數據湖構建DLF中。
系統會為您選擇默認的DLF數據目錄,如果您不同集群期望使用不同的數據目錄,可以單擊創建數據目錄。
說明選擇該方式時,需要開通阿里云數據湖構建服務。
集群存儲根路徑
1366993922******
當您在可選服務區域選擇了OSS-HDFS服務時,需要配置該參數,如果選擇的是HDFS服務,則無需配置該參數。
說明在選擇使用OSS-HDFS服務之前,請確保您選擇的地域支持該服務。否則,您可以嘗試更換地域或使用HDFS服務替代OSS-HDFS服務。OSS-HDFS服務目前支持的地域信息,請參見開通并授權訪問OSS-HDFS服務。
EMR-5.12.1及后續版本,EMR-3.46.1及后續版本的DataLake、DataFlow、DataServing和Custom集群,支持選擇OSS-HDFS服務。
硬件配置
付費類型
按量付費
在測試場景下,建議使用按量付費,測試正常后可以釋放該集群,再新建一個包年包月的生產集群正式使用。
可用區
可用區 I
集群創建后,無法直接更改可用區,請謹慎選擇。
專有網絡
vpc_Hangzhou/vpc-bp1f4epmkvncimpgs****
選擇對應區域下的專有網絡。如果沒有,單擊創建VPC前往新建。創建專有網絡完成后,單擊刷新,可以選擇剛創建好的VPC。
交換機
vsw_i/vsw-bp1e2f5fhaplp0g6p****
選擇在對應專有網絡下可用區的交換機,如果在這個可用區沒有可用的交換機,則需要新創建一個。
默認安全組
sg_seurity/sg-bp1ddw7sm2risw****
重要禁止使用ECS上創建的企業安全組。
如果已有在使用的安全組,則可以直接選擇使用。您也可以新建一個安全組。
節點組
打開Master節點組下的掛載公網開關,其余使用默認值即可。
您可以根據業務訴求,配置Master節點組、Core節點組或Task節點組信息。詳情請參見選型配置說明。
基礎配置
集群名稱
Emr-DataLake
集群的名字,長度限制為1~64個字符,僅可使用中文、字母、數字、短劃線(-)和下劃線(_)。
身份憑證
密碼。
用于遠程登錄集群的Master節點。
登錄密碼和確認密碼
自定義密碼。
請記錄該配置,登錄集群時您需要輸入該密碼。
選中服務協議,單擊確認訂單。
在EMR on ECS頁面,當集群狀態顯示為運行中時,表示集群創建成功。更多集群參數信息,請參見創建集群。
步驟二:創建工作空間
登錄DataWorks控制臺。
單擊創建工作空間。
配置工作空間基本信息。
配置項
示例
描述
工作空間名稱
emr_dataworks
工作空間名稱的長度需要在3~23個字符,以字母開頭,且只能包含字母、下劃線(_)和數字。
生產、開發環境隔離
否
定義工作空間模式。
是:需隔離生產、開發環境,該方式創建的工作空間為標準模式工作空間。
否:無需隔離生產、開發環境,該方式創建的工作空間為簡單模式工作空間。
單擊提交,工作空間創建完成。
步驟三:綁定E-MapReduce
在DataWorks上使用EMR的詳細開發流程,可以參見DataWorks On EMR使用說明。
工作空間創建完后,在創建工作空間面板中,單擊E-MapReduce區域的立即綁定。
在綁定E-MapReduce頁面,單擊綁定并進入下一步。
在開源集群頁面,單擊注冊集群。
在注冊E-MapReduce集群頁面,配置相關參數,單擊完成注冊。
參數
示例
描述
集群顯示名稱
dataworks_test
定義集群在DataWorks中的名稱,名稱必須唯一。
集群所屬云賬號
當前阿里云主賬號
選擇需要將哪個賬號下的EMR集群注冊至當前工作空間。
集群類型
數據湖(DataLake)
選擇需要綁定的EMR集群類型。
集群
Emr-DataLake
選擇需要綁定在DataWorks上運行任務的EMR集群。
默認訪問身份
集群賬號:hadoop
定義在當前工作空間下,使用什么身份訪問該EMR集群。
在EMR集群頁面,單擊資源組初始化。
可以對需要使用的資源組進行初始化,驗證獨享調度資源組和EMR引擎的網絡連通性。
說明DataWorks僅支持使用獨享調度資源組運行EMR任務,所以此處僅支持選擇獨享調度資源組進行資源組初始化操作。
資源組初始化可能導致正在運行的任務失敗。非必要場景(例如,集群配置變更,需要立即重新初始化資源組,否則會導致大量任務運行失敗),建議在業務低峰期對資源組執行初始化操作。
步驟四:數據開發和治理
操作 | 描述 | 文檔 |
數據開發 | 您可以根據業務需要,選擇合適的節點類型進行EMR任務開發。 | |
元數據管理 | 數據地圖通過元數據采集方式管理EMR元數據。您可以在數據地圖中查看EMR表元數據、產出信息和血緣等功能。 | |
數據質量監控 | 數據質量提供對調度任務產出的表數據的質量監控能力,您可以通過配置表的質量監控規則實現對表數據的監控。 說明 DataLake和自定義類型集群配置質量規則時,您需選擇dqc_emr_plugin_datalake插件。 | |
任務運維監控 | 智能監控提供調度任務執行狀態的監控能力,您可以通過配置智能監控規則實現任務運行狀態的監控。 |