創(chuàng)建和使用EMR資源
DataWorks支持可視化創(chuàng)建EMR(E-MapReduce) JAR、EMR(E-MapReduce)FILE資源,用于上傳提交自定義函數(shù)或開源MR示例源碼作為資源,便于EMR 計算節(jié)點的數(shù)據(jù)開發(fā)過程中引用。本文為您介紹如何創(chuàng)建資源,并上傳提交資源,為資源的使用做好前期準備。
前提條件
EMR引擎類型包括新版數(shù)據(jù)湖(DataLake)及Hadoop,不同類型引擎創(chuàng)建資源前需執(zhí)行的準備工作不同。您需要根據(jù)實際情況完成EMR側(cè)及DataWorks側(cè)的準備工作。
DataLake:詳情請參見DataLake集群配置、DataWorks配置。
Hadoop:Hadoop集群開發(fā)前準備工作。
創(chuàng)建EMR資源
登錄DataWorks控制臺,切換至目標地域后,單擊左側(cè)導(dǎo)航欄的 ,在下拉框中選擇對應(yīng)工作空間后單擊進入數(shù)據(jù)開發(fā)。
鼠標懸停至圖標,單擊 或EMR File。
您也可以找到相應(yīng)的業(yè)務(wù)流程,右鍵單擊EMR,選擇
或EMR File。在新建資源對話框中,配置各項參數(shù)。
參數(shù)
描述
引擎類型
默認新建EMR類型的資源,不可修改。
引擎實例
從下拉列表中選擇需要新建資源的目標引擎實例。
說明此處展示工作空間的數(shù)據(jù)開發(fā)中綁定好的EMR引擎。
資源類型
僅支持EMR JAR、EMR FILE類型的資源。
路徑
為您使用的業(yè)務(wù)流程路徑。
存儲路徑
為該資源選擇存儲的路徑,包括OSS和HDFS兩種存儲類型:
如果您選擇OSS,需要先授權(quán)再選擇目錄的位置。
說明需要主賬號在此處進行授權(quán)操作。
如果您選擇HDFS,需要手動輸入存儲路徑。
說明目前您的任務(wù)JAR包僅支持如下兩種存放路徑:
JAR包存放在EMR集群的Master機器中。
JAR包存放在對象存儲服務(wù)(Object Storage Service,OSS)中。推薦您使用OSS進行存放。使用OSS存放JAR包,詳情請參見控制臺使用流程。
文件來源
目標文件的來源,包括本地和OSS兩種來源。
如果您選擇本地,在上傳文件中單擊點擊上傳即可上傳本地文件。
如果您選擇OSS,在選擇文件下拉框中選擇OSS文件,或者單擊前往OSS創(chuàng)建即可創(chuàng)建OSS文件
名稱
新建的EMR資源的名稱,如果您上傳的是jar資源,您需要添加后綴名.jar。
在新建資源對話框中,單擊新建。
單擊工具欄中的和圖標,保存并提交資源至調(diào)度開發(fā)服務(wù)器端。
說明提交時,您需要選擇提交資源所用的調(diào)度資源組,當使用Serverless資源組提交資源時,DataWorks平臺將下發(fā)對應(yīng)新建資源的任務(wù)到引擎?zhèn)葓?zhí)行,并打印執(zhí)行過程的執(zhí)行日志,如果資源提交過程中出現(xiàn)問題,您可以通過日志先自助排查。如果您目前無可用的Serverless資源組,請購買并配置Serverless資源組便于使用,操作詳情請參見新增和使用Serverless資源組。
使用資源注冊函數(shù)
DataWorks支持可視化方式使用資源來注冊函數(shù),當您將函數(shù)注冊所需的資源通過DataWorks可視化上傳后,便可通過可視化方式在函數(shù)注冊時使用該資源。
節(jié)點中使用資源
創(chuàng)建完成EMR JAR資源后,如果您需要在節(jié)點中直接使用資源,您需要在資源文件夾選擇相應(yīng)的資源節(jié)點,然后右鍵單擊該節(jié)點并選擇引用資源。引用方式如下圖所示。
節(jié)點中引用資源后,會自動添加一條@resource_reference{"resourcename},表示節(jié)點內(nèi)已經(jīng)引用該資源。
詳細的引用操作步驟可參見創(chuàng)建EMR MR節(jié)點。
資源版本管理
每次提交資源都將生成一個資源版本,您可以通過右鍵單擊該資源節(jié)點,單擊查看歷史版本查看并下載資源。