日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

文檔

E-MapReduce快速入門

更新時間:

本文為您介紹如何通過阿里云賬號登錄E-MapReduce(簡稱EMR)控制臺,快速創建一個DataLake集群并執行作業。

前提條件

  • 注冊阿里云賬號,并完成實名認證。具體操作請參見賬號注冊(PC端)。

    說明

    根據阿里云ECS的規則,您在購買按量付費實例時,需要保證阿里云賬戶中可用余額(含現金、代金券、優惠券等)不得少于100元人民幣。

  • 完成對E-MapReduce的服務賬號授予默認的EMR和ECS角色權限,詳情請參見阿里云賬號角色授權

注意事項

代碼的運行環境由所屬用戶負責管理和配置。

操作流程

  1. 步驟一:創建集群

    在EMR控制臺,快速創建一個DataLake集群。

  2. 步驟二:創建并執行作業

    集群創建成功后,您可以創建并執行Spark類型的作業。

  3. 步驟三:查看作業運行記錄

    提交作業后,您可以通過YARN UI方式查看作業運行記錄。

  4. (可選)步驟四:釋放集群

    如果不再使用該集群,可以釋放集群以節約成本。

步驟一:創建集群

  1. 進入創建集群頁面。

    1. 登錄EMR on ECS控制臺。

    2. 在頂部菜單欄處,根據實際情況選擇地域和資源組。

      • 地域:創建的集群會在對應的地域內,一旦創建不能修改。

      • 資源組:默認顯示賬號全部資源。

    3. 單擊上方的創建集群。

  2. 在創建集群頁面,完成集群相關配置。

    配置區域

    配置項

    示例

    描述

    軟件配置

    地域

    華東1(杭州)

    集群節點ECS實例所在的物理位置。

    重要

    集群創建后,無法更改地域,請謹慎選擇。

    業務場景

    數據湖

    選擇適合的業務場景,創建集群時阿里云EMR會自動為您配置默認的組件、服務和資源,以簡化集群配置,并提供符合特定業務場景需求的集群環境。

    產品版本

    EMR-5.14.0

    當前最新的軟件版本。

    服務高可用

    不開啟

    默認不開啟。打開服務高可用開關后,EMR會把Master節點分布在不同的底層硬件上以降低故障風險。

    可選服務

    HADOOP-COMMON、 OSS-HDFS、YARN、Hive、Spark3、Tez、Knox和OpenLDAP。

    根據您的實際需求選擇組件,被選中的組件會默認啟動相關的服務進程。

    說明

    除過集群默認的服務,還需選擇Knox和OpenLDAP服務。

    允許采集服務運行日志

    開啟

    支持一鍵開啟或關閉所有服務的日志采集。默認開啟,將收集您的服務運行日志,這些日志僅供集群診斷使用。

    集群創建后,您可以在基礎信息頁面,修改服務運行日志收集狀態

    重要

    關閉日志采集后,EMR的健康檢查和技術支持將受到限制,但其他功能仍可正常使用。如何關閉及影響詳情,請參見如何停止采集服務日志?。

    元數據

    DLF統一元數據

    表示元數據存儲在數據湖構建DLF中。

    系統會為您選擇默認的DLF數據目錄,如果您不同集群期望使用不同的數據目錄,可以單擊創建數據目錄。

    說明

    選擇該方式時,需要開通阿里云數據湖構建服務。

    集群存儲根路徑

    1366993922******

    當您在可選服務區域選擇了OSS-HDFS服務時,需要配置該參數,如果選擇的是HDFS服務,則無需配置該參數。

    說明
    • 在選擇使用OSS-HDFS服務之前,請確保您選擇的地域支持該服務。否則,您可以嘗試更換地域或使用HDFS服務替代OSS-HDFS服務。OSS-HDFS服務目前支持的地域信息,請參見開通并授權訪問OSS-HDFS服務

    • EMR-5.12.1及后續版本,EMR-3.46.1及后續版本的DataLake、DataFlow、DataServing和Custom集群,支持選擇OSS-HDFS服務。

    硬件配置

    付費類型

    按量付費

    在測試場景下,建議使用按量付費,測試正常后可以釋放該集群,再新建一個包年包月的生產集群正式使用。

    可用區

    可用區 I

    集群創建后,無法直接更改可用區,請謹慎選擇。

    專有網絡

    vpc_Hangzhou/vpc-bp1f4epmkvncimpgs****

    選擇對應區域下的專有網絡。如果沒有,單擊創建VPC前往新建。創建專有網絡完成后,單擊刷新,可以選擇剛創建好的VPC。

    交換機

    vsw_i/vsw-bp1e2f5fhaplp0g6p****

    選擇在對應專有網絡下可用區的交換機,如果在這個可用區沒有可用的交換機,則需要新創建一個。

    默認安全組

    sg_seurity/sg-bp1ddw7sm2risw****

    重要

    禁止使用ECS上創建的企業安全組。

    如果已有在使用的安全組,則可以直接選擇使用。您也可以新建一個安全組。

    節點組

    打開Master節點組下的掛載公網開關,其余使用默認值即可。

    您可以根據業務訴求,配置Master節點組、Core節點組或Task節點組信息。詳情請參見選型配置說明。

    基礎配置

    集群名稱

    Emr-DataLake

    集群的名字,長度限制為1~64個字符,僅可使用中文、字母、數字、短劃線(-)和下劃線(_)。

    身份憑證

    密碼。

    用于遠程登錄集群的Master節點。

    登錄密碼確認密碼

    自定義密碼。

    請記錄該配置,登錄集群時您需要輸入該密碼。

  3. 選中服務協議,單擊確認訂單。

    在EMR on ECS頁面,當集群狀態顯示為運行中時,表示集群創建成功。更多集群參數信息,請參見創建集群。

步驟二:創建并執行作業

集群創建成功后,您可以在該集群創建并執行作業。

  1. 通過SSH方式連接集群,詳情請參見登錄集群。

  2. 在命令行執行以下命令,提交并運行作業。

    本文以Spark 3.1.1版本為例,輸入的命令示例如下。

    spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client --driver-memory 512m --num-executors 1 --executor-memory 1g --executor-cores 2 /opt/apps/SPARK3/spark-current/examples/jars/spark-examples_2.12-3.1.1.jar 10
    說明

    spark-examples_2.12-3.1.1.jar為您集群中對應的JAR包名稱,您可以登錄集群,在/opt/apps/SPARK3/spark-current/examples/jars路徑下查看。

步驟三:查看作業運行記錄

提交作業后,您可以通過YARN UI方式查看作業運行記錄。

  1. 開啟8443端口,詳情請參見管理安全組

  2. 新增用戶,詳情請參見管理用戶。

    在使用Knox賬號訪問YARN UI頁面時,需要Knox賬號的用戶名和密碼。

  3. EMR on ECS頁面,單擊目標集群所在行的集群服務。

  4. 單擊訪問鏈接與端口頁簽。

  5. 單擊YARN UI所在行的公網鏈接。

    使用用戶管理中的用戶身份信息進行登錄認證,即可進入YARN UI頁面。

  6. All Applications頁面,單擊目標作業的ID,可以查看作業運行的詳情。

    Hadoop控制臺

(可選)步驟四:釋放集群

如果您創建的集群不再使用時,可以釋放集群節約成本。確認集群釋放后,系統會對集群進行如下處理:

  1. 強制終止集群上的所有作業。

  2. 終止并釋放所有的ECS實例。

這個過程所需時間取決于集群的大小,集群越小釋放越快。通常在幾秒內可以完成釋放,至多不會超過5分鐘。

重要
  • 按量付費的集群可以隨時釋放,包年包月的集群到期后才能釋放。

  • 釋放集群前,請確保集群狀態是初始化中、運行中或空閑。

  1. EMR on ECS頁面,選擇目標集群所在行的more > 釋放。

    您還可以單擊目標集群的集群名稱,然后在基礎信息頁面,選擇右上角的全部操作 > 釋放。

  2. 在彈出的對話框中,單擊確定。

相關文檔

常見問題

了解使用阿里云E-MapReduce的常見問題:常見問題。