本文介紹創建E-MapReduce(簡稱EMR)集群的詳細操作步驟和相關配置。

前提條件

已完成RAM授權,操作步驟請參見角色授權

操作步驟

  1. 進入創建集群頁面。
    1. 登錄阿里云E-MapReduce控制臺
    2. 在頂部菜單欄處,根據實際情況選擇地域和資源組。
      • 地域:創建的集群將會在對應的地域內,一旦創建不能修改。
      • 資源組:默認顯示賬號全部資源。
    3. 單擊創建集群,進行創建。
  2. 配置集群信息。
    創建集群時,您需要對集群進行軟件配置、硬件配置和基礎配置。
    注意 集群創建完成后,除了集群名稱以外,其他配置均無法修改,所以在創建時請仔細確認各項配置。
    1. 軟件配置。
      配置項 說明
      集群類型 當前支持的集群類型如下:
      • Hadoop
        • 提供半托管的Hadoop、Hive和Spark離線大規模分布式數據存儲和計算。
        • 提供Presto和Impala交互式查詢。
        • 提供Oozie和Pig等Hadoop生態圈的組件。
      • Zookeeper:提供獨立的分布式一致性鎖服務,適用于大規模的Hadoop集群、HBase集群和Kafka集群。
      • Data Science:主要面向大數據+AI場景,提供Hive和Spark離線大數據ETL和TensorFlow模型訓練,您可以選擇CPU+GPU的異構計算框架,通過英偉達GPU對部分深度學習算法進行高性能計算。
      • Druid:提供半托管式實時交互式分析服務,大數據查詢毫秒級延遲,支持多種數據攝入方式,可以與EMR Hadoop、EMR Spark、OSS和RDS等服務搭配組合使用,構建靈活穩健的實時查詢解決方案。
      • EMR Studio:是EMR平臺上基于開源組件的大數據開發平臺,提供一站式的端到端大數據開發體驗。更多信息,請參見EMR Studio概述
      • Presto:是一種開源的交互式查詢引擎,提供SQL on everything的能力。用于快速分析查詢任何規模的數據,可以支持非關系數據源。
      云原生選項 默認on ECS
      產品版本 默認最新的軟件版本。
      必選服務 默認的服務組件,后期可以在管理頁面中啟停服務。
      可選服務 根據您的實際需求選擇其他的一些組件,被選中的組件會默認啟動相關的服務進程。
      說明 組件越多,對機器的配置要求也越高,所以在下面的步驟中您需要根據實際的組件數量進行機器選型,否則可能沒有足夠的資源運行這些服務。
      高級設置
      • Kerberos集群模式:是否開啟集群的Kerberos認證功能。默認不開啟。通常個人用戶集群無需該功能。
      • 軟件自定義配置:可指定JSON文件對集群中的基礎軟件(例如Hadoop、Spark和Hive等)進行配置,詳細使用方法請參見軟件配置。默認不開啟。
    2. 硬件配置。
      區域 配置項 說明
      付費類型 付費類型 默認包年包月。當前支持的付費類型如下:
      • 按量付費:一種后付費模式,即先使用再付費。按量付費是根據實際使用的小時數來支付費用,每小時計費一次,適合短期的測試任務或是靈活的動態任務。
      • 包年包月:一種預付費模式,即先付費再使用。
        說明
        • 建議測試場景下使用按量付費,測試正常后再新建一個包年包月的生產集群正式使用。
        • 包年包月實例還需選擇付費時長和是否開啟自動續費。默認續費時長為1個月,且未開啟自動續費。開啟自動續費后,實例到期前7天會執行自動續費操作,續費時長為1個月,詳情請參見續費說明
      網絡配置 可用區 可用區為在同一地域下的不同物理區域,可用區之間內網互通。通常使用默認的可用區即可。
      網絡類型 默認專有網絡。
      VPC 選擇在該地域的VPC。如果沒有可用的VPC,單擊創建VPC/子網(交換機)前往新建。
      交換機 選擇在對應VPC下可用區的交換機,如果在這個可用區沒有可用的交換機,則需要新創建一個。
      安全組名稱 默認選擇已有的安全組。安全組詳情請參見安全組概述

      您也可以單擊新建安全組,然后直接輸入安全組名稱來新建一個安全組。

      注意 禁止使用ECS上創建的企業安全組。
      高可用 高可用 默認不開啟。打開高可用開關,Hadoop集群會有兩個或三個Master節點來支持ResourceManager和NameNode的高可用。

      HBase集群原本就支持高可用,只是另一個節點用其中一個Core節點來充當,如果打開高可用,會獨立使用一個Master節點來支持高可用,更加的安全可靠。

      實例 選型配置
      • Master實例:主要負責ResourceManager和NameNode等控制進程的部署。
        您可以根據需要選擇實例規格,詳情請參見實例規格族
        • 系統盤配置:根據需要選擇SSD云盤、ESSD云盤或者高效云盤。
        • 系統盤大小:根據需要調整磁盤容量,推薦至少120 GB。取值范圍為40 ~ 2048 GB。
        • 數據盤配置:根據需要選擇SSD云盤、ESSD云盤或者高效云盤。
        • 數據盤大小:根據需要調整磁盤容量,推薦至少80 GB。取值范圍為40 ~ 32768 GB。
        • Master數量:默認1臺。如果開啟高可用默認2或者3臺。
      • Core實例:主要負責集群所有數據的存儲,創建集群完成后也支持按需進行擴容。
        • 系統盤配置:根據需要選擇SSD云盤、ESSD云盤或者高效云盤。
        • 系統盤大小:根據需要調整磁盤容量,推薦至少120 GB。
        • 數據盤配置:根據需要選擇SSD云盤、ESSD云盤或者高效云盤。
        • 數據盤大小:根據需要調整磁盤容量,推薦至少80 GB。
        • Core數量:默認2臺,根據需要調整。
      • Task實例:不保存數據,調整集群的計算力使用。默認不開啟,需要時再追加。
    3. 基礎配置。
      區域 配置項 說明
      基礎信息 集群名稱 集群的名字,長度限制為1~64個字符,僅可使用中文、字母、數字、短劃線(-)和下劃線(_)。
      元數據選擇
      • DLF統一元數據(推薦):表示元數據存儲在數據湖中。

        數據湖構建(Data Lake Formation,DLF)的元數據管理可以為您提供全托管、免運維、高可用、高性能的統一元數據服務,并且兼容Hive多版本,可以方便的進行HMS間元數據遷移。阿里云數據湖構建的詳細信息,請參見產品簡介

        說明 如果您希望將Hive Metastore的元數據遷移到數據湖構建(DLF)中,詳情請參見元數據遷移
      • 使用自建RDS:表示使用自建的阿里云RDS作為元數據庫,更多信息請參見配置獨立RDS MySQL
      • 集群內置MySQL(不推薦):表示元數據存儲在集群本地環境的MySQL數據庫中。
        說明 該方式僅限在測試場景下使用,因為本地MySQL數據庫部署在EMR集群單節點中,不能保證服務高可用,存在穩定性風險。生產場景建議選擇DLF統一元數據使用自建RDS方式。
      掛載公網 集群是否掛載彈性公網IP地址,默認不開啟。
      說明 創建后如果您需要使用公網IP地址訪問,請在ECS上申請開通公網IP地址,詳情請參見彈性公網IP中的申請EIP的內容。
      密鑰對 關于密鑰對的使用詳情,請參見SSH密鑰對
      密碼 設置Master節點的登錄密碼,密碼規則:8~30個字符,且必須同時包含大寫字母、小寫字母、數字和特殊字符。

      特殊字符包括:感嘆號(!)、at(@)、井號(#)、美元符號($)、百分號(%)、乘方(^)、and(&)和星號(*)。

      高級設置 添加用戶 添加訪問開源大數據軟件Web UI的賬號。
      權限設置 通過RAM角色為在集群上運行的應用程序提供調用其他阿里云服務所需的必要權限,無需調整,使用默認即可。
      • 服務角色:用戶將權限授予EMR服務,允許EMR代表用戶調用其他阿里云的服務,例如ECS和OSS。
      • ECS應用角色:當用戶的程序在EMR計算節點上運行時,可不填寫阿里云AccessKey來訪問相關的云服務(例如OSS),EMR會自動申請一個臨時AccessKey來授權本次訪問。ECS應用角色用于控制這個AccessKey的權限。
      數據盤加密 默認不開啟。
      打開加密開關,即啟動對集群節點ECS中所有屬性為云盤的數據盤進行加密的功能。
      注意 不支持加密本地盤。
      引導操作 可選配置,您可以在集群啟動Hadoop前執行您自定義的腳本,詳情請參見引導操作
      標簽 可選配置,您可以在創建集群時綁定標簽,也可以在集群創建完成后,在集群詳情頁綁定標簽,詳情請參見設置標簽
      資源組 可選配置。詳情請參見使用資源組
      說明 頁面右邊會顯示您所創建集群的配置清單以及集群費用。根據不同的付費類型,展示不同的價格信息。
  3. 當所有的信息確認正確有效后,選中服務條款,單擊創建
    注意
    • 按量付費集群:立刻開始創建。

      集群創建完成后,集群的狀態變為空閑

    • 包年包月集群:先生成訂單,在支付完成訂單以后集群才會開始創建。