本文為您介紹如何在E-MapReduce(簡(jiǎn)稱EMR)控制臺(tái)上創(chuàng)建EMR Studio集群。

前提條件

已完成RAM授權(quán),詳細(xì)信息請(qǐng)參見角色授權(quán)
說明 首次創(chuàng)建EMR Studio集群時(shí)會(huì)彈出授權(quán)該角色的窗口,請(qǐng)使用阿里云賬號(hào)對(duì)系統(tǒng)角色AliyunECSInstanceForEMRStudioRole進(jìn)行授權(quán)。

使用限制

EMR Studio集群僅支持綁定到同一個(gè)VPC內(nèi)的EMR集群,不支持跨VPC。

注意事項(xiàng)

截止2022年10月14日,EMR Studio已正式停止運(yùn)維更新,也不提供新建該類型集群的入口,但已有集群的功能使用不受影響。

操作步驟

  1. 進(jìn)入創(chuàng)建集群頁面。
    1. 登錄阿里云E-MapReduce控制臺(tái)
    2. 在頂部菜單欄處,根據(jù)實(shí)際情況選擇地域和資源組。
      • 地域:創(chuàng)建的集群將會(huì)在對(duì)應(yīng)的地域內(nèi),一旦創(chuàng)建不能修改。
      • 資源組:默認(rèn)顯示賬號(hào)全部資源。
    3. 單擊創(chuàng)建集群,進(jìn)行創(chuàng)建。
  2. 在創(chuàng)建集群頁面,完成集群相關(guān)配置。
    創(chuàng)建集群時(shí),您需要對(duì)集群進(jìn)行軟件配置、硬件配置和基礎(chǔ)配置。
    重要 集群創(chuàng)建完成后,除了集群名稱以外,其他配置均無法修改,所以在創(chuàng)建時(shí)請(qǐng)仔細(xì)確認(rèn)各項(xiàng)配置。
    1. 軟件配置。
      配置項(xiàng) 描述
      集群類型 選擇EMR Studio。
      產(chǎn)品版本 默認(rèn)最新的軟件版本。
      必選服務(wù) 默認(rèn)的服務(wù)組件,后期可以在管理頁面中啟停服務(wù)。
      高級(jí)設(shè)置 軟件自定義配置:可指定JSON文件對(duì)集群中的基礎(chǔ)軟件(例如Hadoop、Spark和Hive等)進(jìn)行配置,詳細(xì)使用方法請(qǐng)參見軟件配置。默認(rèn)不開啟。
    2. 硬件配置。
      區(qū)域 配置項(xiàng) 描述
      付費(fèi)類型 付費(fèi)類型 默認(rèn)包年包月。當(dāng)前支持的付費(fèi)類型如下:
      • 按量付費(fèi):一種后付費(fèi)模式,即先使用再付費(fèi)。按量付費(fèi)是根據(jù)實(shí)際使用的小時(shí)數(shù)來支付費(fèi)用,每小時(shí)計(jì)費(fèi)一次,適合短期的測(cè)試任務(wù)或是靈活的動(dòng)態(tài)任務(wù)。
      • 包年包月:一種預(yù)付費(fèi)模式,即先付費(fèi)再使用。
      網(wǎng)絡(luò)配置 可用區(qū) 可用區(qū)為在同一地域下的不同物理區(qū)域,可用區(qū)之間內(nèi)網(wǎng)互通。通常使用默認(rèn)的可用區(qū)即可。
      網(wǎng)絡(luò)類型 默認(rèn)專有網(wǎng)絡(luò)。
      VPC 選擇在該地域的VPC。如果沒有可用的VPC,單擊創(chuàng)建VPC/子網(wǎng)(交換機(jī))前往新建。
      重要 因?yàn)镋MR Studio集群僅支持關(guān)聯(lián)同一個(gè)VPC內(nèi)的EMR計(jì)算集群,所以創(chuàng)建EMR Studio集群時(shí)需要選擇與EMR計(jì)算集群相同的VPC。
      交換機(jī) 選擇在對(duì)應(yīng)VPC下可用區(qū)的交換機(jī),如果在這個(gè)可用區(qū)沒有可用的交換機(jī),則需要新創(chuàng)建一個(gè)。
      安全組名稱 選擇已有的安全組。安全組詳情請(qǐng)參見安全組概述

      您也可以單擊新建安全組,然后直接輸入安全組名稱來新建一個(gè)安全組。

      重要 禁止使用ECS上創(chuàng)建的企業(yè)安全組。
      實(shí)例 選型配置 EMR Studio最小模型為1個(gè)Master,Core數(shù)量可以為0。Core數(shù)量會(huì)影響Airflow的運(yùn)行模式,不影響其他組件。如果Core數(shù)量為0,則Airflow的運(yùn)行模式就是Local模式(LocalExecutor),如果Core數(shù)量大于0,則Airflow的運(yùn)行模式是分布式模式(CeleroyExecutor)。建議您根據(jù)業(yè)務(wù)創(chuàng)建選擇集群規(guī)模:
      • Master實(shí)例:主要負(fù)責(zé)Master組件的部署,推薦機(jī)型ecs.c7.2xlarge。您可以根據(jù)實(shí)際負(fù)載調(diào)整實(shí)例規(guī)格。
        • 系統(tǒng)盤配置:根據(jù)需要選擇SSD云盤、ESSD云盤或者高效云盤。
        • 系統(tǒng)盤大小:根據(jù)需要調(diào)整磁盤容量,推薦至少200 GB。
        • 數(shù)據(jù)盤配置:根據(jù)需要選擇SSD云盤、ESSD云盤或者高效云盤。
        • 數(shù)據(jù)盤大小:根據(jù)需要調(diào)整磁盤容量,推薦至少300 GB。
        • Master數(shù)量:默認(rèn)1臺(tái)。
      • Core實(shí)例:主要負(fù)責(zé)集群所有數(shù)據(jù)的存儲(chǔ),推薦機(jī)型ecs.c7.2xlarge。您可以根據(jù)實(shí)際負(fù)載調(diào)整實(shí)例規(guī)格。
        • 系統(tǒng)盤配置:根據(jù)需要選擇SSD云盤、ESSD云盤或者高效云盤。
        • 系統(tǒng)盤大小:根據(jù)需要調(diào)整磁盤容量,推薦至少200 GB。
        • 數(shù)據(jù)盤配置:根據(jù)需要選擇SSD云盤、ESSD云盤或者高效云盤。
        • 數(shù)據(jù)盤大小:根據(jù)需要調(diào)整磁盤容量,推薦至少300 GB。
        • Core數(shù)量:默認(rèn)1臺(tái),可以根據(jù)業(yè)務(wù)場(chǎng)景調(diào)整。
          • 僅使用EMR Studio Notebook組件,無調(diào)度場(chǎng)景,Core數(shù)量可以為0。
          • 需要使用Airflow進(jìn)行調(diào)度,Core數(shù)量至少為1。
    3. 基礎(chǔ)配置。
      區(qū)域 配置項(xiàng) 描述
      基礎(chǔ)信息 集群名稱 集群的名字,長(zhǎng)度限制為1~64個(gè)字符,僅可使用中文、字母、數(shù)字、短劃線(-)和下劃線(_)。
      元數(shù)據(jù)選擇 配置Airflow元數(shù)據(jù)。
      • 集群內(nèi)置MySQL:表示元數(shù)據(jù)存儲(chǔ)在集群本地環(huán)境的MySQL數(shù)據(jù)庫中。
      • 使用自建RDS:表示使用自建的阿里云RDS作為元數(shù)據(jù)庫,更多信息請(qǐng)參見配置獨(dú)立RDS MySQL
      數(shù)據(jù)開發(fā)存儲(chǔ) EMR Studio集群的數(shù)據(jù)都會(huì)存在OSS上,即使您的EMR Studio集群銷毀了,您可以通過重新創(chuàng)建集群來恢復(fù)原有集群的狀態(tài)(包括您的Notebook以及Airflow調(diào)度的作業(yè)),并且代碼和配置都不會(huì)丟失。
      EMR Studio集群會(huì)在您所選OSS路徑下創(chuàng)建logsdagsnotebook三個(gè)文件夾:
      • logs:在/airflow/目錄下,用于存儲(chǔ)Airflow調(diào)度的日志信息。
      • dags:在/airflow/目錄下,用于存儲(chǔ)Airflow DAG腳本。
      • notebook:在/zeppelin/目錄下,用于存儲(chǔ)Notebook信息。
      掛載公網(wǎng) 集群是否掛載彈性公網(wǎng)IP地址,建議在創(chuàng)建時(shí)開啟掛載公網(wǎng)。未開啟或是關(guān)閉掛載公網(wǎng),將無法使用EMR控制臺(tái)訪問鏈接與端口功能查看開源組件Web UI。
      說明 如果創(chuàng)建集群時(shí),未開啟掛載公網(wǎng),您可以參見彈性公網(wǎng)IP中申請(qǐng)EIP的內(nèi)容處理,或技術(shù)支持處理。
      密鑰對(duì) 關(guān)于密鑰對(duì)的使用詳情,請(qǐng)參見SSH密鑰對(duì)
      密碼 設(shè)置Master節(jié)點(diǎn)的登錄密碼,密碼規(guī)則:8~30個(gè)字符,且必須同時(shí)包含大寫字母、小寫字母、數(shù)字和特殊字符。

      特殊字符包括:感嘆號(hào)(!)、at(@)、井號(hào)(#)、美元符號(hào)($)、百分號(hào)(%)、乘方(^)、and(&)和星號(hào)(*)。

      高級(jí)設(shè)置 添加用戶 添加訪問開源大數(shù)據(jù)軟件Web UI的賬號(hào)。
      權(quán)限設(shè)置 通過RAM角色為在集群上運(yùn)行的應(yīng)用程序提供調(diào)用其他阿里云服務(wù)所需的必要權(quán)限,無需調(diào)整,使用默認(rèn)即可。
      • 服務(wù)角色:用戶將權(quán)限授予EMR服務(wù),允許EMR代表用戶調(diào)用其他阿里云的服務(wù),例如ECS和OSS。
      • ECS應(yīng)用角色:當(dāng)用戶的程序在EMR計(jì)算節(jié)點(diǎn)上運(yùn)行時(shí),可不填寫阿里云AccessKey來訪問相關(guān)的云服務(wù)(例如OSS),EMR會(huì)自動(dòng)申請(qǐng)一個(gè)臨時(shí)AccessKey來授權(quán)本次訪問。ECS應(yīng)用角色用于控制這個(gè)AccessKey的權(quán)限。
      數(shù)據(jù)盤加密 默認(rèn)不開啟。
      打開加密開關(guān),即啟動(dòng)對(duì)集群節(jié)點(diǎn)ECS中所有屬性為云盤的數(shù)據(jù)盤進(jìn)行加密的功能。默認(rèn)使用服務(wù)密鑰為用戶的數(shù)據(jù)進(jìn)行加密,也支持使用用戶自選密鑰為用戶的數(shù)據(jù)進(jìn)行加密。
      重要 不支持加密本地盤。
      引導(dǎo)操作 可選配置,您可以在集群?jiǎn)?dòng)Hadoop前執(zhí)行您自定義的腳本,詳情請(qǐng)參見引導(dǎo)操作
      標(biāo)簽 可選配置,您可以在創(chuàng)建集群時(shí)綁定標(biāo)簽,也可以在集群創(chuàng)建完成后,在集群詳情頁綁定標(biāo)簽,詳情請(qǐng)參見設(shè)置標(biāo)簽
      資源組 可選配置。詳情請(qǐng)參見使用資源組
      說明 頁面右邊會(huì)顯示您所創(chuàng)建集群的配置清單以及集群費(fèi)用。根據(jù)不同的付費(fèi)類型,展示不同的價(jià)格信息。
  3. 當(dāng)所有的信息確認(rèn)正確有效后,選中服務(wù)條款,單擊創(chuàng)建
    重要
    • 按量付費(fèi)集群:立刻開始創(chuàng)建。

      集群創(chuàng)建完成后,集群的狀態(tài)變?yōu)?span id="z68uejxpaoma" class="ph uicontrol" id="uicontrol-xou-g7r-3wi">空閑。

    • 包年包月集群:先生成訂單,在支付完成訂單以后集群才會(huì)開始創(chuàng)建。