本文為您介紹創建DataFlow Kafka集群(選擇了Kafka服務)的詳細操作步驟和相關配置。

注意事項

創建DataFlow Kafka集群前,您需要根據業務的預估負載,選擇合適的ECS實例機型以及Broker實例個數。由于業務場景差異很大,所以無法給出通用的集群規劃,您需要根據您的實際環境創建集群。通常,建議您選擇機型時考慮以下配置:
  • Broker機型的CPU和內存配比為1:4。
  • 選擇云盤作為數據存儲盤。
  • 充分考慮云盤的IO吞吐率以及網卡帶寬之間的關系。
在部署參數上,考慮以下因素:
  • 由于EMR Kafka版本仍依賴于Zookeeper,且Zookeeper的可用性直接關系到Kafka服務的高可用,因此,建議您創建集群時,選擇高可用的部署方式。啟用高可用后,將創建3個節點的Zookeeper服務。
  • 如果Master機器組只部署Zookeeper,則Master機器組只需要配置1塊數據盤即可。

更詳細的評估建議,請參見集群資源規格評估建議

操作步驟

  1. 進入創建集群頁面。
    1. 登錄EMR on ECS控制臺
    2. 可選:在頂部菜單欄處,根據實際情況選擇地域和資源組。
      • 地域:創建的集群將會在對應的地域內,一旦創建不能修改。
      • 資源組:默認顯示賬號全部資源。
    3. 單擊上方的創建集群,進行創建。
  2. 配置集群信息。
    創建集群時,您需要對集群進行軟件配置、硬件配置和基礎配置。
    重要 集群創建完成后,除了集群名稱以外,其他配置均無法修改,所以在創建時請仔細確認各項配置。
    1. 軟件配置。
      Create Kafka
      配置項示例描述
      地域華東1(杭州)創建的集群將會在對應的地域內,一旦創建不能修改。
      業務場景實時數據流場景選擇實時數據流場景
      產品版本EMR-3.43.1選擇EMR版本后,您可以查看各服務的版本。

      例如,EMR-3.43.1版本中的Kafka為2.12_2.4.1,其中2.12表示Scala的版本,2.4.1為開源Kafka的版本。

      服務高可用開啟默認不開啟。
      重要 啟用高可用后,將在Master機器組上部署3個節點的Zookeeper服務。由于EMR Kafka版本的服務可用性仍依賴于Zookeeper,所以建議您創建集群時,選擇高可用的部署方式。
      可選服務Kafka

      選擇Kafka服務。

      您也可以根據您的實際需求選擇其他的一些組件,被選中的組件會默認啟動相關的服務進程。
      高級設置不開啟軟件自定義配置:可指定JSON文件對集群中的基礎軟件(例如Hadoop、Spark和Hive等)進行配置。默認不開啟。
    2. 硬件配置。
      配置項示例描述
      付費類型按量付費默認包年包月。當前支持的付費類型如下:
      • 按量付費:一種后付費模式,即先使用再付費。按量付費是根據實際使用的小時數來支付費用,每小時計費一次,適合短期的測試任務或是靈活的動態任務。
      • 包年包月:一種預付費模式,即先付費再使用。
        說明

        建議測試場景下使用按量付費,測試正常后再新建一個包年包月的生產集群正式使用。

      可用區華東1(杭州) 可用區 I可用區為在同一地域下的不同物理區域,可用區之間內網互通。通常使用默認的可用區即可。
      專有網絡emr_test/vpc-bp1f4epmkvncimpgs****默認選擇已有的專有網絡。

      如需創建新的專有網絡,請在專有網絡控制臺新創建一個,詳情請參見創建和管理專有網絡

      交換機vsw_test/vsw-bp1e2f5fhaplp0g6p****選擇在對應VPC下可用區的交換機,如果在這個可用區沒有可用的交換機,則需要在專有網絡控制臺新創建一個,詳情請參見創建和管理交換機
      默認安全組sg-bp1ddw7sm2risw****/sg-bp1ddw7sm2risw****默認選擇已有的安全組。安全組詳情請參見安全組概述

      您也可以單擊新建安全組,在ECS控制臺新建一個安全組,詳情請參見創建安全組

      重要 禁止使用ECS上創建的企業安全組。
      節點組根據實際情況配置
      • 實例類型:您可以根據需要或者評估建議選擇實例規格。評估建議詳情,請參見集群資源規格評估建議
      • 加入部署集:開啟高可用后,Master默認加入部署集,詳情請參見開啟部署集
      • 系統盤:根據需要選擇系統盤。
      • 系統盤大小:根據需要調整磁盤容量,推薦至少120 GiB。取值范圍為80 ~ 500 GiB。
      • 數據盤:根據需要選擇數據盤。
        說明 建議選擇云盤。
      • 數據盤大小:根據需要調整磁盤容量,推薦至少80 GiB。取值范圍為40 ~ 32768 GiB。
      • 實例數量:默認3臺Master,3臺Core。
      • 附加安全組:您可以為該節點組關聯最多2個附加安全組,附加安全組可以靈活定制不同的外部資源或應用程序之間的訪問。
      • 掛載公網:集群是否掛載彈性公網IP地址,默認不開啟。
        說明 創建后如果您需要使用公網IP地址訪問,請在ECS上申請開通公網IP地址,詳情請參見彈性公網IP中的申請EIP的內容。
    3. 基礎配置。
      基礎信息區域,配置如下參數。
      重要 暫不支持高級配置區域的參數,因此請勿設置。
      配置項示例描述
      集群名稱Emr-Kafka集群的名字,長度限制為1~64個字符,僅可使用中文、字母、數字、短劃線(-)和下劃線(_)。
      身份憑證自定義密碼密鑰對(默認):使用SSH密鑰對登錄Linux實例。

      關于密鑰對的使用詳情,請參見SSH密鑰對

      密碼:設置Master節點的登錄密碼,使用密碼對登錄Linux實例。

      密碼規則:8~30個字符,且必須同時包含大寫字母、小寫字母、數字和特殊字符。

      特殊字符包括:感嘆號(!)、at(@)、井號(#)、美元符號($)、百分號(%)、乘方(^)、and(&)和星號(*)。

      高級設置根據需求配置
      • ECS應用角色:當用戶的程序在EMR計算節點上運行時,可不填寫阿里云AccessKey來訪問相關的云服務(例如OSS),EMR會自動申請一個臨時AccessKey來授權本次訪問。ECS應用角色用于控制這個AccessKey的權限。
      • 引導操作:可選配置,您可以在集群啟動Hadoop前執行您自定義的腳本,詳情請參見管理引導操作
      • 標簽:可選配置,您可以在創建集群時綁定標簽,也可以在集群創建完成后,在集群詳情頁綁定標簽,詳情請參見設置標簽
      • 資源組:可選配置。詳情請參見使用資源組
      • 數據盤加密:可選配置。僅支持在創建集群時開啟該功能,詳情請參見開啟數據盤加密
  3. 確認訂單頁面,選中E-MapReduce服務條款復選框。
  4. 單擊創建
    創建集群后可以通過刷新頁面來查看進度,當集群狀態顯示為運行中時,表示集群創建成功。

后續步驟

集群創建成功后,您可以根據實際的業務場景,修改集群的默認參數,使集群正式交付生產時符合相關的要求。例如: