CreateCluster用于創建一個新的集群。在實際操作中,調用CreateCluster API接口以構建新集群的過程涉及眾多參數,其中尤以Applications服務列表及其關聯的ApplicationConfigs配置項最為復雜和關鍵。本文將對CreateCluster API中的核心參數進行深度解析與示例說明,幫助您順利完成集群創建。
地域:RegionId
EMR支持以下地域:
中國地區
地域名稱
地域ID
華東1(杭州)
cn-hangzhou
華東2(上海)
cn-shanghai
華北1(青島)
cn-qingdao
華北2(北京)
cn-beijing
華北3(張家口)
cn-zhangjiakou
華北5(呼和浩特)
cn-huhehaote
華北6(烏蘭察布)
cn-wulanchabu
華南1(深圳)
cn-shenzhen
西南1(成都)
cn-chengdu
中國香港
cn-hongkong
華北2阿里政務云1
cn-north-2-gov-1
其他國家和地區
地域名稱
地域ID
日本(東京)
ap-northeast-1
新加坡
ap-southeast-1
馬來西亞(吉隆坡)
ap-southeast-3
印度尼西亞(雅加達)
ap-southeast-5
德國(法蘭克福)
eu-central-1
英國(倫敦)
eu-west-1
美國(硅谷)
us-west-1
美國(弗吉尼亞)
us-east-1
阿聯酋(迪拜)
me-east-1
示例值:cn-hangzhou。
資源組:ResourceGroupId
可選參數。資源組ID。示例值:rg-acfmzabjyop****。
付費類型:PaymentType
付費類型。取值范圍:
PayAsYouGo:后付費,即按量付費。
Subscription:預付費,即包年包月。
對應EMR控制臺如下圖所示。
示例值:PayAsYouGo。
預付費配置:SubscriptionConfig
當付費類型PaymentType取值為Subscription時,該參數生效。具體參數填寫請參見SubscriptionConfig。
對應EMR控制臺如下圖所示。
集群類型:ClusterType
集群類型,取值范圍如下:
DATALAKE:數據湖。
OLAP:數據分析。
DATAFLOW:實時數據流。
DATASERVING:數據服務。
CUSTOM:自定義混部集群。
HADOOP:舊版數據湖(不推薦使用,建議使用數據湖)
對應EMR控制臺如下圖所示。
示例值:DATALAKE。
EMR版本:ReleaseVersion
EMR發行版。您可以通過EMR集群售賣頁面或ListReleaseVersions - 查詢版本查看EMR發行版。
對應EMR控制臺如下圖所示。
示例值:EMR-5.16.0。
集群名稱:ClusterName
集群名稱。長度為1~128個字符,必須以大小字母或中文開頭,不能以http://和https://開頭。允許包含中文、英文、數字、半角冒號(:)、下劃線(_)、半角句號(.)或短劃線(-)。
示例值:emrtest。
應用(服務)高可用:DeployMode
集群中的應用部署模式。取值范圍:
NORMAL:非高可用部署。創建只有1個Master節點的集群。
HA:高可用部署。創建含3個Master節點的集群。
例如,取值為HA,則對應EMR控制臺如下圖所示。
示例值:NORMAL。
Kerberos安全模式:SecurityMode
集群安全模式。取值范圍:
NORMAL:普通安全模式,即不啟用Kerberos認證機制。
KERBEROS:啟用Kerberos安全模式。
例如,取值為KERBEROS,則對應EMR控制臺如下圖所示。
示例值:NORMAL。
應用(服務):Applications
例如,EMR控制臺上展示了DataLake集群類型的相關服務,具體如下圖所示。
在EMR中,部分應用存在依賴和互斥關系:
應用依賴:A應用依賴B應用,選擇安裝A應用時,必須同時安裝B應用。例如:Hive依賴YARN,如果選擇安裝Hive則必須同時安裝YARN。
應用互斥:A應用和B應用互斥,選擇安裝A應用時,不能同時安裝B。例如:Spark2和Spark3互斥,如果選擇安裝Spark2,則不能再安裝Spark3。
高可用HA集群應用填寫
選擇安裝應用 | 必須安裝的依賴應用 | 不可同時安裝的互斥應用 |
HDFS | Hadoop-Common、ZooKeeper | OSS-HDFS |
OSS-HDFS | Hadoop-Common | HDFS |
Hive | Hadoop-Common、YARN、ZooKeeper、HDFS或者OSS-HDFS任選其一 | 無 |
Spark2 | Hadoop-Common、YARN、Hive、ZooKeeper | Spark3 |
Spark3 | Hadoop-Common、YARN、Hive、ZooKeeper、HDFS或者OSS-HDFS任選其一 | Spark2 |
Tez | Hadoop-Common、YARN、ZooKeeper、HDFS或者OSS-HDFS任選其一 | 無 |
Trino | Hadoop-Common | 無 |
Flume | Hadoop-Common | 無 |
Kyuubi | Hadoop-Common、YARN、Hive、Spark3、Zookeeper、HDFS或者OSS-HDFS任選其一 | 無 |
YARN | Hadoop-Common、Zookeeper、HDFS或者OSS-HDFS任選其一 | 無 |
Impala | Hadoop-Common、YARN、Hive、Zookeeper、HDFS或者OSS-HDFS任選其一 | 無 |
Ranger | Hadoop-Common、Ranger-plugin | 無 |
Presto | Hadoop-Common | 無 |
Sqoop | Hadoop-Common、YARN、ZooKeeper、HDFS或者OSS-HDFS任選其一 | 無 |
Knox | OpenLDAP | 無 |
Starrocks2 | 無 | Starrocks3 |
Starrocks3 | 無 | Starrocks2 |
Clickhouse | ZooKeeper | 無 |
Flink | Hadoop-Common、YARN、OpenLDAP、ZooKeeper、HDFS或者OSS-HDFS任選其一 | 無 |
HBase | Hadoop-Common、HDFS或者OSS-HDFS任選其一、ZooKeeper | 無 |
Phoenix | Hadoop-Common、HDFS或者OSS-HDFS任選其一、ZooKeeper、HBase | 無 |
非高可用集群應用填寫
非高可用集群,即:DeployMode參數值設置為NORMAL。應用(服務)之間的依賴和互斥關系如下表所示。
選擇安裝應用 | 必須安裝的依賴應用 | 不可同時安裝的互斥應用 |
HDFS | Hadoop-Common | OSS-HDFS |
OSS-HDFS | Hadoop-Common | HDFS |
Hive | Hadoop-Common、YARN | 無 |
Spark2 | Hadoop-Common、YARN、Hive | Spark3 |
Spark3 | Hadoop-Common、YARN、Hive | Spark2 |
Tez | Hadoop-Common、YARN、HDFS或者OSS-HDFS任選其一 | 無 |
Trino | Hadoop-Common | 無 |
Flume | Hadoop-Common | 無 |
Kyuubi | Hadoop-Common、YARN、Hive、Spark3、Zookeeper | 無 |
YARN | Hadoop-Common | 無 |
Impala | Hadoop-Common、YARN、Hive | 無 |
Ranger | Hadoop-Common、Ranger-plugin | 無 |
Presto | Hadoop-Common | 無 |
Sqoop | Hadoop-Common、YARN | 無 |
Knox | OpenLDAP | 無 |
Starrocks2 | 無 | Starrocks3 |
Starrocks3 | 無 | Starrocks2 |
Clickhouse | ZooKeeper | 無 |
Flink | Hadoop-Common、YARN、OpenLDAP | 無 |
HBase | Hadoop-Common、HDFS或者OSS-HDFS任選其一、Zookeeper | 無 |
Phoenix | Hadoop-Common、HDFS或者OSS-HDFS任選其一、Zookeeper、HBase | 無 |
應用(服務)配置:ApplicationConfigs
應用(服務)配置必填參數如下表所示。
${參數}
表示需要您自行填寫的內容。
DATALAKE(數據湖)
依賴類型 | 必填應用配置參數 | 說明 |
應用選擇OSS-HDFS |
| 參數 |
元數據服務類型選擇DLF | EMR-3.43.0及后續版本(EMR-3.x系列)、EMR-5.9.0及后續版本(EMR-5.x系列)
EMR-3.42.0及之前版本(EMR-3.x系列)、EMR-5.8.0及之前版本(EMR-5.x系列)
|
|
元數據服務類型選擇RDS |
|
|
元數據服務類型選擇內置MySQL |
| 參數hive.metastore.type:選擇的元數據類型。參數值LOCAL,對應控制臺的內置MySQL。 |
OLAP(數據分析)
依賴類型 | 必填應用配置參數 | 說明 |
應用ClickHouse |
| 對應控制臺如下圖所示。 重要 在進行配置時,請確保 |
應用選擇Starrocks2,且選擇連接DLF |
|
|
應用選擇Starrocks3,且選擇連接DLF |
|
|
DATAFLOW(實時數據)
依賴類型 | 必填應用配置參數 | 說明 |
應用選擇OSS-HDFS |
| 參數 |
應用選擇Flink,且選擇連接DLF |
|
|
DATASERVING(數據服務)
依賴類型 | 必填應用配置參數 | 說明 |
應用選擇OSS-HDFS |
| 參數 |
應用選擇OSS-HDFS和HBase,使用HBase日志存儲 |
| 參數hbase.wal.mode值HDFS對應控制臺勾選「HBase hlog使用HDFS存儲」 |
CUSTOM(自定義集群)
該集群類型的參數設置與其余集群類型組合保持一致。
ECS節點配置:NodeAttributes
必選參數。主要配置ECS相關的參數,詳情請參見NodeAttributes。
參數 | 說明 |
VpcId | 專有網絡ID。例如,vpc-bp1tgey2p0ytxmdo5****。 |
ZoneId | 可用區ID。例如,ch-hangzhou-h。 |
SecurityGroupId | 安全組ID。只支持普通安全組,不支持企業安全組。例如,sg-hp3abbae8lb6lmb1****。 |
RamRole | ECS訪問資源綁定的角色。 默認值:AliyunECSInstanceForEMRRole。 |
KeyPairName | ECS實例SSH登錄所使用的密鑰對名稱。 |
MasterRootPassword | Master節點上root用戶的初始密碼。這個密碼僅在ECS實例創建時使用一次,用于首次設置和驗證root用戶身份。 |
節點組:NodeGroups
必選參數。定義集群創建時節點組的信息,詳情請參見NodeGroupConfig。
引導腳本:BootstrapScripts
可選參數。定義集群的引導腳本,詳情請參見Script。
標簽:Tags
可選參數。給創建的集群打上標簽,詳情請參見Tag。
冪等Token:ClientToken
可選參數。用于防止多次調用重復創建集群。 同一個ClientToken多次調用的返回結果應保持一致,且同一個ClientToken最多只能創建一個集群。
相關文檔
CreateCluster的API文檔,詳情請參見CreateCluster - 創建集群。