創(chuàng)建集群
本文為您介紹如何通過阿里云賬號登錄E-MapReduce控制臺,基于Kubernetes創(chuàng)建集群。
前提條件
已完成添加AliyunOSSFullAccess和AliyunDLFFullAccess權(quán)限,詳情請參見授予OSS和DLF權(quán)限。
已創(chuàng)建Kubernetes集群,詳情請參見創(chuàng)建Kubernetes專有版集群或創(chuàng)建Kubernetes托管版集群。
已創(chuàng)建節(jié)點池,詳情請參見創(chuàng)建節(jié)點池。
已開通對象存儲OSS,詳情請參見開通OSS服務(wù)。
操作步驟
在EMR on ACK頁面,單擊創(chuàng)建集群。
在EMR on ACK頁面,完成集群相關(guān)配置。
參數(shù)
描述
地域
創(chuàng)建的集群會在對應(yīng)的地域內(nèi),一旦創(chuàng)建就不能修改。
集群類型
支持以下集群類型:
Shuffle Service:是阿里云EMR在優(yōu)化計算引擎的Shuffle操作上,推出的擴展組件。Shuffle Service通過提供遠端Shuffle服務(wù),使得Spark作業(yè)可以運行在無本地盤的節(jié)點上,并完美支持了動態(tài)資源,非常適合ACK環(huán)境下的Spark集群,詳情請參見Celeborn。
重要當創(chuàng)建Shuffle Service集群類型時,所關(guān)聯(lián)ACK集群的專屬節(jié)點池或節(jié)點的實例規(guī)格必須均為大數(shù)據(jù)型或者本地SSD,否則部署RSS失敗。
說明在阿里云EMR for ACK的使用場景中,針對Shuffle Service類型的集群,系統(tǒng)內(nèi)置了一個名為“rss-pvc-clean”的自動化清理任務(wù)。這是一個預(yù)設(shè)的、用于定期或在特定條件下清理不再使用的PVC資源的Job任務(wù),旨在優(yōu)化存儲資源管理,避免無效或冗余數(shù)據(jù)持久化導(dǎo)致的存儲空間浪費問題。
Presto:是基于內(nèi)存的分布式SQL交互式查詢引擎。
支持多種數(shù)據(jù)源,適合PB級海量數(shù)據(jù)的復(fù)雜分析,以及跨數(shù)據(jù)源的查詢。
Spark:是通用的分布式大數(shù)據(jù)處理引擎,提供了ETL、離線批處理和數(shù)據(jù)建模等能力。
重要創(chuàng)建Spark集群后,如果您需要關(guān)聯(lián)集群,則所選產(chǎn)品版本的大版本號需要和關(guān)聯(lián)的Shuffle Service集群大版本號一致。例如,EMR-5.x-ack版本的Spark集群只能關(guān)聯(lián)EMR-5.x-ack版本的Shuffle Service集群。
Flink:是一個在有界或無界數(shù)據(jù)流上進行有狀態(tài)計算分布式處理的計算引擎。Flink on Ack基于EMR on Ack底座與社區(qū)Flink Kubernetes Operator 1.0.1版本開發(fā),默認使用Flink官方團隊推出的企業(yè)版內(nèi)核,旨在為用戶提供開箱即用的Flink on K8s體驗。
Data Science:請參見創(chuàng)建Data Science集群。
產(chǎn)品版本
默認最新的軟件版本。
組件版本
展示集群類型下的組件及組件版本信息。
ACK集群
選擇已有的ACK集群,或者在容器服務(wù)ACK控制臺新建ACK集群。
單擊配置專屬節(jié)點,可以配置EMR專屬節(jié)點。配置專屬節(jié)點可以對節(jié)點池或節(jié)點打上EMR專屬的污點和標簽,被配置的節(jié)點池或節(jié)點只能用于EMR。
說明推薦您使用節(jié)點池的方式來配置專屬節(jié)點,如果沒有節(jié)點池,請創(chuàng)建節(jié)點池,詳情請參見創(chuàng)建節(jié)點池。
OSS Bucket
選擇已有的Bucket,或者在對象存儲OSS控制臺新建Bucket。
集群名稱
集群的名字,長度限制為1~64個字符,僅可使用中文、字母、數(shù)字、中劃線(-)和下劃線(_)。
單擊創(chuàng)建。
當集群狀態(tài)顯示為運行中時,表示集群創(chuàng)建成功。