實例類型
CDP由多個不同類型的實例節點組成,其中基礎版包括主實例節點(Master)、工具實例節點(Utility)和核心實例節點(Core);專業版包括主實例節點(Master)、工具實例節點(Utility)、核心實例節點(Core)和數據服務節點(Data-Service)。
不同的實例節點上部署的服務進程不同,負責完成的任務也不同。
以下為實例類型的具體說明。
主實例節點(Master)
Master節點主要用于部署HDFS NameNode,YARN ResourceManager以及Zookeeper Server等。
工具實例節點(Utility)
Utility節點主要用于部署CM(CDP的管控),以及Hive Metastore,Hue以及集群的元數據信息。針對高可用集群,工具節點還會用于部署HDFS 的JournalNode以及ZooKeeper的Server。針對高安全集群,工具節點也會用于安裝Solr server,Ranger以及Knox代理。
核心實例節點(Core)
Core節點主要用于數據存儲和計算,運行HDFS DataNode和YARN NodeManager。
數據服務節點(Data-Service)
Data-Service節點主要用于部署Data Warehouse,Data Engineering和Machine Learning服務:
Data Warehouse:使用Data-Service的Data Warehouse服務,用戶可以創建相互獨立的虛擬數倉,并且虛擬數倉可以根據負載需求自動的擴縮容,在沒有負載時進入掛起狀態,提高資源利用率。
Data Engineering:使用Data-Service的Data Engineering服務,用戶可以創建自動擴縮容的Spark虛擬集群,并為用戶提供交互式界面以提交Spark作業,以及Airflow服務以幫助用戶調度Spark作業。
Machine Learning:Data-Service的Machine Learning服務提供了整套的AI WorkSpace,數據科學家可以使用該套工作空間完成數據準備,機器學習實驗,模型測試和模型部署等工作。數據工程師也能使用該套服務快速編寫ETL腳本進行數據處理。