本文介紹E-MapReduce(簡稱EMR)的產品架構,以便您直觀的了解EMR的產品組成。
EMR的產品架構如下圖所示。
從上圖可以看出EMR由四部分組成:
社區開源產品
集成Apache社區開源大數據組件,例如Hadoop、Hive和HBase,隨著EMR版本更新,開源軟件也會相應的升級,詳情請參見版本概述下各版本的版本說明。
重要已經創建好的EMR集群不支持組件升級。
EMR開源優化
EMR基于開源社區版本的組件,增強了其性能和功能。例如,Delta Lake相較開源版本增加了ZOrder和Data Skipping能力,詳情請參見Delta Lake概述。
EMR自研能力
為讓開源大數據組件和服務更好的運行在阿里云技術設施上,EMR自研了如下組件:
數據應用平臺,提供交互式開發、作業提交、作業調試和工作流一站式數據開發體驗,詳情請參見EMR Studio概述。
Shuffle Service是EMR在優化計算引擎的Shuffle操作上,推出的擴展組件,詳情請參見ESS概述。
SmartData,為EMR各個計算引擎提供統一的存儲優化、緩存優化、計算緩存加速優化和多個存儲功能擴展,詳情請參見SmartData。
阿里云產品
EMR銜接了開源大數據生態和阿里云生態。EMR可以部署在阿里云ECS(Elastic Compute Service)和Kubernetes(簡稱ACK)上;數據可以存儲在阿里云OSS上;通過在EMR上創建Data Science集群可以使用及學習機器學習PAI;EMR集成在DataWorks,您可以在DataWorks上使用EMR作為作業計算和數據存儲引擎。
文檔內容是否對您有幫助?