什么是EMR on ACK
阿里云E-MapReduce(簡稱EMR) on ACK提供了全新構(gòu)建大數(shù)據(jù)平臺的方式。您可以將開源大數(shù)據(jù)服務(wù)部署在阿里云容器服務(wù)Kubernetes版(ACK)之上,利用ACK在服務(wù)部署和容器應(yīng)用管理的優(yōu)勢,減少對底層集群資源的運維投入,以便于您可以更加專注大數(shù)據(jù)任務(wù)本身。
前置概念
閱讀本文前,您可能需要了解如下概念:
形態(tài)對比
阿里云EMR提供on ECS和on ACK兩種方式,以滿足不同用戶的需求。
對于正在使用EMR on ECS的用戶,可以將Spark和Presto任務(wù)運行在ACK集群上,與其他應(yīng)用共享一個ACK集群,可以實現(xiàn)計算資源跨可用區(qū)共享。
對于已經(jīng)將大數(shù)據(jù)任務(wù)(例如,Spark和Presto等)執(zhí)行在ACK集群上的用戶,EMR on ACK提供了自動部署和管理集群的能力。EMR on ACK與EMR Shuffle Service相結(jié)合,可以顯著提升Spark任務(wù)的性能。
形態(tài) | 描述 |
EMR on ECS | EMR負責(zé)將開源Hadoop生態(tài)的組件安裝部署在ECS上,并啟動相應(yīng)的服務(wù)。您可以在EMR控制臺完成對集群ECS及服務(wù)的運維操作。 您需要將其大數(shù)據(jù)任務(wù)提交至EMR集群。 |
EMR on ACK | 您需要先完成ACK集群的安裝部署。當(dāng)ACK集群準備就緒后,EMR將基于ACK的資源安裝部署大數(shù)據(jù)服務(wù)組件,并在容器內(nèi)運行。 |
EMR on ACK優(yōu)勢
優(yōu)勢 | 描述 |
節(jié)省成本 | 您無需為大數(shù)據(jù)服務(wù)單獨購買ACK集群,通過簡單的配置即可在已有的ACK集群上執(zhí)行大數(shù)據(jù)作業(yè),成本低廉。 復(fù)用現(xiàn)有ACK集群的空閑資源,一鍵執(zhí)行EMR Spark和Presto等任務(wù),輕松上手。大數(shù)據(jù)和在線應(yīng)用程序可以共享集群資源。 離在線混部(在線任務(wù)和離線任務(wù))場景下,資源可以充分利用。大數(shù)據(jù)和在線應(yīng)用程序共享集群資源,達到削峰填谷的效果。 |
簡化運維 | 一套運維體系,一套集群管理,全面覆蓋大數(shù)據(jù)和在線等多種業(yè)務(wù),簡化運維。 |
優(yōu)化體驗 | 一套EMR平臺,同時支持ECS和ACK兩套IaaS資源模型,您可以無縫切換。 利用ACK和彈性容器實例ECI的資源快速交付能力,彈性計算資源的獲取時間更短,充分應(yīng)對計算高峰期。 支持針對作業(yè)級別調(diào)整Spark版本,便于快速嘗試新特性,以滿足不同業(yè)務(wù)對版本的需求。 |
深度集成 | 完全采用云原生數(shù)據(jù)湖架構(gòu),計算使用阿里云ACK,計算資源可以無限擴展;存儲使用阿里云OSS,存儲計算分離;元數(shù)據(jù)使用數(shù)據(jù)湖構(gòu)建DLF,助力數(shù)據(jù)湖構(gòu)建。 |