云原生數據湖分析DLA(Data Lake Analytics)是新一代大數據解決方案,采取計算與存儲完全分離的架構,支持數據庫與消息實時歸檔建倉。DLA提供彈性的Spark與Presto,滿足在線交互式查詢、流處理、批處理、機器學習等訴求,也是傳統Hadoop方案上云的有競爭力的解決方案,其中彈性是DLA最為核心的競爭力。

彈性能力

Spark CU版彈性:按照Job實際使用彈出資源,只對實際運行的資源進行計費,比傳統方案節約50%+的成本。spark CU彈性
Presto CU版彈性:分時彈性(設置時間段來使用CU資源)。Presto CU彈性
Presto掃描量版本:按照掃描量計費,只對實際運行的SQL進行計費。掃描量版本

優勢總結

對比類目 自建Hadoop系統 阿里云 DLA + OSS方案
產品體系 復雜、組件較多 一體化、端到端(入湖=>管理=>ETL =>分析查詢),產品體驗好;組件精耕細作Presto、Spark;
彈性 云原生、彈性強、一分鐘可彈300節點參與計算
性價比 開源方案 內置大量優化+彈性,比開源自建集群至少降低50%+的成本
DB&消息(如Kafka)歸檔到Hudi(存儲在OSS) 無或者自己寫Code 鏈路大量優化、Hudi大量優化,產品化支持(實現中)
學習與運維成本 高(需要較長時間搭建、配置、運維、學習) 低(即開即用、零運維成本)
安全、多租戶 基于 Kerberos&Ranger,較為復雜 支持數據庫模式庫、表授權模式,多租戶
功能 開源功能,缺乏云連接器的支持,云內部系統對接與優化 針對阿里云OSS & OTS &ADB 等數據源深度優化,Presto與Spark內核大量優化