云原生數據湖分析DLA(Data Lake Analytics)是新一代大數據解決方案,采取計算與存儲完全分離的架構,支持數據庫與消息實時歸檔建倉。DLA提供彈性的Spark與Presto,滿足在線交互式查詢、流處理、批處理、機器學習等訴求,也是傳統Hadoop方案上云的有競爭力的解決方案,其中彈性是DLA最為核心的競爭力。
彈性能力
Spark CU版彈性:按照Job實際使用彈出資源,只對實際運行的資源進行計費,比傳統方案節約50%+的成本。
Presto CU版彈性:分時彈性(設置時間段來使用CU資源)。
Presto掃描量版本:按照掃描量計費,只對實際運行的SQL進行計費。
優勢總結
對比類目 | 自建Hadoop系統 | 阿里云 DLA + OSS方案 |
---|---|---|
產品體系 | 復雜、組件較多 | 一體化、端到端(入湖=>管理=>ETL =>分析查詢),產品體驗好;組件精耕細作Presto、Spark; |
彈性 | 無 | 云原生、彈性強、一分鐘可彈300節點參與計算 |
性價比 | 開源方案 | 內置大量優化+彈性,比開源自建集群至少降低50%+的成本 |
DB&消息(如Kafka)歸檔到Hudi(存儲在OSS) | 無或者自己寫Code | 鏈路大量優化、Hudi大量優化,產品化支持(實現中) |
學習與運維成本 | 高(需要較長時間搭建、配置、運維、學習) | 低(即開即用、零運維成本) |
安全、多租戶 | 基于 Kerberos&Ranger,較為復雜 | 支持數據庫模式庫、表授權模式,多租戶 |
功能 | 開源功能,缺乏云連接器的支持,云內部系統對接與優化 | 針對阿里云OSS & OTS &ADB 等數據源深度優化,Presto與Spark內核大量優化 |