本文檔主要介紹數據湖分析服務DLA包含的核心功能以及應用場景。

數據湖分析服務DLA支持以下功能:
功能名稱 功能描述 參考文檔
賬號管理 賬號分為DLA賬號、RAM賬號。您可以創建DLA子賬號,并關聯RAM子賬號,關聯后可以通過RAM子賬號提交Spark作業。 賬號概覽
虛擬集群管理 使用CU版本的DLA服務,需要創建虛擬集群來進行高頻數據查詢。適用于查詢頻率高、查詢數據量較大的場景,同時也能夠給您使用DLA的費用預算帶來一定的確定性。 創建虛擬集群
元數據管理 可視化全局管理視圖,可以進行元數據的操作,例如創建Schema、查看庫表信息、查詢數據等。 查詢Schema詳情
元信息發現 元數據爬取功能可以自動為OSS上面的數據文件創建及更新數據湖元數據,方便分析和計算。具有自動探索文件數據字段及類型、自動映射目錄和分區、自動感知新增列及分區、自動對文件進行分組建表的能力。 OSS數據源
一鍵入湖 通過DLA控制臺配置數據源(RDS數據源、ECS自建數據庫數據)和目標OSS數據倉庫,系統按照您設定的數據同步時間自動、無縫的幫您把數據源中的數據同步到目標數據倉庫OSS中,同時在數據倉庫和DLA中創建與數據源表相同的表結構,基于目標數據倉庫進行數據分析,不影響數據源端的線上業務運行。 概述
實時數據湖 基于DLA Serverless的Spark Streaming以及數據湖增量存儲格式Apache HUDI來構建,通過HUDI增量寫入OSS的數據,同時自動在DLA的元數據系統構建元數據。 基于DLA+DTS同步RDS數據來構建實時數據湖
DLA Serverless Presto DLA Serverless Presto是云原生數據湖團隊基于Presto打造的交互式分析引擎,Presto開發的初衷就是為了解決使用Hive來進行在線分析速度太慢的問題,因此它采用全內存流水線化的執行引擎,相較于其它引擎會把中間數據落盤的執行方式,Presto在執行速度上有很大的優勢,特別適合用來做Adhoc查詢、BI分析、輕量級ETL等數據分析工作。 Serverless Presto概述
DLA Serverless Spark DLA Serverless Spark基于云原生架構,提供面向數據湖場景的數據分析和計算。開通DLA服務后,您只需簡單的配置,就可以提交Spark作業;無需關心Spark集群部署。 Serverless Spark概述