通過MaxCompute與DLF和OSS的組合,可以實現數據倉庫和數據湖的一體化,提供更加靈活和高效的數據處理能力。本文為您介紹如何通過MaxCompute、DLF和OSS構建湖倉一體,以及湖倉一體項目的管理。
前提條件
使用限制
僅華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華南1(深圳)、中國香港、新加坡和德國(法蘭克福)地域支持構建湖倉一體能力。
MaxCompute、OSS和DLF必須部署在同一地域。
操作流程
MaxCompute湖倉一體構建流程如下:
步驟一:MaxCompute訪問授權
步驟二:通過DataWorks構建湖倉一體
登錄DataWorks控制臺,選擇支持構建湖倉一體的地域。
說明湖倉一體支持的地域,詳情請參見使用限制。
在DataWorks控制臺頁面左側導航欄,選擇更多>數據湖集成(湖倉一體)。
在數據湖集成(湖倉一體)頁面,單擊現在開始創建。
在新建數據湖集成頁面,按照界面指引進行操作。參數說明如下所示。
表 1. 創建數據倉庫
參數
說明
外部項目名稱
自定義外部項目名稱。命名規則如下:
名稱需以字母開頭,且只能包含字母、下劃線和數字。
名稱不能超過128個字符。
說明外部項目基本概念說明,請參見項目。
MaxCompute項目
選擇對應的MaxCompute項目。如果沒有MaxCompute項目,您可以單擊新建項目(MC控制臺)創建。詳情請參見創建MaxCompute項目。
說明如果MaxCompute項目下拉列表中無法選擇目標項目,則需要在DataWorks控制臺中綁定目標項目,詳情請參考在工作空間創建數據源或注冊集群。
表 2. 創建外部數據湖連接
參數
說明
異構數據平臺類型
阿里云E-MapReduce/Hadoop集群:通過MaxCompute與Hadoop構建湖倉一體。
阿里云DLF+OSS數據湖連接:通過MaxCompute和DLF和OSS構建湖倉一體。
阿里云DLF+OSS數據湖連接
External Project描述
可選。外部項目描述。
DLF所在區
連接DLF所在的可用區,請您根據地域進行選擇。可選項如下:
杭州:cn-hangzhou
上海:cn-shanghai
北京:cn-beijing
深圳:cn-shenzhen
張家口:cn-zhangjiakou
新加坡:ap-southeast-1
法蘭克福:eu-central-1
DLF Endpoint
DLF的對內服務Endpoint,請您根據地域進行選擇。可選項如下:
華東1(杭州):dlf-share.cn-hangzhou.aliyuncs.com
華東2(上海):dlf-share.cn-shanghai.aliyuncs.com
華北2(北京):dlf-share.cn-beijing.aliyuncs.com
華北3(張家口):dlf-share.cn-zhangjiakou.aliyuncs.com
華南1(深圳):dlf-share.cn-shenzhen.aliyuncs.com
中國香港:dlf-share.cn-hongkong.aliyuncs.com
新加坡(東南亞1):dlf-share.ap-southeast-1.aliyuncs.com
德國(法蘭克福):dlf-share.eu-central-1.aliyuncs.com
DLF數據庫名稱
連接DLF的目標數據庫名稱。您可以登錄DLF控制臺,在左側導航欄元數據>元數據管理頁面的數據庫頁簽中獲取。
重要目前僅支持選擇DLF默認Catalog(數據目錄)下的數據庫。
DLF RoleARN
可選。RAM角色的ARN信息。采用自定義授權方式時,需要配置該參數。您可以登錄RAM訪問控制臺,在左側導航欄身份管理下拉列表下的角色頁面獲取。
步驟三:通過DataWorks管理湖倉一體
使用湖倉一體
在DataWorks控制臺頁面左側導航欄,單擊數據湖集成(湖倉一體)。
在數據湖集成(湖倉一體)頁面,選擇目標外部項目,開始使用湖倉一體。
使用湖倉一體。
單擊目標外部項目操作列的使用湖倉一體。
更新湖倉一體外部項目。
單擊目標外部項目操作列的項目配置,即可在項目配置對話框更新外部項目信息。
說明您可以更新MaxCompute外部項目映射的外部數據源的數據庫名稱,以及重新選擇外部數據源。如果需要刪除外部數據源,請到外部數據源頁面進行刪除(暫不支持外部數據源更新操作)。
刪除湖倉一體外部項目。
單擊目標外部項目操作列的刪除,即可刪除當前MaxCompute外部項目。
說明該刪除操作為邏輯刪除操作,外部項目會進入靜默狀態,并在15天后被正式刪除。在此期間無法創建同名外部項目。
查看湖倉一體外部項目的元數據信息
在DataWorks控制臺頁面左側導航欄,單擊工作空間列表。
在工作空間列表中,選擇與外部項目綁定的工作空間,單擊操作列的數據地圖。
在數據地圖頁面的搜索框或全部數據頁簽左側項目下拉列表,輸入外部項目中的表名進行搜索。
說明表的申請權限和查看血緣功能暫時不可用。
表中的元數據信息為T+1更新,即在映射端(如Hive中)修改表結構,則T+1地體現在DataWorks數據地圖中(MaxCompute引擎側為實時元數據)。
在DataWorks數據開發中查看外部項目元數據信息
在DataWorks控制臺頁面左側導航欄,單擊工作空間列表。
在工作空間列表中,選擇與外部項目綁定的工作空間,單擊操作列的數據開發。
在DataStudio頁面左側菜單欄單擊公共表。
在公共表頁面的引擎類型下拉框中選擇MaxCompute。
在項目名或表名搜索框輸入外部項目中的表名進行搜索,單擊目標表名稱即可在下方查看表結構信息。
說明表的申請權限和查看血緣功能暫時不可用。
表中的元數據信息為T+1更新,即在映射端(如Hive中)修改表結構,則T+1地體現在DataWorks數據地圖中(MaxCompute引擎側為實時元數據)。
相關文檔
基于DLF、RDS或Flink、OSS支持Delta Lake或Hudi存儲機制的湖倉一體方案,請參見基于DLF、RDS或Flink、OSS支持Delta Lake或Hudi存儲機制。