本文中含有需要您注意的重要提示信息,忽略該信息可能對您的業務造成影響,請務必仔細閱讀。
本章節主要介紹數據目錄(Catalog)的基本能力。
什么是數據目錄(Catalog)
數據目錄(Catalog)是數據湖構建(Data Lake Formation)的元數據最上層實體,它可以包含多個數據庫。
適用場景
主要適用于元數據隔離的場景,比如多個E-MapReduce集群,每個集群綁定不同的Catalog,每個EMR集群間元數據互不可見。
基本操作
新建數據目錄(Catalog)
登錄數據湖構建控制臺。
菜單選擇:“元數據-元數據管理”。
切換標簽頁到“數據目錄”。
點擊“新建數據目錄”。
在輸入框中輸入如下內容:
目錄ID,必選,唯一標識,不可重名。
描述,可選,輸入描述信息。
目錄路徑,可選,輸入默認的存儲路徑,目前僅支持OSS路徑。
查詢數據目錄(Catalog)
登錄數據湖構建控制臺。
菜單選擇:“元數據-元數據管理”。
切換標簽頁到“數據目錄”。
修改數據目錄(Catalog)
登錄數據湖構建控制臺。
菜單選擇:“元數據-元數據管理”。
切換標簽頁到“數據目錄”。
針對某一行的數據目錄,點擊右側的“編輯”按鈕。
在輸入框中,修改如下內容:
描述,可選,輸入描述信息。
目錄路徑,可選,輸入默認的存儲路徑,目前僅支持OSS路徑。
刪除數據目錄(Catalog)
請您謹慎選擇刪除,刪除后,數據將不可恢復!
登錄數據湖構建控制臺。
菜單選擇:“元數據-元數據管理”。
切換標簽頁到“數據目錄”。
針對某一行的數據目錄,點擊右側的“刪除”按鈕。
彈出提示確認框后,點擊確認,完成catalog刪除。
與計算引擎的適配操作
如何修改E-MapReduce集群的數據目錄
修改E-MapReduce集群綁定的 DLF Catalog ID后,該集群將會指向新的Catalog ID,在該集群的對原來Catalog的庫/表等操作或運行中的作業均會失效。請充分考慮影響后,再進行切換。
Hive引擎配置修改
在Hive/hive-site.xml文件下,新增配置項:dlf.catalog.id
Key=dlf.catalog.id
Value=DLF數據目錄ID
依次點擊以下2個操作,完成配置部署生效。
保存配置。
部署客戶端配置。
點擊Hive右側的更多操作,選擇重啟,將Hive服務進行重啟。
重啟成功后,Hive狀態變為良好,則Catalog ID修改完成。
Spark配置修改參考上述Hive配置修改并重啟服務。
注意:如EMR主版本<=5.6.0/3.40.0,則不需要單獨對Spark做此配置修改,它使用Hive的配置,僅修改Hive配置即可。
Presto配置修改參考上述Hive配置修改并重啟服務,需注意修改文件為hive.properties(Presto僅限于EMR 5.8.0/3.42.0及以上版本支持該功能)
Impala配置不需要單獨對Impala做此修改,它使用Hive的配置,僅修改Hive配置即可。