本文以實現構建數據標準來設計數據模型,并通過規范化的流程,下發模型至計算引擎為例,為您介紹DataWorks數據建模的流程。
前提條件
如果您使用的是阿里云主賬號,請下載建模工具。如果您使用的是RAM用戶,請完成授權并下載建模工具。詳情請參見用戶授權與管理和下載建模工具(DDM)。
背景信息
DataWorks接入數據建模前,主要集中于數據開發中和開發后的治理。而數據建模新增定義數據形態的流程,為您提供一站式的模型管理解決方案和數據開發前的治理能力。在數據建模時,您可以根據對業務流程的理解和需求的調研,定義企業的業務標準和規范。同時,基于數據標準進行引用和實行,生成表結構,實現模型的統一管理。
創建數據標準
開始數據建模前,企業的數據管理者(空間管理員)需要為企業批量定義數據標準,以便標準化后續的數據建模工作流程。
空間管理員根據企業的實際情況和數據標準模板中的格式,為實際的業務場景中涉及的相關實體定義數據標準。
進入DataWorks數據建模頁面。
進入數據開發頁面。
登錄DataWorks控制臺,單擊左側導航欄的 ,在下拉框中選擇對應工作空間后單擊進入數據開發。
單擊左上方的圖標,選擇 。
導入數據標準。
在數據建模頁面的頂部菜單欄,單擊數據標準。
單擊右上方的批量導入。
在打開對話框中,選中本地存放的數據標準文件,單擊打開。
在DDM客戶端同步DataWorks中導入的數據標準。
登錄DDM客戶端。
在頂部菜單欄中,單擊模型。
在模型頁面,單擊數據標準。
在數據標準瀏覽器對話框中,單擊同步更新。
同步成功后,您即可在DDM客戶端查看到DataWorks中導入的數據標準。
創建數據模型
本文以直接導入示例模板為例進行操作。如果您需要創建數據模型,請參見管理表。
下載示例數據模型。
在DDM客戶端的開始頁面,DataWorks模型設計師角色單擊打開。
在打開對話框中,選中保存在本地的示例數據模型。
單擊打開,查看導入的數據模型。
修改數據模型
本步驟通過引用數據標準的方式,為您介紹如何修改一個數據模型中的字段。
DataWorks模型設計師角色設置數據標準的引用屬性。
在DDM客戶端的頂部菜單欄,單擊模型。
在模型頁面,單擊選項。
在數據標準應用設置對話框中,選中數據類型和英文縮寫(到字段名)。
設置后,您在引用數據標準時,數據類型、字段名稱會沿用定義數據標準時定義的數據類型和字段名稱。
在左側的數據模型下,右鍵單擊 ,選擇跳到當前主題。
在右側的數據視圖頁面,右鍵單擊customer主題,選擇編輯字段。
在字段編輯器對話框中,單擊圖標,在中文名處搜索數據標準的名稱。
單擊搜索到的數據標準名稱,即可生成字段。
單擊確定,保存修改的模型。
保存模型至模型庫
數據模型編輯完成后,需要DataWorks模型設計師角色將其保存至模型庫,以便在DataStudio中獲取該模型,并進行發布等操作。
在DDM客戶端的頂部菜單欄,模型設計師角色單擊模型庫。
在模型庫頁面,單擊另存。
在模型瀏覽器對話框右上方的請選擇項目空間下拉列表中,選擇需要存放該模型的DataWorks工作空間。
在對話框下方重命名模型名稱后,單擊保存。
此處定義的模型名稱會在DataWorks的
頁面顯示。設置已保存的模型為PROD狀態。
在模型瀏覽器對話框中,右鍵單擊保存的模型名稱,選擇屬性。
在模型庫模型屬性對話框中,調整發布狀態為PROD。
說明此處的PROD并不是將模型直接發布至生產環境計算引擎,是指在經過相關人員的評審后,該模型已具備上線的條件。
單擊確定。
提交模型至開發環境計算引擎
保存數據模型后,DataWorks開發角色需要先提交數據模型至開發環境計算引擎。測試無誤后,再發布至生產環境。
進入數據開發頁面。
登錄DataWorks控制臺,單擊左側導航欄的 ,在下拉框中選擇對應工作空間后單擊進入數據開發。
查看數據模型。
在左側導航欄,單擊模型管理。
說明如果左側導航欄未顯示模型管理圖標,您可在DataStudio界面左側導航欄底部單擊圖標,進入個人設置頁面設置DataStudio顯示的功能模塊。詳情請參見個人設置。
在 sakila_MaxCompute_demo)。 的右上方,單擊圖標,即可顯示已置為PROD狀態的數據模型(示例為
展開該模型,并雙擊主題域下的Main,查看該數據模型的ER關系圖。
提交數據模型。
在左側的物理模型區域,選中 sakila_MaxCompute_demo中的所有表。
在主題域的ER關系圖頁面,單擊圖標。
在模型提交對話框中,根據向導配置各項參數。
在選擇目標引擎區域,選擇您需要提交表結構的目標引擎(引擎類型和引擎實例)。
單擊下一步。
在引擎特性適配區域,確認相關信息。
如果MaxCompute開發環境項目中存在同名的表,本步驟會提醒您即將被刪除的表。如果不存在同名的表,則本步驟的提示框中將不作相關提醒。
單擊下一步。
在生成DDL區域,物理模型會被轉換為實際下發至計算引擎中運行的DDL語句。
選中我確認上述DDL語句正確無誤,繼續提交并將DDL下發至開發環境引擎,單擊提交。
DDL語句開始運行并提交至MaxCompute開發環境項目。如果本步驟過于消耗時間,您可以單擊確定,直接關閉運行窗口,并在下一步操作中查看運行日志。
在物理模型頁面下方,單擊日志,查看模型的狀態。單擊刷新,即可更新模型的運行狀態。
發布模型至生產環境計算引擎
提交數據模型至開發環境計算引擎后,DataWorks運維、部署或空間管理員角色可以發布該數據模型至生產環境計算引擎。
單擊頁面右上方的任務發布。
在創建發布包頁面,選中相應模型并單擊其操作列的查看,查看發布至生產環境的DDL語句。
確認需要發布的代碼無誤后,在創建發布包頁面單擊發布選中項,發布該數據模型至生產環境計算引擎。
返回 頁面,選中該數據模型并單擊日志,確認其發布狀態為成功。
驗證發布結果。
在DataStudio頁面,創建一個ODPS SQL節點。詳情請參見開發ODPS SQL任務。
打開ODPS SQL節點的編輯頁面,運行
show tables
。在運行日志中,通過Ctrl+F搜索customer。
您還可以運行DESC語句,確認表結構是否符合預期。