通過設置邏輯表質量規則并運行質量檢測計劃后,您可以查看邏輯表質量檢查結果,方便用戶掌握當前邏輯表的質量狀況,您可以通過可視化方式與自定義SQL方式制定表級與字段級質量規則。本文以可視化方式為例介紹如何設置邏輯表表規則和字段規則。
前提條件
已新建邏輯表,具體操作,請參見通過Excel導入邏輯表、通過云計算資源導入邏輯表或手動新建邏輯表。
背景信息
如果邏輯表字段配置了關聯字段標準的值,則在質量規則頁面,PostgreSQL、RDS MySQL、AnalyticDB PostgreSQL、Lindorm和PolarDB for PostgreSQL云計算資源類型下,系統會自動生成字段規則。
說明其中MaxCompute、Hive和HiveStorage云計算資源類型,則需要創建分區表達式后,系統才會自動生成字段規則。
模型配置完規則并打開規則開關后,在數據開發畫布編輯頁面引用模型后會自動生成質量檢測節點。
操作步驟
步驟一:進入邏輯表質量規則設置頁面
在頁面左上角,單擊圖標,選擇協同。
在頂部菜單欄,單擊圖標,選擇目標工作組,單擊資產加工 。
說明若您已在資產加工頁面,請跳過“單擊資產加工”的操作。
在左側導航欄,單擊圖標,選擇數據模型設計。
在我的模型下,將鼠標懸停至需要的目錄,單擊圖標。
在邏輯表列表頁面,單擊目標邏輯表操作列的詳情。
在邏輯表詳情頁面,單擊質量規則頁簽。
步驟二:選擇需要配置規則的計算資源以及分區
在質量規則頁簽,選擇目標云計算資源類型,例如MaxCompute。
說明支持設置質量規則的云計算資源類型包括:MaxCompute、Hive、DataHub Service、Kafka、RDS MySQL、PostgreSQL和AnalyticDB PostgreSQL。其中僅MaxCompute、Hive和HiveStorage的云計算資源類型需要配置分區表達式。
當云計算資源類型為MaxCompute或者Hive或HiveStorage時,單擊分區表達式后的圖標。
在新建分區表達式對話框中,選擇“ALL_PARTITIONS”或者具體的某個分區值,單擊校驗后,單擊確定。
說明ALL_PARTITIONS:表示選擇全部分區。
如果邏輯表中,添加了分區字段,則這里可以選擇具體的分區值,例如“bank=$[yyyymmdd-1]”。
當邏輯表存在分區字段,且在系統設置 > 工作組管理 > 更多 > 全局參數中設置了分區字段的變量值,則這里可以直接通過校驗,使用分區變量的值。更多信息,請參見新增工作組全局變量。
步驟三:設置表規則
在質量規則區域的表規則頁簽,單擊新增規則。
在新增質量規則面板,設置規則參數。
參數
說明
規則名稱
支持用戶自定義,規則名稱如果不輸入會默認生成(規則類型+創建時間)。
強弱
強規則:若質量實際結果不滿足規則,則該單項數據質量為較差。
弱規則:常規規則,如實際結果不滿足規則,則該單項數據質量為一般。
規則類型
表的質量規則類型。
表行數
存儲大小
主鍵唯一
多表記錄波動率
數據唯一率
數據完整率
高級選項
說明目前僅MaxCompute、Hive、AnalyticDB PostgreSQL資源類型的部分規則顯示高級選項。
僅用OpenAPI向上層應用提供更精細化的結果數據,不影響數據開發質量節點及質量評估計劃執行。
選擇需要的分組字段和時間參數字段。
質量結果觸發動作
阻斷生產場景:當打開開關時,數據開發場景中開啟了該規則,且質量結果不滿足期望值時,系統會阻斷場景中的任務。關閉則僅記錄質量結果,不影響任務執行。
+保存臟數據樣例:打開開關后,將保存臟數據樣例可在日志中進行查看和下載以及通過OpenAPI調用。
單擊確定。
可查看已經設置好的表規則。
步驟四:設置字段規則
配置邏輯表關聯字段標準的值,具體操作,請參見配置邏輯表關聯字段標準。
在質量規則頁簽,選擇分區表達式(這里以MaxCompute云計算資源類型為例),具體操作,請參見步驟二:選擇需要配置規則的計算資源以及分區。
說明如果邏輯表字段配置了關聯字段標準的值,則在質量規則頁面:
MaxCompute和Hive云計算資源類型,則需要創建分區表達式后,系統才會自動生成字段規則。
PostgreSQL、RDS MySQL、AnalyticDB PostgreSQL云計算資源類型下,系統會自動生成字段規則。
配置完成后系統會自動生成多條字段規則。
在字段規則頁簽,啟用規則。
單個啟用:單擊目標字段規則啟停狀態列的開關,打開字段規則開關。
批量啟用:選中需要啟用的規則,單擊左下角批量啟用,批量啟用規則。
在質量規則區域的字段規則頁簽,單擊新增規則。
在新增質量規則面板,設置規則參數。
參數
說明
規則名稱
支持用戶自定義,規則名稱如果不輸入會默認生成(規則類型+創建時間)。
強弱
強規則:若質量實際結果不滿足規則,則該單項數據質量為較差。
弱規則:常規規則,如實際結果不滿足規則,則該單項數據質量為一般。
字段名稱
待配置規則的字段名稱。
數據類型
系統統計類:主要從統計學角度設置字段規則,包括最大值、唯一率、重復率等判斷字段是否符合要求。
數據元類:適用于選擇的字段已關聯了數據元后的規則。
維度類:適用于選擇的字段已關聯了維度后的規則,包括字段長度和字段值類型的校驗。
規則類型
字段的質量規則類型。包括:
空值率
唯一率
重復率
空值數量
最大值
最小值
唯一值
和重復值。
高級選項
說明目前僅MaxCompute、Hive、AnalyticDB PostgreSQL資源類型的部分規則顯示高級選項。
僅用OpenAPI向上層應用提供更精細化的結果數據,不影響數據開發質量節點及質量評估計劃執行。
選擇需要的分組字段和時間參數字段。
質量結果觸發動作
阻斷生產場景:當打開開關時,數據開發場景中開啟了該規則,且質量結果不滿足期望值時,系統會阻斷場景中的任務。關閉則僅記錄質量結果,不影響任務執行。
+保存臟數據樣例:打開開關后,將保存臟數據樣例可在日志中進行查看和下載以及通過OpenAPI調用。
單擊確定。
操作完成后可以查看已創建的字段規則。
相關操作
操作 | 說明 |
查看邏輯表規則 | 在質量規則頁簽,單擊表規則頁簽,查看表規則。在字段規則頁簽,查看字段規則。 |
復制質量規則 | 當邏輯表存在分區字段時,在質量規則頁簽,單擊復制規則,可以復制源分區的規則到目標分區中。 |
編輯規則 | 在質量規則頁簽的對應規則列表,單擊目標規則操作列的編輯,在編輯質量規則面板,修改規則后,單擊確定。 |
刪除規則 |
|
導入邏輯表規則 | 通過Excel 導入邏輯表的方式,支持批量導入多個規則,更多信息,請參見通過Excel導入邏輯表中選擇導入的文件類型為規則時的操作。 |
設置自定義SQL規則 | 在質量規則頁簽,單擊自定義SQL規則頁簽,單擊新增規則,在彈出的面板中,通過輸入自定義SQL語句配置規則,操作完成后單擊確定。 |
后續步驟
配置完質量規則后,需要創建質量檢查計劃并運行,更多信息,請參見新建并啟用物理表質量檢查計劃。