數(shù)據(jù)質(zhì)量概述
數(shù)據(jù)質(zhì)量幫助您第一時間感知源端數(shù)據(jù)的變更與ETL(Extract Transformation Load)中產(chǎn)生的臟數(shù)據(jù),自動攔截問題任務(wù),有效阻斷臟數(shù)據(jù)向下游蔓延。避免任務(wù)產(chǎn)出不符合預(yù)期的問題數(shù)據(jù),影響正常使用和業(yè)務(wù)決策。同時也能顯著降低問題處理的時間成本,避免任務(wù)重新運行帶來的資源費用浪費。
費用說明
數(shù)據(jù)質(zhì)量規(guī)則運行產(chǎn)生的費用由兩部分組成:
DataWorks相關(guān)收費
根據(jù)數(shù)據(jù)質(zhì)量規(guī)則實例數(shù)進(jìn)行按量收費,詳情請參見:數(shù)據(jù)質(zhì)量計費說明。
非DataWorks收費
數(shù)據(jù)質(zhì)量規(guī)則校驗會產(chǎn)生校驗SQL并下推到引擎執(zhí)行,數(shù)據(jù)質(zhì)量規(guī)則運行將會產(chǎn)生引擎費用,各引擎計費細(xì)則請參考各引擎計費文檔。例如,假設(shè)您使用MaxCompute引擎按量付費模式時,數(shù)據(jù)質(zhì)量規(guī)則校驗將會產(chǎn)生MaxCompute引擎費用,此費用由MaxCompute引擎?zhèn)仁杖。辉贒ataWorks賬單中體現(xiàn)。
功能介紹
數(shù)據(jù)質(zhì)量支持對常見大數(shù)據(jù)存儲(MaxCompute、E-MapReduce Hive、Hologres等)進(jìn)行質(zhì)量校驗。從完整性、準(zhǔn)確性、有效性、一致性、唯一性和及時性等多個維度,配置質(zhì)量監(jiān)控規(guī)則。并可以將質(zhì)量監(jiān)控規(guī)則與調(diào)度節(jié)點進(jìn)行關(guān)聯(lián),當(dāng)任務(wù)運行完成后便會觸發(fā)質(zhì)量規(guī)則校驗,幫助您第一時間感知問題數(shù)據(jù),按需設(shè)置規(guī)則的強(qiáng)弱來控制任務(wù)是否失敗退出,從而避免臟數(shù)據(jù)影響擴(kuò)大,有效降低數(shù)據(jù)恢復(fù)處理的時間成本和費用成本。
數(shù)據(jù)質(zhì)量各模塊功能介紹如下:
名稱 | 描述 |
數(shù)據(jù)質(zhì)量概覽頁面為您展示數(shù)據(jù)質(zhì)量報警與阻塞情況。包括:
| |
我的訂閱頁面為您展示當(dāng)前登錄賬號下通過短信,郵件接收報警的數(shù)據(jù)質(zhì)量校驗規(guī)則。此外,數(shù)據(jù)質(zhì)量還支持通過釘釘群機(jī)器人、企業(yè)微信機(jī)器人和飛書群機(jī)器人等方式發(fā)送報警信息。 | |
數(shù)據(jù)質(zhì)量支持按表配置或按模板配置質(zhì)量監(jiān)控規(guī)則,詳情請參見:配置規(guī)則:按表(單表)、配置規(guī)則:按模板(批量)。 | |
在任務(wù)查詢頁面您可以通過表或節(jié)點搜索表歷史校驗記錄及校驗詳情。 | |
去噪管理功能支持對當(dāng)前工作空間某一時間內(nèi),數(shù)據(jù)質(zhì)量規(guī)則校驗異常的數(shù)據(jù)不觸發(fā)報警,且不阻塞任務(wù)運行。 | |
報告模板管理頁面支持您創(chuàng)建報告模板,添加規(guī)則配置和規(guī)則運行的各項指標(biāo),根據(jù)設(shè)置的統(tǒng)計周期、發(fā)送時間和訂閱信息,定時生成并發(fā)送報告。 | |
數(shù)據(jù)質(zhì)量支持自建規(guī)則模板庫,對通用的自定義監(jiān)控規(guī)則進(jìn)行統(tǒng)一管理,形成自建的規(guī)則模板庫,幫助您提升規(guī)則配置的效率。 |
注意事項
EMR、Hologres、analyticDB for PostgreSQL、CDH在進(jìn)行數(shù)據(jù)質(zhì)量規(guī)則配置前,需要先進(jìn)行元數(shù)據(jù)采集,詳情請參見元數(shù)據(jù)采集。
EMR、Hologres、analyticDB for PostgreSQL、CDH配置表數(shù)據(jù)質(zhì)量規(guī)則后,產(chǎn)出表數(shù)據(jù)的調(diào)度節(jié)點需要使用網(wǎng)絡(luò)已經(jīng)連通的獨享調(diào)度資源組執(zhí)行才可以正常觸發(fā)數(shù)據(jù)質(zhì)量規(guī)則校驗。
一個表可以配置多個數(shù)據(jù)質(zhì)量規(guī)則。
使用場景
在離線數(shù)據(jù)校驗場景下,數(shù)據(jù)質(zhì)量通過表配置的分區(qū)表達(dá)式來匹配節(jié)點每天產(chǎn)出的表分區(qū),數(shù)據(jù)質(zhì)量規(guī)則關(guān)聯(lián)產(chǎn)出該表數(shù)據(jù)的調(diào)度節(jié)點,當(dāng)任務(wù)運行完成便會觸發(fā)質(zhì)量規(guī)則校驗,您可以設(shè)置規(guī)則的強(qiáng)弱來控制節(jié)點是否失敗退出,從而避免臟數(shù)據(jù)影響擴(kuò)大,并支持通過報警配置第一時間接收報警信息并處理。
配置規(guī)則
創(chuàng)建規(guī)則:數(shù)據(jù)質(zhì)量支持您按表創(chuàng)建數(shù)據(jù)質(zhì)量規(guī)則,同時,也支持您通過內(nèi)置規(guī)則模板來快速為一批表批量創(chuàng)建數(shù)據(jù)質(zhì)量規(guī)則。詳情請參見:配置規(guī)則:按表(單表)、配置規(guī)則:按模板(批量)。
訂閱規(guī)則:規(guī)則創(chuàng)建完成后,您可以通過規(guī)則訂閱的方式接收數(shù)據(jù)質(zhì)量規(guī)則校驗報警信息,支持郵件通知、郵件和短信通知、釘釘群機(jī)器人、釘釘群機(jī)器人@ALL、飛書群機(jī)器人、企業(yè)微信機(jī)器人和自定義Webhook等方式進(jìn)行報警。
說明僅DataWorks企業(yè)版版本支持使用自定義Webhook方式。
觸發(fā)規(guī)則校驗
在運維中心中,當(dāng)表關(guān)聯(lián)的調(diào)度節(jié)點運行(執(zhí)行節(jié)點代碼邏輯)完成后,將會觸發(fā)數(shù)據(jù)質(zhì)量校驗(將會產(chǎn)生一條校驗 SQL 在底層執(zhí)行)。DataWorks平臺將會根據(jù)數(shù)據(jù)質(zhì)量規(guī)則強(qiáng)弱和數(shù)據(jù)質(zhì)量規(guī)則校驗結(jié)果決定任務(wù)是否由于質(zhì)量規(guī)則校驗失敗而退出,并阻塞下游節(jié)點執(zhí)行,防止臟數(shù)據(jù)影響范圍進(jìn)一步擴(kuò)大。
查看校驗結(jié)果
您可以通過運維中心節(jié)點運行日志和數(shù)據(jù)質(zhì)量任務(wù)查詢頁面查看數(shù)據(jù)質(zhì)量校驗結(jié)果。
通過運維中心節(jié)點運行日志查看
查看實例狀態(tài)。當(dāng)實例狀態(tài)為質(zhì)量監(jiān)控校驗失敗時,可能是代碼運行成功但節(jié)點產(chǎn)出的表數(shù)據(jù)不符合預(yù)期,數(shù)據(jù)質(zhì)量強(qiáng)規(guī)則校驗未通過導(dǎo)致任務(wù)失敗退出并阻塞下游實例運行。
打開實例運行日志中的DQC日志,查看數(shù)據(jù)質(zhì)量校驗結(jié)果。詳情請參見查看周期實例。
通過數(shù)據(jù)質(zhì)量任務(wù)查詢界面查看。
在任務(wù)查詢界面通過表或節(jié)點搜索校驗記錄及校驗詳情。詳情請參見:查看監(jiān)控任務(wù)。