實(shí)時(shí)同步任務(wù)告警設(shè)置最佳實(shí)踐
對(duì)于DataWorks數(shù)據(jù)集成的實(shí)時(shí)同步任務(wù)、全增量同步任務(wù)的實(shí)時(shí)同步階段,您可以設(shè)置任務(wù)告警規(guī)則,用來監(jiān)控同步任務(wù)的狀態(tài),本文為您介紹實(shí)時(shí)同步任務(wù)告警設(shè)置的指標(biāo)有哪些,并為您示例一個(gè)最佳實(shí)踐。
告警規(guī)則指標(biāo)
您可以在DataWorks的運(yùn)維中心對(duì)實(shí)時(shí)同步任務(wù)設(shè)置報(bào)警規(guī)則,其中包含的報(bào)警指標(biāo)包括:任務(wù)狀態(tài)、業(yè)務(wù)延遲、Failover、DDL不支持、DDL通知、臟數(shù)據(jù)。
指標(biāo)1:任務(wù)狀態(tài)
指標(biāo)報(bào)警場(chǎng)景 | 配置建議 |
任務(wù)狀態(tài)告警指標(biāo)通過任務(wù)心跳狀態(tài)來判斷實(shí)時(shí)同步任務(wù)是否異常。 |
|
指標(biāo)2:業(yè)務(wù)延遲
報(bào)警監(jiān)控原理與適用場(chǎng)景 | 配置建議 |
實(shí)時(shí)同步業(yè)務(wù)延遲指標(biāo)告警,用于判斷同步任務(wù)正常運(yùn)行時(shí)同步速率是否能滿足源端數(shù)據(jù)生產(chǎn)速率。其基本原理為數(shù)據(jù)處理時(shí)間與數(shù)據(jù)在源端生產(chǎn)時(shí)間差。 |
|
指標(biāo)3:消息堆積量(僅Kafka源)
報(bào)警監(jiān)控原理與適用場(chǎng)景 | 配置建議 |
本指標(biāo)僅可見于kafka源端實(shí)時(shí)同步任務(wù)。同步任務(wù)運(yùn)行時(shí)通過對(duì)比Kafka源端Offset和消費(fèi)記錄Offset獲取Kafka數(shù)據(jù)消費(fèi)延遲數(shù)據(jù)量。 | 建議Kafka源端重要實(shí)時(shí)同步任務(wù)配置均配置。 |
指標(biāo)4:Failover
報(bào)警監(jiān)控原理與適用場(chǎng)景 | 配置建議 |
Failover指標(biāo)是指當(dāng)實(shí)時(shí)同步進(jìn)程發(fā)生異常退出時(shí),為提升進(jìn)程可靠性,數(shù)據(jù)集成控制服務(wù)會(huì)重新拉起進(jìn)程嘗試恢復(fù)失敗退出同步進(jìn)程,進(jìn)而提升同步進(jìn)程可靠性。 | 如果關(guān)注任務(wù)Failover信息,可以配置Failover指標(biāo)告警,感知同步程序是否存在異常頻繁發(fā)生Failover。 |
指標(biāo)5:DDL不支持(即將下線)
報(bào)警監(jiān)控原理與適用場(chǎng)景 | 配置建議 |
數(shù)據(jù)集成實(shí)時(shí)同步支持部分源端DDL事件,對(duì)于不支持的DDL事件可以在DDL配置頁(yè)面設(shè)置Ignore、Warning、Critical等DDL處理策略。當(dāng)發(fā)生Warning、Critical級(jí)別DDL事件時(shí),可以設(shè)置DDL不支持指標(biāo)發(fā)送告警。 | 此監(jiān)控指標(biāo)處于待下線狀態(tài),您可以通過DDL通知指標(biāo)滿足類似報(bào)警需求,DDL通知指標(biāo)告警包含此項(xiàng)功能。 |
指標(biāo)6:DDL通知
報(bào)警監(jiān)控原理與適用場(chǎng)景 | 配置建議 |
DDL通知指標(biāo)監(jiān)控支持設(shè)置DDL類型(與DDL處理策略解耦),當(dāng)監(jiān)控的DDL事件發(fā)生時(shí)發(fā)送對(duì)應(yīng)告警。 | 功能包含DDL不支持類型告警功能,DDL類型監(jiān)控告警場(chǎng)景推薦使用此告警設(shè)置。 |
指標(biāo)7:臟數(shù)據(jù)
報(bào)警監(jiān)控原理與適用場(chǎng)景 | 配置建議 |
實(shí)時(shí)同步過程中當(dāng)數(shù)據(jù)寫入目標(biāo)端失敗時(shí),此條數(shù)據(jù)會(huì)被歸類為臟數(shù)據(jù)。當(dāng)用戶需要感知臟數(shù)據(jù)發(fā)生時(shí),可設(shè)置此監(jiān)控指標(biāo)。 |
|
告警接收方式
DataWorks對(duì)實(shí)時(shí)同步任務(wù)設(shè)置告警時(shí)支持一些告警接收方式:郵件、短信、電話、釘釘、webhook。
郵件
告警信息以郵件形式向接收人郵箱發(fā)送,接收人郵箱在DataWorks管控臺(tái)報(bào)警聯(lián)系人頁(yè)面設(shè)置。如果接收人沒有設(shè)置郵箱會(huì)升級(jí)到對(duì)應(yīng)主賬號(hào)郵箱發(fā)送。
查看告警郵件時(shí),您需要確認(rèn)相關(guān)告警郵件沒有被歸類到垃圾郵件分類中。
短信
告警信息以短信形式向接收人手機(jī)號(hào)碼發(fā)送,接收人手機(jī)號(hào)在DataWorks管控臺(tái)報(bào)警聯(lián)系人頁(yè)面設(shè)置。如果接收人沒有設(shè)置手機(jī)號(hào)碼會(huì)升級(jí)到對(duì)應(yīng)主賬號(hào)手機(jī)號(hào)碼發(fā)送。
電話
告警信息以語(yǔ)音電話形式向接收人手機(jī)號(hào)碼發(fā)送,接收人手機(jī)號(hào)在DataWorks管控臺(tái)報(bào)警聯(lián)系人頁(yè)面設(shè)置。如果接收人沒有設(shè)置手機(jī)號(hào)碼會(huì)升級(jí)到對(duì)應(yīng)主賬號(hào)手機(jī)號(hào)碼發(fā)送。
電話告警不支持海外地域。建議重要級(jí)別告警配置電話告警。
釘釘
告警信息以文本形式通過釘釘自定義機(jī)器人向指定釘釘群發(fā)送。釘釘群機(jī)器人Token輸入框填寫自定義機(jī)器人token,多個(gè)token使用逗號(hào)分隔。同時(shí)您可以啟用釘釘群通知@所有人功能避免群內(nèi)消息過多告警信息被忽略。
釘釘群添加自定義機(jī)器人后,需要設(shè)置自定義關(guān)鍵字(不支持同時(shí)設(shè)置其他過濾規(guī)則),必須添加DataWorks為關(guān)鍵詞,注意區(qū)分大小寫,否則無(wú)法收到告警通知。發(fā)送報(bào)警至釘釘機(jī)器人操作實(shí)踐內(nèi)容請(qǐng)參見下文的場(chǎng)景實(shí)踐:發(fā)送報(bào)警消息至釘釘群。
webhook
告警信息以文本形式向指定web地址發(fā)送。WebHook地址輸入框填寫對(duì)接產(chǎn)品的webhook,多個(gè)webhook使用逗號(hào)分隔。
可用版本:僅DataWorks企業(yè)版支持使用WebHook功能。
可用地域:僅華東2(上海)、西南1(成都)、華北3(張家口)、華北2(北京)、華東1(杭州)、華南1(深圳)、中國(guó)(香港)、歐洲中部 1(法蘭克福)、亞太東南1(新加坡)地域支持使用WebHook功能報(bào)警。
可用報(bào)警方式:僅支持推送報(bào)警信息至企業(yè)微信或飛書。
場(chǎng)景實(shí)踐:發(fā)送報(bào)警消息至釘釘群
添加釘釘機(jī)器人并獲取Token
不同版本的釘釘操作細(xì)節(jié)步驟可能不一致,以下步驟為一個(gè)簡(jiǎn)單示例。
打開需要告警的目標(biāo)釘釘群,單擊右上角的群設(shè)置圖標(biāo)。
單擊智能群助手。
在智能群助手頁(yè)面,單擊添加機(jī)器人。
在群機(jī)器人頁(yè)面,單擊添加機(jī)器人。
在選擇要添加的機(jī)器人頁(yè)面,單擊自定義。
在自定義對(duì)話框中,單擊添加。
在添加機(jī)器人對(duì)話框中,配置各項(xiàng)參數(shù)。
參數(shù)
描述
機(jī)器人名字
自定義機(jī)器人的名稱。
添加到群組
添加機(jī)器人的群組,不可以修改。
自定義關(guān)鍵詞
設(shè)定后,只有包含關(guān)鍵詞的消息內(nèi)容才會(huì)被正常發(fā)送。此處必須添加DataWorks為關(guān)鍵詞,注意區(qū)分大小寫。
說明最多可以設(shè)置10個(gè)關(guān)鍵詞,消息中至少包含其中1個(gè)關(guān)鍵詞才可以發(fā)送成功。
選中我已閱讀并同意《自定義機(jī)器人服務(wù)及免責(zé)條款》,單擊完成。
完成安全設(shè)置后,復(fù)制機(jī)器人的Webhook,單擊完成。
重要請(qǐng)妥善保管Webhook地址,一旦泄露會(huì)有安全風(fēng)險(xiǎn)。
添加報(bào)警規(guī)則
進(jìn)入實(shí)時(shí)同步任務(wù)的報(bào)警設(shè)置頁(yè)面。
登錄DataWorks控制臺(tái),在運(yùn)維中心的實(shí)時(shí)同步任務(wù)頁(yè)面找到要設(shè)置告警的同步任務(wù),單擊操作列的報(bào)警設(shè)置,進(jìn)入報(bào)警設(shè)置頁(yè)面。
在報(bào)警事件頁(yè)面:可以查看已發(fā)送報(bào)警的事件。
在報(bào)警規(guī)則頁(yè)面:可以查看已經(jīng)設(shè)置的報(bào)警規(guī)則、設(shè)置新的報(bào)警規(guī)則。
單擊報(bào)警規(guī)則進(jìn)入報(bào)警規(guī)則設(shè)置頁(yè)簽,單擊新建規(guī)則。
配置報(bào)警規(guī)則。
根據(jù)界面提示配置報(bào)警規(guī)則的名稱、描述等內(nèi)容。本實(shí)踐以發(fā)送報(bào)警至釘釘群為例,核心配置項(xiàng)如下。
WARNING、CRITICAL:選擇釘釘。
釘釘群機(jī)器人Token:填寫釘釘機(jī)器人的Token。
釘釘群通知@所有人:勾選啟用。
重要報(bào)警規(guī)則置完成后,告警項(xiàng)自動(dòng)啟動(dòng)。
實(shí)際使用時(shí),建議組合配置以下兩個(gè)報(bào)警指標(biāo):
通過任務(wù)狀態(tài)指標(biāo)監(jiān)控任務(wù)是否正常運(yùn)行。
通過業(yè)務(wù)延遲或消息堆積量指標(biāo)監(jiān)控同步速率是否能滿源端數(shù)據(jù)產(chǎn)生速率。
驗(yàn)證告警規(guī)則配置是否正確
添加完成報(bào)警規(guī)則后,您可以在報(bào)警規(guī)則頁(yè)面單擊模擬測(cè)試驗(yàn)證配置結(jié)果是否正確。