本文介紹使用高級監控報警服務配置指標報警時,遇到的常用名詞的基本概念和簡要描述。

報警規則

報警的觸發條件和通知方式。

報警組

一個報警組包含多條報警規則。

報警事件

系統每隔1分鐘,就會根據報警規則中設置的報警觸發條件,判斷指標是否觸發報警。如果觸發,則會生成一個報警事件記錄。

通知記錄

報警事件生成之后,系統會根據報警規則中設置的報警生效時段和報警間隔,判斷是否發送報警通知(電話、短信、釘釘群機器人)給您。如果發送,則會生成一個通知記錄。

指標

表示事物的狀態大小。例如disk.io.util表示節點磁盤使用率、load.1min表示1分鐘內節點的負載。

tags

指標的屬性標簽,能夠進一步對指標進行過濾,取值是一組鍵值對。例如指標disk.io.util通常帶有屬性host=localhostdev=/ssd/1,表示localhost主機中/ssd/1磁盤的使用率。

指標聚合

如果指標有多條曲線(指標的所有tags取值的組合表示曲線的個數),多條曲線聚合成一條曲線的算法。

采樣聚合

指標的單條曲線在檢測周期內(默認1分鐘),多個數據點聚合成一個點的算法。

閾值報警

當前指標的值和閾值實時比較,如果符合設定的閾值條件,則觸發報警。

波動報警

假設當前指標的值為a,一段時間前指標的值為b。對兩者計算差值(a-b),或者變化率(a-b)/b,然后將計算結果和閾值條件進行比較,如果符合條件,則觸發報警。

無數據校驗

如果系統連續一段時間(默認1分鐘)沒有檢測到任何數據,則觸發報警。