本文介紹使用高級監控報警服務配置指標報警時,遇到的常用名詞的基本概念和簡要描述。
報警規則
報警的觸發條件和通知方式。
報警組
一個報警組包含多條報警規則。
報警事件
系統每隔1分鐘,就會根據報警規則中設置的報警觸發條件,判斷指標是否觸發報警。如果觸發,則會生成一個報警事件記錄。
通知記錄
報警事件生成之后,系統會根據報警規則中設置的報警生效時段和報警間隔,判斷是否發送報警通知(電話、短信、釘釘群機器人)給您。如果發送,則會生成一個通知記錄。
指標
表示事物的狀態大小。例如disk.io.util表示節點磁盤使用率、load.1min表示1分鐘內節點的負載。
tags
指標的屬性標簽,能夠進一步對指標進行過濾,取值是一組鍵值對。例如指標disk.io.util通常帶有屬性host=localhost、dev=/ssd/1,表示localhost主機中/ssd/1磁盤的使用率。
指標聚合
如果指標有多條曲線(指標的所有tags取值的組合表示曲線的個數),多條曲線聚合成一條曲線的算法。
采樣聚合
指標的單條曲線在檢測周期內(默認1分鐘),多個數據點聚合成一個點的算法。
閾值報警
當前指標的值和閾值實時比較,如果符合設定的閾值條件,則觸發報警。
波動報警
假設當前指標的值為a,一段時間前指標的值為b。對兩者計算差值(a-b),或者變化率(a-b)/b,然后將計算結果和閾值條件進行比較,如果符合條件,則觸發報警。
無數據校驗
如果系統連續一段時間(默認1分鐘)沒有檢測到任何數據,則觸發報警。