當您的某個監控指標達到報警閾值,但未觸發報警時,請按照以下步驟排查。
背景信息
每個報警條件都是一個有固定閾值的表達式,其中包括監控指標、報警級別、周期和閾值。監控指標中的周期(period)是指監控指標數據點的間隔時間和聚合時間,例如:大多數監控指標的周期(period)=60秒,表示每60秒產生一個數據點,這個監控數據是過去60秒所有監控值的聚合值。報警的檢測周期由周期(period)決定,對于多指標表達式且周期(period)不同的情況,以最短的周期(period)為準。
每個監控指標的聚合方式不同,具體請參見附錄1 云產品監控指標中的目標云產品指標列表頁面中的Statistics列。如果報警規則配置的Statistics不是對應指標的Statistics,規則狀態是正常,不會告警。
每個監控指標的周期(period)不同,具體請參見附錄1 云產品監控指標中的目標云產品指標列表頁面中的Min Periods列。
操作步驟
本文以ECS實例的CPU使用率連續3個周期的最大值大于等于90%為例進行介紹。
查看CPU使用率的監控數據,特別是監控指標的最大值和周期(period)。
關于如何查看其他云產品監控數據,請參見查看監控數據。
登錄云監控控制臺。
在左側導航欄,單擊
。在主機監控頁面,單擊目標主機名稱或對應操作列的監控圖表。
在基礎監控頁簽,查看CPU使用率的監控圖表,確認其最大值和周期(period)。
查看CPU使用率的最新閾值報警規則,再次確認是否達到報警條件。
在左側導航欄,選擇
。在報警規則頁面,篩選出目標報警規則,單擊操作列的詳情。
在詳情頁簽,查看報警條件(重點關注閾值和周期)、生效時間、報警狀態和關聯資源。當目標ECS實例的CPU使用率連續3個周期的最大值大于等于90%時,達到報警條件,同時需要確保報警狀態正常,且在生效范圍內,即可觸發報警。
查看目標ECS實例是否在報警黑名單中。
在左側導航欄,選擇 。
在報警黑名單頁面,查看所有黑名單策略是否包含目標ECS實例。
對于容器服務Kubernetes版,其報警規則的通道沉默周期是規則級的,例如:當通道沉默周期為24小時,某個容器組(pod)發生一次普通報警后,其他容器組(pod)將在24小時內不會發送報警通知。當容器組(pod)的報警級別發生變化時,會觸發一次報警。