創(chuàng)建告警運(yùn)維任務(wù)
系統(tǒng)運(yùn)維管理 OOS(CloudOps Orchestration Service)支持創(chuàng)建云產(chǎn)品監(jiān)控指標(biāo)閾值報(bào)警運(yùn)維任務(wù)。當(dāng)我們監(jiān)控到云產(chǎn)品資源的監(jiān)控指標(biāo)達(dá)到指定的閾值后,執(zhí)行指定的模板,進(jìn)行告警運(yùn)維。告警運(yùn)維任務(wù)會(huì)一直執(zhí)行并監(jiān)控,直到您取消它。比如您可以在監(jiān)控到磁盤利用率超過80%時(shí)清理日志目錄下的文件。
請(qǐng)參考支持的云產(chǎn)品主要監(jiān)控項(xiàng) 云產(chǎn)品主要監(jiān)控項(xiàng)。
創(chuàng)建告警運(yùn)維任務(wù)包括以下步驟:
設(shè)置告警規(guī)則
選擇模板
設(shè)置告警觸發(fā)的模板參數(shù)
設(shè)置告警規(guī)則
字段 | 是否必填 | 說明 |
產(chǎn)品類型 | 是 | 從下拉框選擇,只能單選。 |
規(guī)則描述 | 是 | 閾值告警的規(guī)則。 |
觸發(fā)沉默周期 | 否 | 當(dāng)監(jiān)控?cái)?shù)據(jù)持續(xù)超過報(bào)警規(guī)則閾值時(shí),每個(gè)沉默周期內(nèi)只觸發(fā)1次,默認(rèn)為1天。 |
生效時(shí)間 | 否 | 報(bào)警觸發(fā)的生效時(shí)間范圍,默認(rèn)全天生效。 |
閾值告警規(guī)則描述包含以下輸入字段:
監(jiān)控項(xiàng)名稱
監(jiān)控?cái)?shù)據(jù)的聚合周期
統(tǒng)計(jì)次數(shù)
統(tǒng)計(jì)方法
比較運(yùn)算符
閾值
選擇模板
選擇在告警發(fā)生時(shí)需要執(zhí)行的模板。
設(shè)置告警觸發(fā)的模板參數(shù)
模板參數(shù)中可以填入固定值,也可以從告警消息體選擇參數(shù)。當(dāng)選擇固定參數(shù)時(shí),總是使用固定參數(shù)執(zhí)行模板。選擇從告警消息體選擇參數(shù)時(shí),可以配置jq表達(dá)式,從告警消息體中提取字段。
從告警消息體中提取字段,使用$開頭,加上jq表達(dá)式。以ECS的cpu_total的報(bào)警消息為例,其格式如下:
{
"Average": 50.15,
"Maximum": 50.75,
"Minimum": 49.75,
"curLevel": "INFO",
"instanceId": "i-bp1gn7od******qh5r12",
"ruleName": "alarmtrigger-130920******0047-exec-de81413d******71b537",
"timestamp": 1575970560000,
"userId": "130920******0047"
}
如果想提取出發(fā)生報(bào)警的實(shí)例ID,可以使用表達(dá)式$.instanceId
。
告警消息體中有以下固定字段可以提取:
提取表達(dá)式 | 說明 | 示例值 |
$.timestamp | 告警時(shí)間戳。 | 1575970560000,單位為毫秒 |
$.curLevel | 告警級(jí)別。 | INFO |
$.userId | 云賬號(hào)Id。 | 130920**0047 |
$.dimensionFieldName | 其中OK代表告警恢復(fù)正常。監(jiān)控維度值。dimensionFieldName請(qǐng)?zhí)鎿Q成監(jiān)控項(xiàng)維度字段名。比如ECS實(shí)例的CPU是按照實(shí)例ID維度監(jiān)控的,可以通過 | 無 |
從告警消息體選擇參數(shù)的示例:
使用固定參數(shù),和普通模板參數(shù)設(shè)置方法一致。