配置集群報(bào)警
阿里云Elasticsearch支持監(jiān)控實(shí)例,以及自定義報(bào)警閾值和接收?qǐng)?bào)警信息。為避免出現(xiàn)集群狀態(tài)不正常、節(jié)點(diǎn)磁盤(pán)使用率過(guò)高等問(wèn)題影響Elasticsearch服務(wù),強(qiáng)烈建議您配置監(jiān)控報(bào)警,實(shí)時(shí)監(jiān)控集群狀態(tài)、節(jié)點(diǎn)磁盤(pán)使用率等信息,及時(shí)查收?qǐng)?bào)警通知,提前做好防御措施。本文介紹如何為Elasticsearch實(shí)例配置報(bào)警,包括一鍵報(bào)警和云監(jiān)控報(bào)警。
開(kāi)啟一鍵報(bào)警
阿里云Elasticsearch的一鍵報(bào)警功能由云監(jiān)控提供,默認(rèn)處于關(guān)閉狀態(tài)。開(kāi)啟一鍵報(bào)警功能后系統(tǒng)會(huì)創(chuàng)建集群狀態(tài)異常、節(jié)點(diǎn)磁盤(pán)使用率異常(>75%)、節(jié)點(diǎn)JVM Heap異常(>85%)等報(bào)警規(guī)則,作用于阿里云賬號(hào)下的全部Elasticsearch實(shí)例。
- 登錄阿里云Elasticsearch控制臺(tái)。
- 在左側(cè)導(dǎo)航欄,單擊Elasticsearch實(shí)例。
在Elasticsearch實(shí)例頁(yè)面,單擊一鍵報(bào)警。
在一鍵報(bào)警對(duì)話框中,單擊前往開(kāi)啟。
說(shuō)明如果界面顯示前往關(guān)閉,表明一鍵報(bào)警功能已開(kāi)啟,無(wú)需繼續(xù)執(zhí)行以下操作。
在云監(jiān)控控制臺(tái)中,打開(kāi)Elasticsearch服務(wù)的一鍵報(bào)警開(kāi)關(guān)。
(可選)返回阿里云Elasticsearch控制臺(tái),查看是否已經(jīng)成功開(kāi)啟一鍵報(bào)警功能。
在Elasticsearch實(shí)例頁(yè)面,單擊目標(biāo)實(shí)例ID。
在左側(cè)導(dǎo)航欄,選擇
。單擊基礎(chǔ)監(jiān)控頁(yè)簽,在頁(yè)面右上角,查看一鍵報(bào)警的狀態(tài)。
如果一鍵報(bào)警為已開(kāi)啟狀態(tài),表示您已經(jīng)成功開(kāi)啟了一鍵報(bào)警。
配置云監(jiān)控報(bào)警
進(jìn)入云監(jiān)控控制臺(tái)。
在左側(cè)導(dǎo)航欄,選擇 。
單擊創(chuàng)建報(bào)警規(guī)則。
在創(chuàng)建報(bào)警規(guī)則頁(yè)面,設(shè)置報(bào)警規(guī)則。
以添加節(jié)點(diǎn)磁盤(pán)使用率監(jiān)控、集群狀態(tài)監(jiān)控、節(jié)點(diǎn)HeapMemory使用率監(jiān)控為例,參數(shù)配置如下,未提及的參數(shù)保持默認(rèn),詳細(xì)參數(shù)說(shuō)明請(qǐng)參見(jiàn)創(chuàng)建報(bào)警規(guī)則。
參數(shù)
說(shuō)明
產(chǎn)品
選擇Elasticsearch。
資源范圍
選擇實(shí)例。
關(guān)聯(lián)資源
選擇待監(jiān)控的實(shí)例。
規(guī)則描述
單擊添加規(guī)則,在添加規(guī)則描述面板,填寫(xiě)規(guī)則名稱,并按照以下說(shuō)明進(jìn)行配置:
指標(biāo)類型:選擇多指標(biāo)。
報(bào)警級(jí)別:選擇警告(Warn)。
指標(biāo)類型:選擇標(biāo)準(zhǔn)創(chuàng)建。
多指標(biāo)報(bào)警描述:
選擇
的監(jiān)控值>=2.0選擇
的平均值>=75%選擇
的平均值>=85%
多指標(biāo)關(guān)系:選擇有一個(gè)滿足就報(bào)警。
發(fā)出報(bào)警需要滿足達(dá)到閾值的次數(shù):選擇連續(xù)3個(gè)周期。
您也可以通過(guò)配置單指標(biāo)報(bào)警規(guī)則實(shí)現(xiàn)磁盤(pán)水位報(bào)警,詳細(xì)信息請(qǐng)參見(jiàn)配置磁盤(pán)報(bào)警示例。
報(bào)警聯(lián)系人組
選擇您已創(chuàng)建的報(bào)警聯(lián)系人組。關(guān)于如何創(chuàng)建報(bào)警聯(lián)系人組,請(qǐng)參見(jiàn)創(chuàng)建報(bào)警聯(lián)系人或報(bào)警聯(lián)系組。
說(shuō)明您還可以打開(kāi)高級(jí)設(shè)置,在報(bào)警回調(diào)中填寫(xiě)可通過(guò)公網(wǎng)訪問(wèn)的URL,云監(jiān)控會(huì)將報(bào)警信息通過(guò)POST請(qǐng)求推送到該地址。目前僅支持HTTP協(xié)議,詳細(xì)信息請(qǐng)參見(jiàn)使用閾值報(bào)警回調(diào)。
在配置阿里云Elasticsearch的報(bào)警規(guī)則時(shí),您可以參考以下監(jiān)控指標(biāo)說(shuō)明選擇監(jiān)控指標(biāo)。更多監(jiān)控指標(biāo)信息,請(qǐng)參見(jiàn)指標(biāo)含義與異常處理建議。
監(jiān)控項(xiàng)
說(shuō)明
集群狀態(tài)
必選。主要監(jiān)控集群狀態(tài)為正常(綠色)還是非正常(黃色或紅色)。
集群狀態(tài)對(duì)應(yīng)Green、Yellow、Red,轉(zhuǎn)換成數(shù)值對(duì)應(yīng)0.00、1.00、2.00,所以在配置集群狀態(tài)報(bào)警指標(biāo)時(shí),需要按照對(duì)應(yīng)數(shù)值的大小配置。
節(jié)點(diǎn)磁盤(pán)使用率(%)
必選。報(bào)警閾值控制在75%以下,不要超過(guò)80%。
節(jié)點(diǎn)HeapMemory使用率(%)
必選。報(bào)警閾值控制在85%以下,不要超過(guò)90%。
節(jié)點(diǎn)CPU使用率(%)
可選。報(bào)警閾值控制在95%以下,不要超過(guò)95%。
節(jié)點(diǎn)Load_1m
可選。以CPU核數(shù)的80%為參考值。
集群查詢QPS(Count/Second)
可選。以實(shí)際測(cè)試結(jié)果作為參考。
集群寫(xiě)入QPS(Count/Second)
可選。以實(shí)際測(cè)試結(jié)果作為參考。
FullGc次數(shù)(個(gè))
可選。當(dāng)數(shù)值不為0時(shí),服務(wù)異常。
Exception次數(shù)(個(gè))
可選。當(dāng)數(shù)值不為0時(shí),服務(wù)異常。
快照狀態(tài)
可選。當(dāng)數(shù)值為-1或0時(shí),服務(wù)正常;為2時(shí),服務(wù)異常。
單擊確定。
報(bào)警配置成功后,當(dāng)配置的事件發(fā)生時(shí),指定的報(bào)警通知人就可以通過(guò)配置的通知方式接收到報(bào)警通知,例如通過(guò)釘釘群接收?qǐng)?bào)警通知。
配置磁盤(pán)報(bào)警示例
您可以通過(guò)云監(jiān)控配置磁盤(pán)水位報(bào)警,及時(shí)獲取實(shí)例節(jié)點(diǎn)的磁盤(pán)使用率報(bào)警信息,提前處理相關(guān)問(wèn)題。
您可以參見(jiàn)配置云監(jiān)控報(bào)警,配置磁盤(pán)報(bào)警。對(duì)應(yīng)報(bào)警規(guī)則配置示例如下。
參數(shù) | 示例 |
規(guī)則名稱 | 設(shè)置為磁盤(pán)水位報(bào)警。 |
指標(biāo)類型 | 選擇單指標(biāo)。 |
監(jiān)控指標(biāo) | 選擇 。 |
閾值及報(bào)警級(jí)別 |
|
監(jiān)控圖表預(yù)覽 | 監(jiān)控指標(biāo)的監(jiān)控圖表預(yù)覽效果。 |