阿里云Logstash支持對實例進行監(jiān)控,并支持設(shè)置自定義報警規(guī)則以及通知方式。為避免出現(xiàn)集群狀態(tài)異常、節(jié)點磁盤使用率過高等問題而影響Logstash服務(wù),建議您進行監(jiān)控報警配置,實時監(jiān)控集群狀態(tài)、節(jié)點磁盤使用率等信息,及時查收報警短信,提前做好防御措施。本文介紹如何為Logstash實例配置自定義報警策略。

操作步驟

  1. 進入云監(jiān)控控制臺。
    1. 登錄阿里云Elasticsearch控制臺
    2. 在頂部菜單欄處,選擇地域。
    3. 在左側(cè)導航欄,單擊Logstash實例,然后在Logstash實例中單擊目標實例ID。
    4. 在左側(cè)導航欄,單擊集群監(jiān)控
    5. 監(jiān)控報警配置區(qū)域,單擊前往云監(jiān)控
      進入云監(jiān)控入口
  2. 關(guān)閉創(chuàng)建報警規(guī)則面板,在左側(cè)導航欄,選擇報警服務(wù) > 報警規(guī)則
  3. 單擊創(chuàng)建報警規(guī)則,在創(chuàng)建報警規(guī)則面板,設(shè)置報警規(guī)則。
    本文的示例參數(shù)配置如下,未提及的參數(shù)保持默認,詳細參數(shù)說明請參見創(chuàng)建報警規(guī)則
    參數(shù)說明
    產(chǎn)品選擇阿里云LogstashService
    資源范圍選擇實例
    關(guān)聯(lián)資源選擇待監(jiān)控的實例。
    規(guī)則描述單擊添加規(guī)則,在添加規(guī)則描述面板,填寫規(guī)則名稱,并按照以下說明進行配置:
    • 指標類型:選擇多指標
    • 報警級別:選擇警告(Warn)
    • 指標類型:選擇標準創(chuàng)建
    • 多指標報警描述
      • 選擇Logstash實例節(jié)點CPU使用率的最大值>=85%
      • 選擇Logstash實例節(jié)點磁盤使用率的最大值>=85%
      • 選擇節(jié)點內(nèi)存使用量的最大值>=85%
      • 選擇節(jié)點1分鐘負載的最大值>=5
    • 多指標關(guān)系:選擇有一個滿足就報警
    • 發(fā)出報警需要滿足達到閾值的次數(shù):選擇連續(xù)3個周期
    報警聯(lián)系人組選擇您已創(chuàng)建的報警聯(lián)系人組。關(guān)于如何創(chuàng)建報警聯(lián)系人組,請參見創(chuàng)建報警聯(lián)系人或報警聯(lián)系組

    您還可以打開高級設(shè)置,在報警回調(diào)中填寫可通過公網(wǎng)訪問的URL,云監(jiān)控會將報警信息通過POST請求推送到該地址。目前僅支持HTTP協(xié)議,詳細信息請參見使用閾值報警回調(diào)

    在配置阿里云Logstash的報警規(guī)則時,您可以參考以下監(jiān)控指標說明選擇指標報警描述。
    說明 目前阿里云Logstash只支持在云監(jiān)控中配置以下四種監(jiān)控項。如果您在配置項中觀察到其他項,請忽略。
    監(jiān)控項說明
    Logstash實例節(jié)點磁盤使用率必選。報警閾值控制在75%以下。
    節(jié)點內(nèi)存使用量必選。報警閾值控制在85%以下。
    Logstash實例節(jié)點CPU使用率可選。報警閾值控制在95%以下。
    節(jié)點1分鐘負載可選。以CPU核數(shù)的80%為參考值。
  4. 單擊確定
  5. 查看Logstash監(jiān)控大屏。
    配置完成后,Logstash實例的監(jiān)控信息將在實例正常運行后開始采集。當指標值超過您設(shè)置的報警閾值時,系統(tǒng)會為您發(fā)送報警通知。您可以通過以下方式查看Logstash監(jiān)控大屏:
    1. 在云監(jiān)控首頁的左側(cè)導航欄,單擊Dashboard再單擊云產(chǎn)品監(jiān)控大盤頁簽。
    2. 選擇阿里云LogstashService產(chǎn)品,并選擇地域。
    3. 選擇實例和監(jiān)控時間段,即可查看該段時間內(nèi)的監(jiān)控大屏。
      Logstash監(jiān)控大屏