通過配置事件報警,您可以及時獲取控制臺事件中心中的Elasticsearch集群的底層硬件運維事件,便于您及時查看和處理問題。本文介紹如何配置事件報警以及查看和處理事件。
前提條件
已在支持事件報警功能的地域下創建阿里云Elasticsearch實例:
支持事件報警功能的地域包括:杭州、北京、上海、深圳、青島、張家口、成都、廣州、烏蘭察布、美國東部、美國西部、日本、印度尼西亞、中國香港,具體以控制臺為準。
創建實例的具體操作,請參見創建阿里云Elasticsearch實例。
創建報警規則
- 登錄阿里云Elasticsearch控制臺。
進入報警組列表頁面。
您可以通過兩種方式進入:
在左側導航欄,單擊高級監控報警。再在高級監控報警頁面的左側導航欄,選擇
。在概覽頁的事件中心區域,單擊查看詳情。再在高級監控報警的事件中心頁面,單擊事件報警。
創建事件報警。
具體操作請參見創建報警組和創建報警規則。對應的報警規則中配置的參數如下:
因探測節點失聯觸發的節點重啟事件,配置如下圖所示。
因底層資源運維觸發的節點重啟事件,配置如下圖所示。
規則配置的詳細參數說明,請參見創建報警規則。本示例的部分參數說明如下。
參數
說明
報警規則類型
選擇事件報警。
定義報警規則
事件類型
事件報警支持兩種事件類型:
因探測節點失聯觸發的節點重啟
因底層資源運維觸發的節點重啟
報警范圍
選擇報警的目標實例。默認為全區域下所有實例,您也可以選擇自定義設置。選擇自定義設置后,需要選擇region和instanceID:
region:目標實例所在地域,可選擇一個或多個。
instanceID:目標實例ID,可選擇一個或多個。
事件狀態
事件的狀態,支持3種:已完成、執行失敗和執行中。
說明對于因探測節點失聯觸發的節點重啟事件,系統會自動執行至完成,目前僅支持對執行結果配置報警,暫無執行中的事件狀態。
對于因底層資源運維觸發的節點重啟事件,支持以上3種事件狀態。
說明目前已接入的底層運維事件,事件等級均為嚴重(CRITICAL)。
阿里云Elasticsearch不支持在同一個報警規則中同時選擇多種事件類型或多種事件狀態,您可以通過在同一報警組中配置多條報警規則的方式實現。
配置接收報警通知。
報警配置成功后,當您配置的事件發生時,您指定的報警通知人就可以通過配置的通知方式接收到報警通知,詳細信息請參見通過釘釘群接收報警通知。
查看并處理事件
查看事件。
在概覽頁的事件中心區域,查看近48小時內新增的事件中,執行失敗和執行完成的數量。
單擊查看詳情,進入事件中心頁面,選擇地域,查看對應地域下的事件。
您可以按照實例ID或節點IP查找事件,也可以按照事件創建時間、系統執行時間或系統完成時間篩選事件。事件相關信息的詳細說明,請參見事件中心。
處理事件。
對于執行失敗的事件,如果事件類型為因探測節點失聯觸發的節點重啟,且事件狀態為執行失敗時,支持用戶在控制臺進行手動重啟節點進行異常干預。
說明重啟節點僅需執行一次,如果問題未修復,系統會在下一次探測到異常時再次通知您。