當您使用阿里云Elasticsearch時,系統會為您自動開通高級監控報警服務,并將您賬號下的存量和新購Elasticsearch實例接入監控報警服務。本文為您介紹如何查看與配置可視化監控,以及如何配置日志報警規則和指標報警規則。
背景信息
高級監控報警服務能夠為您所有地域下的Elasticsearch集群提供全維度指標和日志監控分析服務。您可以在平臺為您提供的Grafana中查看集群、節點、索引和機器資源等維度的可視化監控數據,進行集群的異常日志分析,并可以根據業務需求自定義監控大屏和報警規則。關于高級監控報警的更多信息,請參見高級監控報警概述。
前提條件
已在支持高級監控報警服務的地域下創建阿里云Elasticsearch實例:
目前高級監控報警服務支持的地域包括:杭州、北京、上海、深圳、青島、張家口、成都、廣州、烏蘭察布、北京金融云、美國東部、美國西部、日本、印度尼西亞、中國香港,具體以控制臺為準。
創建實例的具體操作,請參見創建阿里云Elasticsearch實例。
熟悉Grafana監控大屏的使用方法。詳細信息,請參見Grafana Dashboard。
使用限制
高級監控報警功能提供了基礎指標、引擎指標和日志數據的監控和報警。僅內核版本大于1.2.0的6.7.0或7.10.0版本支持引擎指標監控。升級內核版本,請參見升級版本。
使用RAM角色單點登錄阿里云控制臺時,不支持訪問高級監控報警服務。如果需要訪問,可使用RAM用戶單點登錄阿里云控制臺。
操作流程
操作視頻
步驟一:查看和配置可視化監控
- 登錄阿里云Elasticsearch控制臺。
在左側導航欄,單擊高級監控報警。
系統默認將您賬號下的存量和新購Elasticsearch實例全部接入監控報警服務。
首次使用監控大盤需要進行應用授權。
如果您是阿里云賬號,同時選中以下三項授權,單擊授權,即可完成emon_grafana應用授權。
選項
說明
獲取登錄用戶的基本信息(默認授權域,不可移除)
系統默認已經選中。從當前阿里云賬號獲取登錄用戶的基本信息,例如令牌過期時間戳、令牌主體、令牌接收者以及頒發者等信息。
阿里云頒發的唯一用戶標志符
需要手動選中。獲取當前阿里云賬號的UID,以避免多個RAM用戶重復授權。
用戶的名稱等個人信息
需要手動選中。獲取當前云賬號(可以是阿里云賬號,也可以是RAM用戶)登錄用戶名的相關信息,例如用戶的顯示名稱、登錄名稱,授權之后用戶能看到當前登錄的用戶賬號名稱。
如果您是RAM用戶,等待阿里云賬號完成首次登錄授權后,您可以正常使用高級監控報警功能。或者進行手動授權:
阿里云賬號給您的RAM用戶授權,授權策略內容如下。
<yourAccountId>
需要替換為您的RAM用戶身份ID。具體操作,請參見通過腳本編輯模式創建自定義權限策略。{ "Version": "1", "Statement": [ { "Effect": "Allow", "Action": ims:*, "Resource": acs:ims::<yourAccountId>:application/*, } ] }
使用RAM用戶進行監控大盤授權,策略內容如下。具體操作,請參見通過腳本編輯模式創建自定義權限策略。
{ "Version": "1", "Statement": [ { "Effect": "Allow", "Action": [ "cms:DescribeActiveMetricRuleList", "cms:ListAlarm", "cms:QueryMetricList", "cms:QueryMetricLast" ], "Resource": "*" } ] }
cms:DescribeActiveMetricRuleList
:授予調用云監控emon_grafana的權限,如果不添加該權限,頁面會出現報錯提示。"cms:ListAlarm", "cms:QueryMetricList", "cms:QueryMetricLast"
:授予查看默認基礎監控頁面的權限,如果不添加這幾個權限,將無法查看默認基礎監控頁面。
說明如果您的授權出現問題,請通過重新授權進行處理。
在高級監控報警頁面,查看默認監控。
在左側導航欄,選擇 ,查看已接入實例的指標監控數據。
在左側導航欄,選擇 ,查看已接入實例的日志監控數據。
日志監控的詳細信息,請參見日志監控。
在高級監控報警頁面的左側導航欄,選擇 ,配置并查看自定義監控。
具體操作步驟,請參見配置自定義監控大屏。
(可選)步驟二:配置日志報警規則
如果您需要通過監控日志進行報警通知,請執行以下操作:
在高級監控報警頁面的左側導航欄中,選擇 。
在默認日志指標頁簽右側,單擊配置日志報警。
參考系統為您提供的報警模板,配置日志報警規則或自由定制日志報警規則。
詳細操作步驟,請參見日志報警。
(可選)步驟三:配置指標報警規則
如果您需要通過監控指標進行報警通知,請在高級監控報警頁面的左側導航欄中,執行以下操作:
選擇
,在概覽頁頁面,查看所有報警組的通知記錄和報警事件。詳細信息,請參見查看報警通知記錄和事件。
選擇 ,創建報警組并添加報警規則。
選擇 ,添加指標報警通知人或聯系人組。
常見問題
Q:同一時段內監控同一實例,為什么高級監控和Kibana監控的數據不一致?
A:阿里云Elasticsearch的高級監控是內部自研監控,在使用時會和其他監控服務的數據存在差異,具體如下:
采樣周期差異性:采集周期和Kibana或第三方監控存在差異,采集到的數據不同,因此會存在差異。
查詢算法差異性:例如,高級監控和Kibana監控采集數據時都會受集群穩定性的影響,高級監控QPS指標會因集群的抖動會出現監控突增、負值或無監控等狀況,而Kibana監控可能顯示為空。
說明如果高級監控提供的指標比Kibana監控多,在實際使用時,建議將高級監控和Kibana監控結合起來分析集群監控詳情。
采集接口差異性:Kibana監控指標依賴于Elasticsearch API,而高級監控部分節點級別的指標(例如CPU使用率、load_1m、磁盤使用率等),調用的是阿里云Elasticsearch底層系統接口,因此監控中除了Elasticsearch進程外還包含了系統級別資源的占用情況。