發(fā)現(xiàn)和排查實例問題
合理使用監(jiān)控相關的功能可以幫助您及時發(fā)現(xiàn)和排查實例問題,在故障發(fā)生前處理掉潛在風險,避免影響業(yè)務。
診斷實例的健康狀態(tài)
實例健康診斷功能可以全方位診斷實例的操作系統(tǒng)配置、網(wǎng)絡狀態(tài)、磁盤狀態(tài)等。診斷報告中針對異常診斷項目的影響按照嚴重程度區(qū)分,并提供修復方案,方便您及時處理潛在風險。更多信息,請參見診斷實例的健康狀態(tài)。
及時處理系統(tǒng)事件
系統(tǒng)在執(zhí)行某些運維動作或檢測到某些異常,判斷會影響實例正常運行時,會自動發(fā)送系統(tǒng)事件。系統(tǒng)事件中會同時提供應對措施、事件周期等信息,建議您及時處理系統(tǒng)事件,避免實例重啟、停止等問題影響您的業(yè)務。更多信息,請參見ECS系統(tǒng)事件概述。
通知包年包月實例到期的系統(tǒng)事件示例如下圖所示。
請確保在消息中心開啟接收ECS到期通知、產(chǎn)品運維通知、ECS故障通知等消息相關的站內(nèi)信,否則在ECS管理控制臺將不能收到系統(tǒng)事件,設置頁面如下圖所示。
關注實例運行指標
阿里云收集并展示實例運行指標,供您了解實例的實時和歷史運行情況。您可以基于運行指標判斷實例運行是否正常,例如CPU使用率持續(xù)偏高時,可能需要排查是否存在異常進程或者實例配置過低。
您可以在ECS管理控制臺的實例詳情頁的監(jiān)控頁簽下或者云監(jiān)控控制臺的主機監(jiān)控頁面查看實例運行指標,更多信息,請參見查看實例監(jiān)控信息和主機監(jiān)控概覽。
ECS管理控制臺的實例詳情頁面中展示的運行指標如下:
實例計算、存儲、網(wǎng)絡的資源使用情況,例如CPU使用率、磁盤讀寫情況、網(wǎng)絡收發(fā)包數(shù)量等。
突發(fā)性能實例的CPU積分使用情況。
云監(jiān)控控制臺的主機監(jiān)控頁的操作系統(tǒng)監(jiān)控頁簽下展示的運行指標如下:
實例計算、存儲、網(wǎng)絡的資源使用情況,例如CPU使用率、磁盤讀寫情況、網(wǎng)絡收發(fā)包數(shù)量等。
實例內(nèi)活躍進程的信息。
GPU實例的顯存使用情況。
利用報警服務自動通知
使用云監(jiān)控的報警服務,您可以針對關注的事件或者實例運行指標設置報警規(guī)則,在發(fā)生指定事件或?qū)嵗\行指標出現(xiàn)異常時,自動以郵件等方式通知到聯(lián)系人,減輕人工運維壓力。更多信息,請參見設置事件通知和設置ECS實例報警。
針對事件的報警規(guī)則示例如下所示。
針對實例運行指標的報警規(guī)則示例如下所示。