什么是云服務診斷
本文介紹云服務診斷的功能和使用方法,如需更多幫助請查看云服務診斷目錄下其他幫助文檔。歡迎加入釘釘交流群(群號:86570007290)與產(chǎn)品團隊分享您的問題和觀點。
云服務診斷是面向客戶運維工程師及開發(fā)者(以下簡稱為“用戶”)提供的一款阿里云資源運維工具,包含「健康狀態(tài)」和「診斷」兩大核心功能。
當您的業(yè)務系統(tǒng)出現(xiàn)問題時,可第一時間查看賬號下云資源(每個實例)「健康狀態(tài)」是否正常。若正常則可快速排除阿里云云服務的異常,轉而及時排查其它方面原因。您可通過「診斷」實時排查網(wǎng)站無法訪問、ECS無法訪問、錯誤配置、安全風險、高負載、宕機、超限、欠費等問題,并根據(jù)修復建議及時解決問題,快速恢復業(yè)務。
核心功能
健康狀態(tài)
健康狀態(tài)的定義
健康狀態(tài)指云資源的可用性狀態(tài):不可用為異常,可用為正常。
云資源:
云產(chǎn)品每一個可獨立管理及運行的實例或服務統(tǒng)稱為一個云資源,如ECS的每一個實例、OSS的每一個bucket。
不可用定義:
因阿里云原因(如故障、計劃內(nèi)維護變更等)導致客戶某個云資源在某個時段完全不響應用戶正常請求(如宕機、完全無法連通、全部返回5xx或不返回等)或服務可用性低于正常波動范圍(根據(jù)服務特點而定),則認為該云資源在該時段內(nèi)服務不可用。(因為云產(chǎn)品較多,差異較大,不同云產(chǎn)品在不可用定義上可能存在差別,判斷標準也有所不同。詳情請參見健康狀態(tài)支持產(chǎn)品及說明)
健康狀態(tài)的意義
云資源健康狀態(tài)異常,表示該云資源出現(xiàn)了故障而無法正常工作,且該故障往往只能由阿里云工程師進行修復(部分情況可通過重啟實例進行修復)。一般情況下阿里云工程師會監(jiān)測故障并主動修復,若未及時修復或影響到用戶正常業(yè)務,請及時聯(lián)系阿里云客服進行處理。
云資源健康狀態(tài)正常,表示該云資源可用,即未發(fā)生必須由阿里云工程師進行修復的故障。若此時您的業(yè)務系統(tǒng)存在異常,可先排除阿里云云服務的原因,轉而及時排查其它方面原因。如檢查配置是否正確、是否存在安全風險、是否高負載、是否超限、是否欠費等。您可通過診斷工具快速排查常見問題,詳見診斷章節(jié)。
健康狀態(tài)直觀展示云資源可用性,當您遇到問題時,可第一時間判斷是否為阿里云云服務原因,從而縮小問題排查范圍、縮短問題修復時間。
健康狀態(tài)的使用
首次使用健康狀態(tài)需用戶開通并創(chuàng)建服務關聯(lián)角色。健康狀態(tài)有多處入口,在任意入口均可開通。
主賬號授予RAM子賬號AliyunHealthFullAccess權限后,子賬號才能創(chuàng)建該服務關聯(lián)角色。主賬號創(chuàng)建服務關聯(lián)角色后子賬號無需再創(chuàng)建,但子賬號需要有AliyunHealthFullAccess或AliyunHealthReadOnlyAccess權限才可訪問健康狀態(tài)。
查看當前最新的健康狀態(tài):
登錄控制臺,在控制臺首頁-概覽頁面可快速查看當前是否存在健康狀態(tài)異常的云資源。
查看歷史的健康狀態(tài):
在控制臺首頁-運維管理頁面,可查看健康狀態(tài)概覽,支持查看最新狀態(tài)、今天狀態(tài)以及15日以內(nèi)的歷史狀態(tài)。
點擊「查看詳情」,可跳轉至健康狀態(tài)詳情頁面,查看各資源每小時的健康狀態(tài)。點擊資源ID可跳轉至該資源控制臺。
診斷
診斷的定義
診斷指對一個或多個云資源某種工作狀態(tài)(配置/功能/性能/連接/安全等)的檢測分析,并對異常進行詳細描述并提供修復建議。
診斷的意義
通過診斷工具,用戶無需掌握過多的云產(chǎn)品知識,根據(jù)問題現(xiàn)象選擇對應的診斷場景即可實時發(fā)起診斷,只需1-2分鐘就能完成診斷。若診斷排查到異常,診斷報告會給出詳細的異常描述以及修復建議,用戶根據(jù)修復建議即可解決問題,快速恢復業(yè)務。
相比逐個摸排整個系統(tǒng)、分析大量的日志、等待客服,用戶通過診斷工具可更快定位問題和解決問題,縮短問題解決周期。同時診斷工具降低了用戶的使用門檻,提升了用戶體驗。
診斷的使用
多種方式發(fā)起診斷:
登錄控制臺,在控制臺首頁側邊欄可快速發(fā)起診斷(側邊欄收起時,可點擊右下角展開)。
登錄控制臺,在控制臺首頁-概覽-云資源健康狀態(tài)可快速發(fā)起診斷。
登錄控制臺,在控制臺首頁-運維管理-創(chuàng)建診斷可快速發(fā)起診斷。
第一步 選擇診斷場景:
進入創(chuàng)建診斷任務頁面后,首先根據(jù)問題現(xiàn)象選擇診斷場景。支持分類篩選和關鍵詞搜索。
注:部分診斷場景暫不支持子賬號和STS賬號,請以頁面提示為準。部分診斷場景需要二次授權確認,請以頁面提示為準。
了解已支持的全部診斷場景,請參見診斷支持場景及說明。
第二步 配置診斷參數(shù):
根據(jù)頁面提示配置診斷參數(shù),不同診斷場景所需參數(shù)不同,請以實際頁面為準。
第三步 查看診斷報告:
開始診斷后,1-2分鐘即可完成診斷。診斷完成可查看全部診斷項及診斷結果,若存在異常,可查看異常詳情和修復建議。根據(jù)修復建議指引完成問題修復。
點擊「有幫助」、「沒有幫助」反饋診斷效果,我們將認真聽取并持續(xù)優(yōu)化。
RAM子賬號發(fā)起診斷需要AliyunHealthFullAccess權限,僅查看診斷記錄需要AliyunHealthReadOnlyAccess權限,請向管理員申請所需權限后使用。
產(chǎn)品優(yōu)勢
用戶視角的健康狀態(tài)
區(qū)別于云廠商通常僅展示可用區(qū)的健康狀態(tài),云服務診斷展示用戶保有資源的健康狀態(tài),且細分至每一個實例的每一個小時(部分資源精確到秒)。同時用戶可一目了然掌握名下云資源近15天的健康狀態(tài)。用戶視角的健康狀態(tài)可有效提升問題排查效率。
簡單快速的診斷
系統(tǒng)提供多種常見的問題場景診斷能力,且仍在不斷豐富中。用戶只需對號入座選擇診斷場景及選擇資源等簡單操作即可發(fā)起診斷,1-2分鐘即可快速生成詳細診斷報告,包含每個診斷項結果、異常詳情和修復建議。系統(tǒng)還具備智能化診斷能力,如「網(wǎng)站無法訪問」診斷,可自動感知用戶云資源關系生成資源拓撲圖,自動對資源發(fā)起診斷。
輕松運維的好幫手
當用戶的業(yè)務系統(tǒng)出現(xiàn)問題時,通過健康狀態(tài)快速判斷問題排查方向,通過診斷快速排查和修復云資源使用問題,快速恢復業(yè)務。