查看節(jié)點(diǎn)健康狀態(tài)
節(jié)點(diǎn)健康狀態(tài)展示了當(dāng)前節(jié)點(diǎn)的運(yùn)行狀態(tài)是否正常,它是由多個(gè)健康檢查項(xiàng)結(jié)果匯總而成的。本文將介紹如何查看節(jié)點(diǎn)的健康狀態(tài)和相關(guān)的健康檢查項(xiàng)。
前提條件
已創(chuàng)建集群,詳情請(qǐng)參見創(chuàng)建集群。
使用限制
僅適用于DataLake、Dataflow、OLAP、DataServing和Custom類型的集群。
查看最新節(jié)點(diǎn)健康狀態(tài)
進(jìn)入節(jié)點(diǎn)管理頁面。
在頂部菜單欄處,根據(jù)實(shí)際情況選擇地域和資源組。
在集群管理頁面,單擊目標(biāo)集群所在行的節(jié)點(diǎn)管理。
在節(jié)點(diǎn)管理頁面,您可以查看節(jié)點(diǎn)組內(nèi)節(jié)點(diǎn)健康情況。
綠色數(shù)字:節(jié)點(diǎn)組內(nèi)良好節(jié)點(diǎn)的數(shù)量。
黃色數(shù)字:節(jié)點(diǎn)組內(nèi)存在隱患節(jié)點(diǎn)的數(shù)量。
紅色數(shù)字:節(jié)點(diǎn)組內(nèi)異常節(jié)點(diǎn)的數(shù)量。
灰色數(shù)字:節(jié)點(diǎn)組內(nèi)未知和無狀態(tài)節(jié)點(diǎn)的數(shù)量。
您還可以在節(jié)點(diǎn)管理頁面,單擊目標(biāo)節(jié)點(diǎn)組的圖標(biāo)。在下方的健康狀態(tài)列,即可查看每個(gè)節(jié)點(diǎn)的健康狀態(tài)。
節(jié)點(diǎn)健康狀態(tài)主要有五種類型,分別是良好、存在隱患、異常、未知和無狀態(tài)。不同狀態(tài)類型對(duì)應(yīng)不同圖標(biāo)展示。
圖標(biāo)
健康狀態(tài)
說明
良好
節(jié)點(diǎn)運(yùn)行正常。
存在隱患
節(jié)點(diǎn)運(yùn)行正常,但節(jié)點(diǎn)健康檢查項(xiàng)檢測(cè)出隱患問題,需關(guān)注處理。
異常
節(jié)點(diǎn)不可用,節(jié)點(diǎn)健康檢查項(xiàng)檢測(cè)出嚴(yán)重問題,請(qǐng)及時(shí)處理。
無狀態(tài)
節(jié)點(diǎn)在安裝流程或手動(dòng)停止后不進(jìn)行健康檢查,無需關(guān)注。
未知
無法獲取節(jié)點(diǎn)健康檢查項(xiàng)結(jié)果。如排查業(yè)務(wù)無問題,無需關(guān)注。
查看節(jié)點(diǎn)的健康檢查
在節(jié)點(diǎn)管理頁面,單擊目標(biāo)節(jié)點(diǎn)組的圖標(biāo)。
單擊健康狀態(tài)列旁的查看檢查項(xiàng)。
在彈出的面板中,可以查看最新健康檢查結(jié)果和節(jié)點(diǎn)健康檢查歷史。
節(jié)點(diǎn)健康檢查項(xiàng)說明如下表所示。
檢測(cè)項(xiàng)名稱
檢測(cè)項(xiàng)含義
檢測(cè)項(xiàng)閾值
檢測(cè)項(xiàng)單位
host_memory_utilization_check
檢測(cè)過去3分鐘內(nèi)內(nèi)存平均利用率(u)。
良好:0<=u<85
存在隱患:85<=u<95
異常:95<=u<100
百分比
host_cpu_utilization_check
檢測(cè)過去3分鐘內(nèi)CPU平均利用率(u)。
良好:0<=u<85
存在隱患:85<=u<95
異常:95<=u<100
百分比
host_cpu_load5_check
檢測(cè)過去5分鐘內(nèi)CPU負(fù)載的平均值(u)。
良好:u<vCpu * 1.5
存在隱患:u>=vCpu * 1.5
-
host_network_transmission_check
檢測(cè)過去3分鐘內(nèi)網(wǎng)絡(luò)傳輸?shù)膩G包率(u)或錯(cuò)包率(u)。
良好:u<1
異常:u>=1
百分比
host_disk_space_check
檢測(cè)磁盤空間使用率(u)。
良好:0<=u<90
存在隱患:90<=u<95
異常:95<=u<100
百分比
host_system_environment_check
檢測(cè)重要的系統(tǒng)環(huán)境,例如 /etc/hostname,/etc/resolve.conf等文件,以及Java、Python的版本。
無閾值,有一個(gè)系統(tǒng)環(huán)境檢測(cè)異常即為異常。
-
host_application_environment_check
檢測(cè)節(jié)點(diǎn)上安裝的應(yīng)用的執(zhí)行環(huán)境,例如安裝包版本、軟鏈、日志目錄等信息。
無閾值,有一個(gè)應(yīng)用環(huán)境檢測(cè)異常即為異常。
-
host_user_permission_check
檢測(cè)重要用戶的權(quán)限,例如hadoop用戶、hdfs用戶等。
無閾值,有一個(gè)用戶權(quán)限檢測(cè)異常即為異常。
-
host_fault_compensation_check
檢測(cè)是否發(fā)生故障補(bǔ)償。
無閾值,有故障補(bǔ)償發(fā)生即為異常。
-