Hive巡檢項及服務(wù)關(guān)鍵指標說明
本文介紹Hive巡檢項及其服務(wù)關(guān)鍵指標說明。
部分非DataLake集群開啟LDAP后,雖然使用HiveServer2可以正常連接并運行作業(yè),但是巡檢項一直報錯hive_server_availability_status failed
。此時,您可以關(guān)閉巡檢項或者新建一個最新版本的集群。
異常等級說明
P0級異常:非常嚴重,表示服務(wù)已經(jīng)不可用,必須馬上排除問題。
P1級異常:較嚴重,表示服務(wù)當前可用,但可能性能較低或者壓力較大,也必須馬上排除問題。
HiveServer相關(guān)巡檢項
HiveServer可用性巡檢項(inspection_hive_server_availability)
如果檢查失敗并報:
hive server availability permission check is failed
。說明HiveServer巡檢用戶無權(quán)限執(zhí)行巡檢語句,巡檢用戶權(quán)限可能被誤刪除。
如果檢查失敗并報:
Hive server availability is failed
。說明HiveServer存在問題,需要檢查HiveServer進程及日志情況,排除問題。
HiveServer高可用巡檢項(inspection_hive_server_ha)
如果多臺HiveServer均存活(
Hive server HA status is OK
),則狀態(tài)正常。如果其中有HiveServer存在問題(
One or more Hive server failed
),則為P1異常,需要立即檢查HiveServer進程及日志情況,排除問題。如果所有HiveServer全部問題(
All Hive server are failed
),則為P0異常,需要立即檢查HiveServer進程及日志情況,排除問題。
HiveServer端口存在性巡檢項(inspection_hive_server_port)
檢查HiveServer的10000端口在機器上是否存在,如果不存在則說明進程異常,需要立即檢查HiveServer進程及日志情況,排除問題。
HiveServerGC巡檢項(inspection_hive_server_gc)
檢查JVM的memory.heap.usage指標。
如果使用率大于等于95%,則報P0異常,必須馬上考慮增加內(nèi)存,否則服務(wù)可能重啟導致作業(yè)失敗。
如果使用率大于等于90%,則報P1異常,需要馬上考慮增加內(nèi)存,否則服務(wù)可能重啟導致作業(yè)失敗。
如果使用率小于90%,則內(nèi)存調(diào)整目前不是特別緊急,可繼續(xù)觀察或根據(jù)需要調(diào)整。
HiveServer重啟次數(shù)巡檢項(inspection_hive_server_restart)
在五分鐘內(nèi)出現(xiàn)多次重啟,則報P0異常,必須馬上檢查HiveServer進程及日志情況,排除問題。
在五分鐘內(nèi)出現(xiàn)1次重啟,則報P1異常,請馬上檢查HiveServer進程及日志情況,排除問題。
其他情況正常。
HiveMetaStore相關(guān)巡檢項說明
HiveMetaStore高可用巡檢項(inspection_hive_metastore_ha)
如果多臺HiveMetaStore均存活(
Hive metastore HA status is OK
),則狀態(tài)正常。如果其中有HiveMetaStore存在問題(
One or more metastore failed
),則為P1異常,需要馬上檢查HiveMetaStore進程及日志情況,排除問題。如果所有HiveMetaStore全部問題(
All Hive metastore are failed
),則為P0級異常,需要馬上檢查HiveMetaStore進程及日志情況,排除問題。
HiveMetaStore端口存在性巡檢項(inspection_hive_metastore_port)
檢查HiveMetaStore的9083端口在機器上是否存在,如果不存在則說明進程異常,需要馬上檢查HiveMetaStore進程及日志情況,排除問題。
HiveMetaStoreGC巡檢項(inspection_hive_metastore_gc)
檢查JVM的memory.heap.usage指標。
如果使用率大于等于95%,則報P0異常,需要馬上考慮增加內(nèi)存,緊急。
如果使用率大于等于90%,則報P1異常,需要馬上考慮增加內(nèi)存。
如果使用率小于90%,則內(nèi)存調(diào)整目前不是特別緊急,可繼續(xù)觀察或根據(jù)需要調(diào)整。
HiveMetaStore重啟巡檢項(inspection_hive_metastore_restart)
在五分鐘內(nèi)出現(xiàn)多次重啟,則報P0異常,必須馬上檢查HiveMetaStore進程及日志情況,排除問題。
在五分鐘內(nèi)出現(xiàn)1次重啟,則報P1異常,請馬上檢查HiveMetaStore進程及日志情況,排除問題。
其他情況正常。
HiveServer服務(wù)關(guān)鍵指標
可在集群監(jiān)控頁面查看Hive-HiveServer2的指標監(jiān)控項。
Session相關(guān)指標。
OpenSessions和ActiveSessions:可查看當前打開或者活躍Sessions,判斷Task在異常時間段是否過多,可根據(jù)需要調(diào)整內(nèi)存應(yīng)對。
JVM相關(guān)指標。
JVM MemHeapMax和GC相關(guān)指標:查看在異常時間內(nèi)JVM各項指標表現(xiàn),判斷是否需要調(diào)整內(nèi)存應(yīng)對。
Task相關(guān)指標。
PENDING tasks、ActiveRunTasksCalls及相關(guān)的TasksCount指標:如果Pending的Tasks過多,典型表現(xiàn)為客戶端部分任務(wù)進度一直不動,需要檢查進程內(nèi)存及集群YARN對應(yīng)的資源隊列調(diào)度資源是否充足,或者是否有大作業(yè)占用過多的資源。
HiveMetastore服務(wù)關(guān)鍵指標
可在集群監(jiān)控頁面查看Hive-HiveMetaStore的指標監(jiān)控項。
JVM相關(guān)指標。
JVM MemHeapMax和GC相關(guān)指標:查看在異常時間內(nèi)JVM各項指標表現(xiàn),判斷是否需要調(diào)整內(nèi)存應(yīng)對。
元數(shù)據(jù)操作相關(guān)指標。
GetTable、CreateTable Time等相關(guān)元數(shù)據(jù)操作的時間消耗,如果時間存在放大趨勢或者存在異常,需要檢查Metastore內(nèi)存或后端數(shù)據(jù)庫性能是否已經(jīng)到瓶頸,根據(jù)內(nèi)存GC情況或后端數(shù)據(jù)庫執(zhí)行Query時間長短判斷進行HiveMetaStore的內(nèi)存調(diào)整或升級后端數(shù)據(jù)庫的規(guī)格。