您可以通過集群的集群日報功能,了解當前集群的健康狀態,并根據改進建議對集群進行調整,以保持健康的狀態。
注意信息
默認情況下,Hadoop集群健康檢查功能不包括集群日報分析。如果您需要查看集群日報分析,則需要開通EMR Doctor。開通EMR Doctor的具體操作,請參見開通EMR Doctor(Hadoop集群類型)。
查看報告
進入監控診斷頁面。
在頂部菜單欄處,根據實際情況選擇地域和資源組。
在集群管理頁面,單擊目標集群的集群ID。
單擊上方的監控診斷頁簽。
單擊集群日報頁簽,您可以看到當前集群的所有健康診斷報告列表。
集群日報區域的健康狀態列顯示了該集群的健康度。集群健康狀態信息如下表所示。
健康狀態
描述
0 <= x <= 60
集群處于不健康狀態,請及時處理。
60 < x <= 80
集群處于亞健康狀態,建議優化。
80 < x <= 100
集群處于健康狀態,無需處理。
說明集群狀態以分數表示,取值為0~100。
查看報告詳情。
單擊操作列的查看報告,可以查看當前集群詳細檢查信息。
該頁面為您展示集群健康狀態總覽,報告的基本信息,例如健康評分、當前集群ID、報告ID和診斷時間等。針對不同類型的集群,報告總覽會展示診斷項以及診斷項的總覽分析。總覽分析會將集群的問題進行匯總分析,簡明扼要地指出問題,具體的問題分析您可以查看后面的診斷項詳細分析。
資源分析
計算資源
詳細信息
該頁面為您展示計算資源的詳細分析。您可以了解到集群計算資源使用的基本信息,例如計算得分、掃描的任務數和任務的狀態分布。同時為您指明具體的問題,例如內存使用率過低等,您可以根據后面的具體任務得分進行處理。
計算基礎信息
該區域為您展示集群計算評分趨勢圖、集群算力內存時(GB*Sec)趨勢圖和集群算力CPU時(VCore*Sec)趨勢圖,以及計算任務的綜合健康評分、各分數段任務數量的分布以及相關的趨勢圖。
管理算力內存時和算力CPU時的定義如下表。
指標 | 描述 |
集群算力內存時(GB*Hour) | 集群所有任務的算力內存時之和,任務的算力內存時是一個累積值,計算方式是 |
集群算力CPU時(Core*Hour) | 集群所有任務的算力CPU時之和,任務的算力CPU時是一個累積值,計算方式是 |
計算引擎分析
該區域為您展示以下圖表信息:
計算引擎評分趨勢圖
計算引擎任務數量趨勢圖
計算引擎內存算力時餅圖、趨勢圖
計算引擎算力CPU時餅圖、趨勢圖
計算隊列信息
該區域為您展示計算隊列算力內存時Top 20的圖表信息。
計算任務信息
EMR Doctor采集計算任務,處理和分析后為您展示影響集群最重要的任務,您可以進行針對性的調優、處理,從而增強集群的計算效率,提升集群的使用率,達到增效的目的。
目前支持任務算力內存時(GB*Sec)Top50和計算任務評分倒序Top50任務列表。每條數據包含以下信息。
參數 | 說明 |
任務名 | 任務的名稱。 |
引擎類型 | 任務的引擎類型。 |
SQL語句 | 僅SQL類才有。 |
APP IDS | 對于Hive on MR,一個語句可能有多個APP ID。 |
用戶名 | 提交任務的用戶。 |
評分 | 任務得分。 |
健康狀態 | 標記任務是否需要治理。 |
建議 | 指明任務的優化方向。 |
內存時(GB*Sec) | 任務的算力內存時之和。 |
內存利用率 | 任務的平均內存利用率。 |
CPU時(vCore*Sec) | 任務的算力CPU時之和。 |
CPU利用率 | 任務的平均CPU利用率。 |
當前配置 | 任務當前的配置,可以配合建議來考慮如何調整當前配置。 |
IO信息 | 任務的讀寫、Shuffle等數據。 |
YARN調度資源
您可以通過YARN調度資源分析了解到最準確的YARN引擎、隊列、用戶等維度下的資源使用和任務運行分布。
詳細分析
該頁面為您展示YARN調度資源的詳細分析。在詳細分析中,您可以了解到YARN內存資源使用、任務運行數量、不健康節點等分析。對于有著明顯的資源使用波峰波谷以及任務運行的繁忙期和空閑期,詳細分析中將為您具體指出內存資源使用以及任務運行的峰谷時段,您可以配合圖表中的使用曲線了解資源使用情況。
YARN基礎信息
在YARN基礎信息中,您可以獲取YARN全天結束的任務數量、Failed和Killed任務數量、算力內存時、算力CPU時以及以下圖表信息:
YARN內存資源使用趨勢圖
YARN CPU資源使用趨勢圖
YARN運行中任務數量趨勢圖
YARN引擎信息
該區域為您展示以下圖表信息:
引擎算力內存時分布餅圖
引擎任務數量分布餅圖
YARN用戶信息
該區域為您展示以下圖表信息:
用戶算力內存時分布餅圖
用戶任務數量分布餅圖
YARN隊列信息
該區域為您展示以下圖表信息:
隊列算力內存時分布餅圖
隊列任務數量分布餅圖
YARN不健康節點信息
YARN不健康節點信息為您展示全天中出現過不健康狀態的節點Hostname,以及它們不健康狀態的起止時間、持續時間和YARN提供的Health report。
HDFS存儲資源
EMR Doctor默認不會采集存儲資源信息,如果您想分析HDFS或者Hive的存儲資源,可以在監控診斷 > 集群日報中打開存儲資源信息采集開關,或者根據配置說明中修改采集存儲信息。
詳細分析
該頁面為您展示HDFS存儲資源的詳細分析。在詳細分析中,您可以了解到集群資源的基本狀態,例如總文件數和總存儲量等。同時為您指明具體的問題,例如小文件數占比過高、冷數據存儲量占比過高等。在具體問題中會告知您出現問題的目錄位置以及處理方式,您可以進行對應處理。
HDFS基礎信息
在HDFS基礎信息中,您可以獲取以下圖表信息:
存儲量趨勢圖
文件數趨勢圖
HDFS存儲評分趨勢圖
文件總數,總存儲量,小文件、極小文件個數,冷數據存儲大小
HDFS使用分析
在HDFS使用分析中,您可以獲取以下圖表信息:
HDFS User存儲使用量餅圖
HDFS User文件數量餅圖
HDFS Group存儲使用量餅圖
HDFS Group文件數量餅圖
HDFS文件大小分布餅圖
HDFS冷熱數據分布餅圖
HDFS一級目錄存儲量分布
目錄文件大小分布信息
HDFS的小文件會導致NameNode壓力以及分片問題,所以HDFS小文件是一個非常重要的指標。目錄文件大小分布信息會展示空文件、極小文件、小文件、中等文件以及大文件在各個層級目錄下的比例分布,目前EMR Doctor分析支持四級目錄的下鉆分析。
文件定義如下表所示。
參數 | 描述 |
空文件 | 大小為0的文件。 |
極小文件 | 大于0且小于1 MB的文件。 |
小文件 | 大于等于1且小于128 MB的文件。 |
中等文件 | 大于等于128 MB且小于等于1 GB的文件。 |
大文件 | 大于1 GB的文件。 |
目錄文件大小分布信息中會展示以下信息:
層級目錄空文件個數Top
層級目錄極小文件個數Top
層級目錄小文件個數Top
層級目錄中等文件個數Top
層級目錄大文件個數Top
每個表格會展示具體路徑、存儲大小、日環比和日增量等信息。
目錄冷熱數據分布信息
冷數據是長時間不訪問的數據,推薦放到冷備存儲,例如OSS冷備等。目錄冷熱數據分布可以幫助您了解集群使用情況,有針對性的進行成本優化。目錄冷熱數據分布信息會展示極冷數據、冷數據、溫數據、熱數據在各個層級目錄下的比例分布,目前EMR Doctor分析支持四級目錄的下鉆分析。
參數 | 描述 |
極冷數據 | 超過3個月未訪問的數據。 |
冷數據 | 超過1個月未訪問,但三個月內有訪問的數據。 |
溫數據 | 超過7天未訪問,但一個月內有訪問的數據。 |
熱數據 | 近7天有訪問的數據。 |
在目錄冷熱數據分布信息中會展示如下信息:
層級目錄極冷數據量分布Top
層級目錄冷數據量分布Top
層級目錄溫數據量分布Top
層級目錄熱數據量分布Top
每個表格會展示具體路徑、存儲大小、日環比和日增量等信息。
HBase存儲資源
詳細分析
該頁面為您展示HBase存儲資源的詳細分析。在詳細分析中,您可以了解HBase使用的基本狀態,例如集群平均負載、集群分區均衡度,以及RegionServer和用戶表的健康狀態。同時為您指明具體的問題,例如集群平均負載偏高、集群分區均衡度偏低,以及RegionServer和表健康度異常等。在具體問題中會告知您出現問題的RegionServer、表以及分區等信息,您可以進行相應的優化。
集群總覽分析
在集群總覽信息中,您可以獲取以下圖表信息:
集群健康度評分趨勢圖
集群分區均衡度趨勢圖
集群分區數量分布餅圖
集群請求數趨勢圖
總表數、總分區數、總節點數、平均負載、總數據量、總讀請求數、總寫請求數、總請求數
RegionServer相關信息
在RegionServer相關信息中展示RegionServer的緩存命中率、GC平均耗時以及單日讀、寫請求數等詳細信息。
緩存命中率倒序排名:RegionServer、緩存命中率
GC平均時間排名:RegionServer、GC平均時間
單日讀請求排名:RegionServer、讀請求數
單日讀請求日環比排名:RegionServer、讀請求日環比增量
單日寫請求排名:RegionServer、寫請求數
單日寫請日環比排名:RegionServer、寫請求日環比增量
表相關信息
在表相關信息中展示表熱點分區、表數據量、表分區數,以及表讀寫請求數等詳細信息。
存在分區熱點的表詳細信息
表分區均衡度倒排Top
表分區平均數據量倒排Top
表數據量Top
表數據量日環比Top
表分區數Top
表分區日環比Top
表讀請求數Top
表讀請求數日環比Top
表寫請求數Top
表寫請求數日環比Top
Hive存儲資源
詳細分析
該頁面為您展示了Hive存儲資源的詳細分析。在詳細分析中,您可以了解Hive使用的基本狀態,例如總的Hive庫數,總的Hive表數,Hive表總文件數和總存儲量等。同時為您指明具體的問題,例如小文件數占比過高,冷數據存儲量過多,以及存儲格式分布不合理等。在具體問題中會告知您出現問題的庫、表以及處理方式,您可以進行對應處理。
Hive基礎信息
該區域匯總了Hive使用過程中常用的幾個存儲指標,包含存儲使用量趨勢,文件數量趨勢及評分趨勢等。
Hive使用量分析
在Hive使用分析中,您可以獲取以下圖表:
Hive庫存儲量使用量分布圖
Hive用戶總存儲量分布
Hive表文件大小分布比例
Hive表熱冷數據分布
Hive表存儲格式分布
Hive詳細信息
在Hive信息中會展示Hive庫和Hive表的詳細信息。
Hive庫信息
Hive庫信息包含以下部分:
Hive庫詳細信息
Hive庫文件大小分布Top信息
Hive庫冷熱數據分布Top信息
Hive庫存儲格式分布Top信息
Hive庫詳細信息提供以下數據:
存儲使用量排名:名稱、存儲量,日環比和日增量。
文件數量排名:名稱、文件數量、日環比和日增量。
評分排名:分數排名。
分區個數排名:名稱、分區個數、日環比和日增量。
Hive文件大小分布Top信息提供以下數據:
Hive庫空文件個數Top
Hive庫極小文件個數Top
Hive庫小文件個數Top
Hive庫中等文件個數Top
Hive庫大文件個數Top
Hive小文件會導致NameNode壓力以及分片問題,大量的小文件會嚴重拖累計算流程,所以Hive小文件是一個非常重要的指標。
Hive庫冷熱數據分布Top信息會展示如下:
庫極冷數據量分布Top
庫冷數據量分布Top
庫溫數據量分布Top
庫熱數據量分布Top
冷數據是長時間不訪問的數據,推薦放到冷備存儲,例如OSS冷備等。冷熱數據分布可以幫助您了解集群使用情況,有針對性的進行成本優化。
Hive支持不同的存儲格式,不同的存儲格式對應了不同的應用場景,通常主流的列式格式會大大的節約存儲成本,并提升查詢效率。
Hive庫存儲格式分布Top信息展示如下:
庫TextFile存儲格式數據量分布Top
庫Parquet存儲格式數據量分布Top
庫ORC存儲格式數據量分布Top
Hive表信息
Hive表信息包含以下部分:
Hive表詳細信息
Hive表文件大小分布Top信息
Hive表冷熱數據分布Top信息
Hive表存儲格式分布Top信息
相關的功能說明請參見Hive庫信息。