本文介紹Fluid控制面監控大盤和JindoRuntime緩存系統監控大盤中變量和Panel的詳細說明。大盤變量為Fluid可觀測性指標提供了不同的維度(例如:監控周期長短、數據集命名空間與名稱等);大盤Panel可以幫助您了解Fluid環境中組件的健康狀況和性能表現。通過監控大盤,您可以及時發現并解決可能出現的問題,定位特定業務場景下緩存系統中潛在的優化項。
前提條件
已為Fluid開啟Prometheus監控和Fluid監控大盤。具體操作,請參見步驟二:查看Fluid大盤數據。
Fluid控制面監控大盤
監控大盤變量說明
監控大盤變量的取值會影響監控大盤Panel的監控數據,您可以按照實際需要選擇變量值。例如,將runtime的變量類型從AlluxioRuntime調整為JindoRuntime后,監控大盤中的相關面板都會切換為JindoRuntime相關的數據。
變量名 | 可選值 | 說明 |
interval | 1m、5m、10m、30m、1h、6h | 一個監控周期的時間長度。 |
quantile | 0.5、0.75、0.90、0.95、0.99 | 部分Panel可視化指標使用的是指標分位數。例如,0.90表示顯示各指標的P90分位數。 |
runtime |
| Fluid中使用的Runtime類型。調整該變量將切換整個監控面板與Runtime相關的Panel。 |
監控大盤Panel說明
Panel組 | Panel名稱 | 說明 |
組件運行狀態 | Dataset控制器就緒副本數 | 表示集群當前處于Running狀態的Dataset Controller Pod的數量。 |
歷史Dataset控制器重啟次數 | 表示集群當前Dataset Controller Pod的歷史總重啟次數。 | |
Runtime控制器就緒副本數 | 表示集群當前處于Running狀態的Runtime Controller Pod數量。 | |
歷史Runtime控制器重啟次數 | 表示集群當前Runtime Controller Pod的歷史總重啟次數。 | |
Fluid Webhook就緒副本數 | 表示集群當前處于Running狀態的Fluid Webhook Pod數量。 | |
歷史Fluid Webhook控制器重啟次數 | 表示集群當前Fluid Webhook Pod的歷史總重啟次數。 | |
Fluid CSI插件就緒副本數 | 表示集群當前處于Running狀態的Fluid CSI Plugin Pod數量。 | |
歷史Fluid CSI插件重啟次數 | 表示集群當前Fluid CSI Plugin Pod的歷史總重啟次數。 | |
Fluid組件重啟情況 | 表示集群在2分鐘監控周期內,各組件發生重啟的次數,僅顯示發生重啟次數最多的5個組件。 | |
Fluid控制器詳細指標 | Runtime控制器處理耗時 | 表示在一個監控周期內,Runtime控制器處理對應Runtime資源的耗時,以分位數顯示。 |
Runtime控制器處理失敗數量 | 表示在一個監控周期內,Runtime控制器處理對應Runtime資源時的失敗類型和次數,失敗類型包括:
| |
Runtime控制器線程數 | 表示當前Runtime控制器的活躍線程數和最大可用線程數。 | |
DataLoad控制器線程數 | 表示當前DataLoad控制器的活躍線程數和最大可用線程數。 | |
控制器隊列長度 | 表示集群當前Fluid各控制器處理隊列長度。 | |
Kubernetes API總請求量 | 表示在一個監控周期內,Fluid控制面各組件Pod向Kubernetes API Server發送的總請求量。 | |
Runtime控制器Kubernetes API請求量 | 表示在一個監控周期內,Runtime控制器向Kubernetes API Server發送的請求量,根據請求類型返回的狀態碼進行區分顯示。 | |
控制器未完成處理過程總耗時 | 表示集群各Fluid控制器正在處理但還未完成的處理過程的累計耗時。 | |
Fluid Webhook詳細指標 | Fluid Webhook Pod CPU使用量 | 表示在一個監控周期內,各個Fluid Webhook Pod的CPU利用率。 |
Fluid Webhook Pod 內存使用量 | 表示在一個監控周期內,各個Fluid Webhook Pod的內存使用量。 | |
Fluid Webhook過去時間間隔總計處理請求量 | 表示在一個監控周期內,Fluid Webhook整體總計處理的請求量。 | |
各Fluid Webhook過去時間間隔處理請求量 | 表示在一個監控周期內,不同的Fluid Webhook Pod分別處理的請求量。 | |
Fluid Webhook請求處理時延 | 表示在一個監控周期內,Fluid Webhook整體的請求處理時延,以分位數顯示。 | |
各Fluid Webhook Pod請求處理時延 | 表示在一個監控周期內,不同的Fluid Webhook Pod的請求處理時延,以分位數顯示。 | |
資源使用 | CPU使用量 | 表示在一個監控周期內,Fluid控制面各組件Pod CPU使用率。 |
內存使用量 | 表示在一個監控周期內,Fluid控制面各組件Pod內存使用量。 | |
各Pod網絡發送速率 | 表示在一個監控周期內,Fluid控制面各組件Pod網絡數據包的發送速率。 | |
各Pod網絡接收速率 | 表示在一個監控周期內,Fluid控制面各組件Pod網絡數據包接收速率。 |
Fluid JindoRuntime緩存監控大盤
監控大盤變量說明
Fluid JindoRuntime緩存監控大盤支持根據監控大盤變量選中指定的Dataset數據集對象,并查看該Dataset數據集對象綁定的JindoRuntime緩存系統的相關指標。
變量名 | 說明 |
namespace | 集群中存在的命名空間。 |
fluid_dataset | 集群中存在的Fluid Dataset數據集對象的名字。 |
監控大盤Panel說明
Panel組 | Panel名稱 | 說明 |
Dataset Overview(數據集概覽) | Ready Pod Num (就緒Pod數量) | 表示選中的緩存系統各組件(包括緩存系統Master、Worker、FUSE組件)就緒Pod的數量。 |
Pod Overview (Pod概覽) | 表示選中的緩存系統各組件Pod的基本信息,包括最近一小時重啟次數、CPU資源請求和限制、內存資源請求和限制。 | |
Cache System Metrics (緩存系統指標) | Cache Capacity Usage(%) (已使用緩存容量百分比) | 表示選中的緩存系統當前已使用的緩存容量占比。 |
Cache Capacity Usage (緩存容量使用情況) | 表示選中的緩存系統的最大可用緩存容量和當前已使用容量的具體數值。 | |
Cache Hit Ratio Per Minute(每分鐘緩存命中率) | 表示選中的緩存系統按分鐘周期統計的數據訪問緩存命中率。 | |
Read Bytes Per Minute(每分鐘數據讀取量) | 表示選中的緩存系統統計的每分鐘數據讀取量,包括緩存命中時數據讀取的總量(Cache Hit)和緩存未命中時觸發回源數據讀取的總量(From Backend)。 | |
Cache System Aggregated Bandwidth(緩存系統聚合帶寬) | 表示選中的緩存系統為應用提供的聚合帶寬。聚合帶寬根據各Worker Pod網卡的出網流量加和計算得到。當Worker Pod以宿主機網絡運行,該統計值可能偏大,如果需要獲取精確的緩存系統聚合帶寬數據,請確保Worker Pod以容器網絡運行。 | |
Cache Worker Pod Network I/O(緩存系統Worker Pod網絡I/O情況) | 表示選中的緩存系統中各Worker Pod網絡I/O情況。當Worker Pod以宿主機網絡運行,該統計值可能偏大,如果需要獲取精確的緩存系統聚合帶寬數據,請確保Worker Pod以容器網絡運行。 | |
Cache System Pod Memory Usage(緩存系統Pod內存使用情況) | 表示選中的緩存系統中Master組件Pod和Worker組件Pod的內存使用情況。如果設置了使用Worker組件進程內存作為緩存介質,各個Worker組件Pod已占用的緩存容量將被算入其Pod內存使用中。 | |
Cache System Pod CPU Usage by Cores(緩存系統CPU使用情況) | 表示選中的緩存系統中Master組件Pod和Worker組件Pod的CPU使用情況。 | |
Aggregated File Operation Requests(文件元數據操作請求頻率) | 表示選中的緩存系統統計的文件元數據操作請求頻率,目前僅統計GetAttr和ReadDir兩種元數據操作。 | |
FUSE Metrics (via CSI) (FUSE Pod客戶端指標) | FUSE Network I/O(FUSE Pod網絡I/O情況) | 表示選中的緩存系統中各FUSE Pod網絡I/O情況。當FUSE Pod以宿主機網絡運行,該統計值可能偏大,如果需要獲取精確的緩存系統聚合帶寬數據,請確保FUSE Pod以容器網絡運行。 |
FUSE Memory Usage/Limit(%) (FUSE進程內存使用資源限制百分比) | 表示選中的緩存系統中各FUSE Pod當前內存使用占內存資源限制的百分比。當未設置FUSE Pod內存資源限制時,該指標值為空。 | |
FUSE CPU Throttled Percent(FUSE進程CPU限流百分比) | 表示選中的緩存系統中各FUSE Pod中CPU限流的百分比。當未設置FUSE Pod的CPU資源限制時,該指標值為空。 | |
Meta Ops Per Second(每秒鐘文件元數據操作頻率) | 表示選中的緩存系統中各FUSE Pod統計的每秒鐘文件元數據操作頻率。目前僅統計GetAttr、ReadDir、Open三種文件元數據操作。 | |
Meta Ops P99 Latency(文件元數據操作P99分位延時) | 表示選中的緩存系統中各FUSE Pod文件元數據操作P99分位延時。目前僅統計GetAttr、ReadDir、Open三種文件元數據操作。 | |
Read/Write Ops Per Second(每秒鐘文件讀/寫操作頻率) | 表示選中的緩存系統中各FUSE Pod統計的每秒鐘文件讀/寫操作頻率。 | |
Read/Write Ops P99 Latency | 表示選中的緩存系統中各FUSE Pod統計的文件讀/寫操作P99分位延時。 | |
FUSE Metrics (via Sidecar) (FUSE邊車容器客戶端指標) | FUSE Memory Usage/Limit(%) (FUSE進程內存使用資源限制百分比) | 表示選中的緩存系統中各FUSE邊車容器當前內存使用占內存資源限制的百分比。當未設置FUSE邊車容器內存資源限制時,該指標值為空。 |
FUSE CPU Throttled Percent(FUSE進程CPU限流百分比) | 表示選中的緩存系統中各FUSE邊車容器中CPU限流的百分比。當未設置FUSE邊車容器CPU資源限制時,該指標值為空。 | |
Meta Ops Per Second(每秒鐘文件元數據操作頻率) | 表示選中的緩存系統中各FUSE邊車容器統計的每秒鐘文件元數據操作頻率。目前僅統計GetAttr、ReadDir、Open三種文件元數據操作。 | |
Meta Ops P99 Latency(文件元數據操作P99分位延時) | 表示選中的緩存系統中各FUSE邊車容器文件元數據操作P99分位延時。目前僅統計GetAttr、ReadDir、Open三種文件元數據操作。 | |
Read/Write Ops Per Second(每秒鐘文件讀/寫操作頻率) | 表示選中的緩存系統中各FUSE邊車容器統計的每秒鐘文件讀/寫操作頻率。 | |
Read/Write Ops P99 Latency | 表示選中的緩存系統中各FUSE邊車容器統計的文件讀/寫操作P99分位延時。 |