Fluid是開源Kubernetes原生的分布式數據集編排和加速引擎,主要服務于云原生場景下的數據密集型應用,例如大數據應用、AI應用等。Fluid提供面向應用的數據集統一抽象、可擴展的數據引擎插件、自動化數據操作、通用數據加速、運行時平臺無關等核心功能。阿里云Prometheus監控支持一鍵安裝Fluid組件,并提供開箱即用的監控大盤。本文介紹如何為Fluid開啟Prometheus監控。
前提條件
已為ACK集群或ACK Serverless集群開啟阿里云Prometheus監控。具體操作,請參見使用阿里云Prometheus監控。
已部署云原生AI套件(選擇開啟Fluid數據加速功能)。具體操作,請參見部署云原生AI套件。
如需使用Fluid控制面監控大盤的完整能力,請確保集群中運行的ack-fluid組件版本為0.9.7及以上。
如需使用Fluid JindoRuntime緩存系統監控大盤的完整能力,請確保集群中運行的ack-fluid組件版本為1.0.11及以上。
使用限制
僅支持類型為Prometheus for 容器服務的Prometheus實例接入Fluid組件。
緩存系統監控大盤僅支持對JindoRuntime類型(JindoCache緩存引擎)的緩存運行時組件進行監控。
步驟一:接入Fluid
登錄ARMS控制臺。
在左側導航欄單擊接入中心,然后在人工智能區域單擊Fluid卡片。
在Fluid頁面的選擇容器服務集群區域,選擇目標集群。若顯示已經安裝Fluid組件,則無需再重復安裝。
在配置信息區域配置參數,然后單擊確定,完成組件接入。
配置項
說明
接入名稱(非必填)
當前Fluid監控唯一名稱,可留空。
metrics采集間隔(秒)
監控數據采集時間間隔。
已接入的組件可在ARMS控制臺的接入管理頁面查看。
登錄ARMS控制臺。
在左側導航欄單擊接入管理,然后選擇已接入Fluid監控組件的容器環境。
在容器環境的組件類型中選擇Fluid,即可查看Fluid的組件、大盤告警規則等信息。
接入中心的更多信息,請參見接入指南。
步驟二:查看Fluid大盤數據
(推薦)從容器服務控制臺查看Fluid大盤數據
登錄容器服務管理控制臺,在左側導航欄單擊集群。
在集群列表頁面,單擊已接入Fluid組件的ACK集群或ACK Serverless集群,然后在左側導航欄,選擇 。
在Prometheus監控頁面,選擇
,查看Fluid控制面監控大盤的詳情數據。在Fluid控制面監控大盤中,您可以查看有關Fluid控制面組件的詳情數據,Prometheus監控提供的Fluid大盤數據包括Fluid組件運行狀態、Fluid控制器處理耗時、Fluid Webhook處理請求量QPS、請求處理時延,以及各組件資源使用量等等。更多詳細信息,請參見Fluid監控大盤參數說明。
在組件運行狀態區域,可查看Fluid控制面組件的就緒Pod數量,歷史重啟次數和歷史重啟時刻等信息。
在Fluid控制器詳細指標區域,可查看Fluid控制器組件閑忙程度、處理失敗情況、Kubernetes API請求等信息。
在Fluid Webhook詳細指標區域,可查看Fluid Webhook組件資源使用、請求處理數量以及請求處理時延等信息。
在資源使用區域,可查看Fluid控制面的全部組件的資源使用和網絡收發速率等信息。
在Prometheus監控頁面,選擇
,查看Fluid JindoRuntime緩存系統監控大盤的詳情數據。在Fluid JindoRuntime緩存系統監控大盤中,您可以查看有關Fluid JindoRuntime緩存系統的詳情數據,大盤數據包括Fluid Dataset概覽、緩存系統監控指標、FUSE客戶端監控指標等。更多詳細信息,請參見Fluid監控大盤參數說明。
在Dataset Overview(數據集概覽)區域,可查看選中的Fluid數據集的概覽信息,包括緩存系統中正常運行的Master組件Pod、Worker組件Pod、FUSE組件Pod的數量,以及各Pod的資源配置情況。
在Cache System Metrics(緩存系統指標)區域,可查看選中的緩存系統服務端指標,包括緩存系統當前已使用的緩存容量、緩存命中率、緩存系統聚合帶寬以及緩存系統處理文件元信息操作的QPS等。
在FUSE Metrics (via CSI)(FUSE Pod客戶端指標)區域,可查看通過Fluid CSI插件和FUSE Pod方式掛載的FUSE文件系統的客戶端指標,包括各FUSE Pod的網絡I/O情況、元數據操作延時和QPS、讀寫數據操作延時和QPS等。
在FUSE Metrics (via Sidecar)(FUSE Sidecar容器客戶端指標)區域,可查看通過Fluid FUSE Sidecar方式掛載的FUSE文件系統的客戶端指標,包括元數據操作延時和QPS、讀寫數據操作延時和QPS等。
從ARMS控制臺查看Fluid大盤數據
登錄ARMS控制臺。
左側導航欄單擊接入管理,在組件類型區域選擇Fluid,并單擊右側的大盤頁簽,然后單擊頁面底部的Fluid Control Plane,您可以查看Fluid控制面監控大盤的詳情數據。
在Fluid大盤中,您可以查看有關Fluid控制面組件的詳情數據,Prometheus監控提供的Fluid大盤數據包括Fluid組件運行狀態、Fluid控制器處理耗時、Fluid Webhook處理請求量QPS、請求處理時延,以及各組件資源使用量等等。更多詳細信息,請參見Fluid監控大盤參數說明。
在組件運行狀態區域,可查看Fluid控制面組件的就緒Pod數量,歷史重啟次數和歷史重啟時刻等信息。
在Fluid控制器詳細指標區域,可查看Fluid控制器組件閑忙程度、處理失敗情況、Kubernetes API請求等信息。
在Fluid Webhook詳細指標區域,可查看Fluid Webhook組件資源使用、請求處理數量以及請求處理時延等信息。
在資源使用區域,可查看Fluid控制面的全部組件的資源使用和網絡收發速率等信息。
左側導航欄單擊接入管理,在組件類型區域選擇Fluid,并單擊右側的大盤頁簽,然后單擊頁面底部的Fluid JindoRuntime Dashboard,您可以查看Fluid JindoRuntime緩存系統監控大盤的詳情數據。
在Dataset Overview(數據集概覽)區域,可查看選中的Fluid數據集的概覽信息,包括緩存系統中正常運行的Master組件Pod、Worker組件Pod、FUSE組件Pod的數量,以及各Pod的資源配置情況。
在Cache System Metrics(緩存系統指標)區域,可查看選中的緩存系統服務端指標,包括緩存系統當前已使用的緩存容量、緩存命中率、緩存系統聚合帶寬以及緩存系統處理文件元信息操作的QPS等。
在FUSE Metrics (via CSI)(FUSE Pod客戶端指標)區域,可查看通過Fluid CSI插件和FUSE Pod方式掛載的FUSE文件系統的客戶端指標,包括各FUSE Pod的網絡I/O情況、元數據操作延時和QPS、讀寫數據操作延時和QPS等。
在FUSE Metrics (via Sidecar)(FUSE Sidecar容器客戶端指標)區域,可查看通過Fluid FUSE Sidecar方式掛載的FUSE文件系統的客戶端指標,包括元數據操作延時和QPS、讀寫數據操作延時和QPS等。
監控指標說明
Fluid控制面各組件使用的指標清單如下。
指標 | 類型 | 說明 |
dataset_ufs_total_size | Gauge | 當前集群內存活的Dataset資源對象掛載的數據集大小。 |
dataset_ufs_file_num | Gauge | 當前集群內存活的Dataset資源對象掛載的數據集文件數量。 |
runtime_setup_error_total | Counter | 控制器Reoncile過程中啟動Runtime操作失敗數量。 |
runtime_sync_healthcheck_error_total | Counter | 控制器Reconcile過程中Runtime健康檢查操作失敗數量。 |
controller_runtime_reconcile_time_seconds_bucket | Histogram | 控制器Reconcile流程耗時。 |
controller_runtime_reconcile_errors_total | Counter | 控制器Reconcile失敗數量。 |
controller_runtime_reconcile_total | Counter | 控制器已完成的Reconcile過程總數。 |
controller_runtime_max_concurrent_reconciles | Gauge | 控制器的最大可用Reconcile協程數量。 |
controller_runtime_active_workers | Gauge | 控制器當前處于活躍狀態的Reconcile協程數量。 |
workqueue_adds_total | Counter | 控制器Workqueue處理的Adds事件的數量。 |
workqueue_depth | Gauge | 控制器Workqueue當前隊列深度。 |
workqueue_queue_duration_seconds_bucket | Histogram | 待處理對象在控制器Workqueue中等待時長。 |
workqueue_work_duration_seconds_bucket | Histogram | 控制器歷史已完成的處理過程的時長分布。 |
workqueue_unfinished_work_seconds | Gauge | 控制器Workqueue中當前正在被處理,但還未處理完成的任務的總時長。 |
workqueue_longest_running_processor_seconds | Gauge | 控制器歷史處理過程最大時長。 |
rest_client_requests_total | Counter | 從狀態值(Status Code)、方法(Method)和主機(Host)維度分析的到的HTTP請求數。 |
rest_client_request_duration_seconds_bucket | Histogram | 從方法(Verb)和URL維度分析得到的HTTP請求時延。 |
controller_runtime_webhook_requests_in_flight | Gauge | Webhook當前正在處理的請求數量。 |
controller_runtime_webhook_requests_total | Counter | Webhook處理請求數量。 |
controller_runtime_webhook_latency_seconds_bucket | Histogram | Webhook處理請求時延。 |
process_cpu_seconds_total | Counter | CPU使用時長。 |
process_resident_memory_bytes | Gauge | 內存使用量。 |
Fluid JindoRuntime緩存監控大盤中JindoCache緩存系統服務端暴露的指標清單如下。
指標清單 | 類型 | 解釋 |
jindocache_server_total_stsnodes_num | Gauge | 當前分布式緩存存活的Worker組件副本數量。 |
jindocache_server_total_disk_cap | Gauge | 分布式緩存系統中以磁盤介質(包含tmpfs等內存盤)的緩存容量上限。 |
jindocache_server_total_used_disk_cap | Gauge | 分布式緩存系統中已使用的磁盤介質(包含tmpfs等內存盤)緩存空間。 |
jindocache_server_total_mem_cap | Gauge | 分布式緩存系統中以進程內存為介質的緩存容量上限。 |
jindocache_server_total_used_mem_cap | Gauge | 分布式緩存系統中已使用的以進程內存為介質的緩存空間。 |
jindocache_server_total_used_rocksdb_cap | Gauge | 分布式緩存系統中已使用的RocksDB。 |
jindocache_server_backend_read_bytes_total | Gauge | 總計回源底層存儲讀取數據量大小,單位Byte。 回源底層存儲讀取指待讀數據不在JindoCache分布式緩存中,需要回源底層存儲系統進行讀取的情況。 |
jindocache_server_backend_read_time_total | Gauge | 回源底層存儲讀取數據總耗時,單位微秒。 |
jindocache_server_backend_readop_num_total | Gauge | 總計回源底層存儲讀取數據次數,對應 JindoCache緩存中 Block 個數。 |
jindocache_server_backend_read_bytes_time_total_window | Gauge | 一分鐘內回源底層存儲讀取數據耗時,單位微秒。 |
jindocache_server_backend_read_bytes_total_window | Gauge | 一分鐘內回源底層存儲讀取總數據量大小,單位Byte。 |
jindocache_server_remote_read_bytes_total | Gauge | 總計同集群內遠端緩存命中讀取數據量大小,單位Byte。 遠端緩存命中指待讀數據在JindoCache分布式緩存中,但是緩存數據與應用不在相同節點的情況。 |
jindocache_server_remote_read_time_total | Gauge | 總計同集群內遠端緩存命中讀取數據總耗時,單位微秒。 |
jindocache_server_remote_readop_num_total | Gauge | 總計同集群內遠端緩存命中讀取次數。 |
jindocache_server_remote_read_bytes_time_total_window | Gauge | 一分鐘內遠端緩存命中讀取總數據耗時,單位微秒。 |
jindocache_server_remote_read_bytes_total_window | Gauge | 一分鐘內遠端緩存命中讀取總數據量大小,單位Byte。 |
jindocache_server_local_read_bytes_total | Gauge | 總計同集群內本地緩存命中讀取數據量大小,單位Byte。 本地緩存命中指待讀數據在JindoCache分布式緩存中,并且緩存數據與應用在相同節點的讀取情況。 |
jindocache_server_local_read_time_total | Gauge | 總計同集群內本地緩存命中讀取數據總耗時,單位微秒。 |
jindocache_server_local_readop_num_total | Gauge | 總計同集群內本地緩存命中讀取次數。 |
jindocache_server_local_read_bytes_time_total_window | Gauge | 一分鐘內本地緩存命中讀取總數據耗時,單位微秒。 |
jindocache_server_local_read_bytes_total_window | Gauge | 一分鐘內本地緩存命中讀取總數據量大小,單位Byte。 |
jindocache_server_ns_filelet_op_count_total | Gauge | JindoCache Master組件側統計的文件元信息操作(包括getAttr操作和listStatus操作)總數。 |
jindocache_server_ns_filelet_op_time_total | Gauge | JindoCache Master組件側統計的處理文件元信息操作(包括getAttr操作和listStatus操作)的總耗時。 |
jindocache_server_ns_get_attr_op_total | Gauge | JindoCache Master組件側統計的getAttr操作總數。 |
jindocache_server_ns_get_attr_time_total | Gauge | JindoCache Master組件側統計的處理getAttr操作的總耗時。 |
jindocache_server_ns_get_attr_fallback_op_total | Gauge | JindoCache Master組件回源底層存儲系統獲取文件元信息的總次數。 |
jindocache_server_ns_list_status_op_total | Gauge | JindoCache Master組件側統計的listStatus操作總數。 |
jindocache_server_ns_list_status_time_total | Gauge | JindoCache Master組件側統計的處理listStatus操作的總耗時。 |
jindocache_server_ns_list_status_fallback_op_total | Gauge | JindoCache Master組件回源底層存儲系統獲取文件列表的總次數。 |
jindocache_server_dist_get_attr_op_num_total | Gauge | JindoCache客戶端側統計的getAttr操作總數。 |
jindocache_server_dist_get_attr_time_total | Gauge | JindoCache客戶端側統計的處理getAttr操作的總耗時。 |
jindocache_server_dist_list_dir_op_num_total | Gauge | JindoCache客戶端側統計的listStatus操作總數。 |
jindocache_server_dist_list_dir_time_total | Gauge | JindoCache客戶端側統計的處理listStatus操作的總耗時。 |
Fluid JindoRuntime緩存監控大盤中JindoCache緩存系統FUSE客戶端暴露的指標清單如下。
指標清單 | 類型 | 解釋 |
jindo_fuse_open_count | Gauge | Jindo FUSE客戶端open操作次數。 |
jindo_fuse_open_latency | Gauge | Jindo FUSE客戶端open操作P50分位延遲。 |
jindo_fuse_open_latency_80 | Gauge | Jindo FUSE客戶端open操作P80分位延遲。 |
jindo_fuse_open_latency_90 | Gauge | Jindo FUSE客戶端open操作P90分位延遲。 |
jindo_fuse_open_latency_99 | Gauge | Jindo FUSE客戶端open操作P99分位延遲。 |
jindo_fuse_open_latency_999 | Gauge | Jindo FUSE客戶端open操作千分之999分位延遲。 |
jindo_fuse_open_latency_9999 | Gauge | Jindo FUSE客戶端open操作萬分之9999分位延遲。 |
jindo_fuse_getattr_count | Gauge | Jindo FUSE客戶端getAttr操作次數。 |
jindo_fuse_getattr_latency | Gauge | Jindo FUSE客戶端getAttr操作P50分位延遲。 |
jindo_fuse_getattr_latency_80 | Gauge | Jindo FUSE客戶端getAttr操作P80分位延遲。 |
jindo_fuse_getattr_latency_90 | Gauge | Jindo FUSE客戶端getAttr操作P90分位延遲。 |
jindo_fuse_getattr_latency_99 | Gauge | Jindo FUSE客戶端getAttr操作P99分位延遲。 |
jindo_fuse_getattr_latency_999 | Gauge | Jindo FUSE客戶端getAttr操作千分之999分位延遲。 |
jindo_fuse_getattr_latency_9999 | Gauge | Jindo FUSE客戶端getAttr操作萬分之9999分位延遲。 |
jindo_fuse_readdir_count | Gauge | Jindo FUSE客戶端readDir操作次數。 |
jindo_fuse_readdir_latency | Gauge | Jindo FUSE客戶端readDir操作P50分位延遲。 |
jindo_fuse_readdir_latency_80 | Gauge | Jindo FUSE客戶端readDir操作P80分位延遲。 |
jindo_fuse_readdir_latency_90 | Gauge | Jindo FUSE客戶端readDir操作P90分位延遲。 |
jindo_fuse_readdir_latency_99 | Gauge | Jindo FUSE客戶端readDir操作P99分位延遲。 |
jindo_fuse_readdir_latency_999 | Gauge | Jindo FUSE客戶端readDir操作千分之999分位延遲。 |
jindo_fuse_readdir_latency_9999 | Gauge | Jindo FUSE客戶端readDir操作萬分之9999分位延遲。 |
jindo_fuse_read_count | Gauge | Jindo FUSE客戶端read操作次數。 |
jindo_fuse_read_latency | Gauge | Jindo FUSE客戶端read操作P50分位延遲。 |
jindo_fuse_read_latency_80 | Gauge | Jindo FUSE客戶端read操作P80分位延遲。 |
jindo_fuse_read_latency_90 | Gauge | Jindo FUSE客戶端read操作P90分位延遲。 |
jindo_fuse_read_latency_99 | Gauge | Jindo FUSE客戶端read操作P99分位延遲。 |
jindo_fuse_read_latency_999 | Gauge | Jindo FUSE客戶端read操作千分之999分位延遲。 |
jindo_fuse_read_latency_9999 | Gauge | Jindo FUSE客戶端read操作萬分之9999分位延遲。 |
jindo_fuse_write_count | Gauge | Jindo FUSE客戶端write操作次數。 |
jindo_fuse_write_latency | Gauge | Jindo FUSE客戶端write操作P50分位延遲。 |
jindo_fuse_write_latency_80 | Gauge | Jindo FUSE客戶端write操作P80分位延遲。 |
jindo_fuse_write_latency_90 | Gauge | Jindo FUSE客戶端write操作P90分位延遲。 |
jindo_fuse_write_latency_99 | Gauge | Jindo FUSE客戶端write操作P99分位延遲。 |
jindo_fuse_write_latency_999 | Gauge | Jindo FUSE客戶端write操作千分之999分位延遲。 |
jindo_fuse_write_latency_9999 | Gauge | Jindo FUSE客戶端write操作萬分之9999分位延遲。 |
相關文檔
關于Fluid更多信息,請參見數據加速Fluid概述。
關于Fluid監控面板參數說明,請參見Fluid監控大盤參數說明。