日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

使用節點彈性大盤

隨著集群規模擴大和頻繁自動伸縮彈性,僅憑人工手動方式很難快速定位及發現問題,也很難追溯歷史,基本不可能發現在長時間線上統計才能發現的異常。本文介紹如何通過節點彈性大盤上展示的Pod、Node詳情及變化圖表,快速排查定位問題。

前提條件

節點彈性大盤詳情

節點彈性大盤目前分為4個部分,下面詳細介紹大盤每個組成部分的展示數據及圖表的含義。

總覽表盤

74

總覽部分由5組數據組成,也是彈性運維最關心的5組數據。

  • 總節點數: 集群中所有節點的數目,反映集群容量水位。

  • 可用節點數:集群中KubeletReady的節點數目,如果與總節點數不一致則說明有些節點處于KubeletNotReady狀態,如果這些節點并非正在加入,那有可能是故障,需要特別關注。

  • 集群可擴容:集群是否處于可擴容的狀態,如果這里顯示NO,表示集群中未達Ready狀態的節點數目大于設置的上限,則一切擴容活動都不會進行。

  • 最近擴容活動:在所選擇的時間范圍內的集群發生節點擴容活動總數。

  • 最近縮容活動:在所選擇的時間范圍內的集群發生節點縮容活動總數。

Pod詳情

73

Pod詳情由兩種圖表構成:

  • 不可調度Pod趨勢圖:展示的是集群中狀態為Pending的Pod總數在時間維度的曲線圖,不可調度Pod往往可以反映一個集群中的擴容壓力。

  • 驅逐Pod趨勢圖:展示的是集群中發生eviction的Pod總數在時間維度的曲線。驅逐Pod的出現,說明對應Node上的資源使用水位已經下降到閾值之下。

節點詳情

72

  • 節點狀態趨勢圖:展示了總節點數、KubeletReady節點數和KubeletNotReady節點數。其中KubeletNotReady節點數是排除了當前時刻距離creationTimeStamp 10分鐘內的新加入節點的。

  • 節點彈性擴容趨勢圖和節點彈性縮容趨勢圖:這兩個圖展示了節點擴容事件和縮容事件在時間維度下的圖表。擴容事件是每次cluster-autoscaler觸發彈性時會產生的ScaledUpGroup,數據是總數。縮容事件是采集每次縮容時cluster-autoscaler的ScaleDown events。

彈性活動列表

71

彈性活動列表是擴縮相關的Event的表,主要是給用戶提供關于擴、縮活動的搜索功能,方便問題定位。

節點彈性大盤使用方法

發現問題

  • 是否存在異常節點:總節點數是否等于可用節點數,如果不等則說明可能有節點異常。

  • 集群容量規劃是否合理:大多數的線上業務都存在業務高峰和低峰,在集群中使用自動伸縮的最重要目的之一就是讓自動伸縮幫助集群容量曲線盡量貼合業務壓力曲線。您可以根據需要選定時間范圍,然后通過上文節點詳情中的數據,與業務壓力做比較,看看波峰波谷的差異是否符合預期并找出優化點。

問題排查

  • 存在狀態為pending的Pod,但是沒有節點彈出。則根據上文集群可擴容的數據,判斷集群是否可以擴容。

    • 如果這項數據顯示不可擴容,則cluster-autoscaler不會執行任何擴容活動,排查結束,需要解決集群健康問題。

    • 如果集群可擴容,則通過上文彈性活動列表搜索Pod Name和NotTriggerScaleUp事件,通過reason字段查看具體沒有觸發擴容的原因。

  • 定位Pod觸發擴容的時間:通過上文彈性活動列表搜索Pod Name和TriggeredScaleUp事件,查看具體觸發擴容的時間。

  • 擴容失敗原因:通過上文彈性活動列表搜索FailedToScaleUpGroup事件,查看reason可定位到cluster-autoscaler觸發的擴容活動失敗的具體原因。

  • 節點縮容時間點:通過上文彈性活動列表搜索Node Name和ScaleDown事件,查看具體觸發縮容的時間。

  • 節點縮容失敗原因:通過上文彈性活動列表搜索Node Name和ScaleDownFailed事件,查看具體觸發縮容的原因。