ACK集群生命周期及異常狀態(tài)說明
ACK集群的生命周期涉及多個(gè)階段和狀態(tài),從集群的創(chuàng)建部署、運(yùn)行維護(hù)(擴(kuò)容縮容、更新升級(jí)、排水移除等),到最終的刪除。本文介紹ACK集群的全生命周期,幫助您更好地理解和管理集群。
集群生命周期
ACK集群在不同狀態(tài)下的含義和集群的狀態(tài)流轉(zhuǎn)圖如下。
集群狀態(tài) | 說明 |
初始化中(initial) | 正在創(chuàng)建集群。 |
創(chuàng)建失敗(failed) | 集群創(chuàng)建失敗。 |
運(yùn)行中(running) | 集群成功創(chuàng)建,運(yùn)行中。 |
配置變更中(updating) | 正在更新集群元信息。 |
節(jié)點(diǎn)移除中(removing) | 正在移除集群中的節(jié)點(diǎn)。 |
升級(jí)中(upgrading) | 集群升級(jí)中。 |
節(jié)點(diǎn)排水中(draining) | 正在驅(qū)逐節(jié)點(diǎn)中的Pod資源到其他節(jié)點(diǎn)中重新創(chuàng)建,之后該節(jié)點(diǎn)將不可調(diào)度。 |
不活躍(inactive) | 特定異常條件下,集群暫時(shí)無法使用。關(guān)于inactive狀態(tài)下,不同狀態(tài)碼說明及對(duì)應(yīng)的解決方案,請(qǐng)參見集群異常狀態(tài)——不活躍(inactive)。 |
不可用(unavailable) | 集群基礎(chǔ)云資源異常,集群不再可用。關(guān)于unavailable狀態(tài)下,不同狀態(tài)碼說明及對(duì)應(yīng)的解決方案,請(qǐng)參見集群異常狀態(tài)——不可用(unavailable)。 |
刪除中(deleting) | 正在刪除集群。 |
刪除失敗(delete_failed) | 刪除集群失敗。 |
已刪除(deleted,該狀態(tài)您不可見) | 成功刪除集群。 |
ACK會(huì)定時(shí)檢測(cè)集群運(yùn)行狀態(tài)。如果集群符合特定的異常條件,集群將自動(dòng)變更為“不活躍(inactive)”或“不可用(unavailable)”的異常狀態(tài)。屆時(shí),ACK會(huì)通過短信、郵件、站內(nèi)信的方式向您發(fā)送相關(guān)通知。
集群異常狀態(tài)——不活躍(inactive)
“不活躍(inactive)”狀態(tài)可能由不同原因?qū)е拢梢酝ㄟ^狀態(tài)碼判斷具體的異常原因。
狀態(tài)碼 | 異常狀態(tài) | 解決方案 |
KMSUnhealthy | 集群開啟了使用阿里云密鑰管理服務(wù)KMS進(jìn)行Secret的落盤加密功能,且由于阿里云賬號(hào)欠費(fèi)或其他原因?qū)е翶MS服務(wù)暫停,使得集群控制面無法正常運(yùn)行。 |
|
NoNodeForLongTime | ACK集群基礎(chǔ)版中沒有節(jié)點(diǎn),且集群中連續(xù)14天沒有節(jié)點(diǎn)。 | 提交工單恢復(fù)集群的狀態(tài),恢復(fù)后將集群升級(jí)為ACK集群Pro版。 |
AssumeRoleNotFound | 系統(tǒng)無法找到容器服務(wù) Kubernetes 版的服務(wù)角色,導(dǎo)致集群控制面異常。 | 參見容器服務(wù)ACK服務(wù)角色排查容器服務(wù) Kubernetes 版所需的角色,提交工單恢復(fù)集群的狀態(tài)。 |
AssumeUserNotFound | 系統(tǒng)無法找到容器服務(wù) Kubernetes 版對(duì)應(yīng)的RAM用戶,導(dǎo)致集群控制面異常。 | 提交工單獲取技術(shù)支持。 |
SecurityGroupNotFound | 系統(tǒng)無法找到容器服務(wù) Kubernetes 版的安全組,導(dǎo)致集群控制面異常。 | 提交工單獲取技術(shù)支持。 |
UnderMaintenance | 集群控制面處于后臺(tái)維護(hù)中。 | 提交工單獲取技術(shù)支持。 |
ServiceInDebt | 如果您的賬戶余額不足以支付賬單金額,您的ACK集群Pro版會(huì)處于不活躍狀態(tài),您將無法訪問集群的API Server,且涉及API Server訪問的操作都將無法進(jìn)行,但節(jié)點(diǎn)上的業(yè)務(wù)仍可繼續(xù)運(yùn)行。 如果超過15天仍處于欠費(fèi)狀態(tài),容器服務(wù) Kubernetes 版將暫停為您提供服務(wù),并刪除集群的控制面資源。但ACK不會(huì)主動(dòng)釋放集群關(guān)聯(lián)的其他云產(chǎn)品資源實(shí)例(包括但不限于NAT網(wǎng)關(guān)、SLB實(shí)例、ECS實(shí)例、ESS伸縮組等)。屆時(shí),關(guān)聯(lián)云產(chǎn)品資源可能產(chǎn)生非預(yù)期行為,請(qǐng)及時(shí)處理。 | 請(qǐng)您及時(shí)充值,并結(jié)清賬單。欠費(fèi)結(jié)清后,集群將自動(dòng)恢復(fù)正常狀態(tài)。 |
集群異常狀態(tài)——不可用(unavailable)
異常原因 | 解決方案 |
集群API Server的CLB實(shí)例被釋放,可能包括以下情況:
| 集群已無法恢復(fù),請(qǐng)刪除集群或重新創(chuàng)建集群。具體操作,請(qǐng)參見刪除集群、創(chuàng)建ACK托管集群。 |
異常狀態(tài)的影響
計(jì)費(fèi)影響
集群處于“不活躍(inactive)”或“不可用(unavailable)”狀態(tài)時(shí),仍會(huì)繼續(xù)收取相關(guān)集群管理費(fèi)用和云產(chǎn)品資源費(fèi)用。計(jì)費(fèi)詳細(xì)說明,請(qǐng)參見產(chǎn)品計(jì)費(fèi)。
集群操作限制
集群處于“不活躍(inactive)”或“不可用(unavailable)”狀態(tài)時(shí),僅允許執(zhí)行以下集群管理操作:
變更集群刪除保護(hù)狀態(tài)
刪除集群
其他影響
集群處于“不活躍(inactive)”或“不可用(unavailable)”狀態(tài)時(shí),為了避免彈出新的ECS實(shí)例,產(chǎn)生預(yù)期外的費(fèi)用,容器服務(wù) Kubernetes 版將停用集群相關(guān)聯(lián)的伸縮組。等待集群狀態(tài)恢復(fù)后,如果集群相關(guān)聯(lián)的伸縮組仍處于停用狀態(tài),您可以在彈性伸縮控制臺(tái)手動(dòng)啟用伸縮組。
相關(guān)文檔
關(guān)于資源計(jì)費(fèi)的常見問題,例如集群刪除中或刪除失敗時(shí)是否會(huì)產(chǎn)生計(jì)費(fèi)、集群處于哪些生命周期狀態(tài)時(shí)將不會(huì)產(chǎn)生集群管理費(fèi)用等,請(qǐng)參見資源計(jì)費(fèi)常見問題。