PAI AIMaster和靈駿AI助手是一套全自動化的故障快速恢復系統。安裝AI助手并開啟PAI的作業監控和恢復功能后,當訓練任務發生故障或異常時,能自動上報故障信息、隔離問題節點,無需人工干預即可快速恢復任務。本文為您介紹AI助手的具體配置方法。
前提條件
已創建帶有ACK靈駿托管版的集群。具體操作,請參見創建帶有ACK靈駿托管版的集群。
功能介紹
安裝AI助手并完成RRSA授權操作后,提交訓練任務時,您需要開啟PAI的AIMaster和EasyCKPT功能。當發生故障或異常時,通過AI助手底層的告警系統可以自動和PAI進行交互,上報故障信息,并根據故障觸發階段和并行策略選擇規避故障方法,對故障機自動進行隔離,并從Checkpoint快速恢復任務。AI助手提供的具體功能如下:
異常采集和上報:通過AI助手的告警系統自動和PAI進行交互。
故障隔離:對故障機自動進行隔離。
異常處理:通過告警觸發PAI創建Checkpoint并快速恢復任務。
配置方法
安裝ack-lingjun-aiast組件。
登錄容器服務管理控制臺,在左側導航欄選擇集群。
在集群列表頁面,單擊目標集群名稱,然后在左側導航欄,選擇
。在組件管理頁面,單擊其他頁簽,找到ack-lingjun-aiast組件,單擊組件右下方的安裝。
在提示對話框確認組件信息后,單擊確定。
為集群開啟RRSA功能。
在目標集群的左側導航欄,單擊集群信息。
在集群詳情頁面,單擊基本信息頁簽,在集群信息區域單擊RRSA OIDC右側的啟用RRSA。詳情請參見通過RRSA配置ServiceAccount的RAM權限實現Pod權限隔離。
在彈出的對話框中,單擊確定。
安裝ack-pod-identity-webhook組件。具體操作,請參見ack-pod-identity-webhook。
創建一個名為aiph-ack-rrsa-role的RAM角色。
使用阿里云賬號登錄RAM控制臺。
在左側導航欄,選擇 。
在角色頁面,單擊創建角色。
在創建角色面板,選擇可信實體類型為身份提供商,然后單擊下一步。
在配置角色配置項,配置如下角色信息后,單擊完成。
配置項
描述
角色名稱
aiph-ack-rrsa-role
身份提供商類型
OIDC
選擇身份提供商
ack-rrsa-<cluster_id>。其中,<cluster_id>為您的集群ID。
限制條件
oidc:iss:默認即可。
oidc:aud:選擇sts.aliyuncs.com。
oidc:sub:條件判定方式選擇StringEquals,值的格式為system:serviceaccount:aiph-ops:aiph-manager。
為上一步創建的角色授予AliyunCSReadOnlyAccess系統策略權限,以及AI助手需要的自定義OpenAPI權限。自定義OpenAPI權限信息如下,如何創建自定義權限策略,請參見創建自定義權限策略,如何為RAM角色授權,請參見為RAM角色授權。
# 注:添加該權限即代表授權AI助手代替用戶進行靈駿節點自動化運維操作。 { "Statement": [ { "Effect": "Allow", "Action": [ "eflo:*" ], "Resource": [ "acs:eflo:*" ] }, { "Effect": "Allow", "Action": "cms:DescribeSystemEventAttribute", "Resource": "acs:cms:*" } ], "Version": "1" }
后續步驟
如需使用訓練任務快速恢復,您需要開啟PAI的AI Master和EasyCKPT功能。具體操作步驟,請參見: