日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

AI助手使用說明

PAI AIMaster和靈駿AI助手是一套全自動化的故障快速恢復系統。安裝AI助手并開啟PAI的作業監控和恢復功能后,當訓練任務發生故障或異常時,能自動上報故障信息、隔離問題節點,無需人工干預即可快速恢復任務。本文為您介紹AI助手的具體配置方法。

前提條件

已創建帶有ACK靈駿托管版的集群。具體操作,請參見創建帶有ACK靈駿托管版的集群

功能介紹

安裝AI助手并完成RRSA授權操作后,提交訓練任務時,您需要開啟PAI的AIMaster和EasyCKPT功能。當發生故障或異常時,通過AI助手底層的告警系統可以自動和PAI進行交互,上報故障信息,并根據故障觸發階段和并行策略選擇規避故障方法,對故障機自動進行隔離,并從Checkpoint快速恢復任務。AI助手提供的具體功能如下:

  • 異常采集和上報:通過AI助手的告警系統自動和PAI進行交互。

  • 故障隔離:對故障機自動進行隔離。

  • 異常處理:通過告警觸發PAI創建Checkpoint并快速恢復任務。

配置方法

  1. 安裝ack-lingjun-aiast組件。

    1. 登錄容器服務管理控制臺,在左側導航欄選擇集群

    2. 集群列表頁面,單擊目標集群名稱,然后在左側導航欄,選擇運維管理 > 組件管理

    3. 組件管理頁面,單擊其他頁簽,找到ack-lingjun-aiast組件,單擊組件右下方的安裝

    4. 在提示對話框確認組件信息后,單擊確定

  2. 為集群開啟RRSA功能。

    1. 在目標集群的左側導航欄,單擊集群信息

    2. 在集群詳情頁面,單擊基本信息頁簽,在集群信息區域單擊RRSA OIDC右側的啟用RRSA。詳情請參見通過RRSA配置ServiceAccount的RAM權限實現Pod權限隔離

    3. 在彈出的對話框中,單擊確定

  3. 安裝ack-pod-identity-webhook組件。具體操作,請參見ack-pod-identity-webhook

  4. 創建一個名為aiph-ack-rrsa-role的RAM角色。

    1. 使用阿里云賬號登錄RAM控制臺

    2. 在左側導航欄,選擇身份管理 > 角色

    3. 角色頁面,單擊創建角色

    4. 創建角色面板,選擇可信實體類型為身份提供商,然后單擊下一步

    5. 配置角色配置項,配置如下角色信息后,單擊完成

      配置項

      描述

      角色名稱

      aiph-ack-rrsa-role

      身份提供商類型

      OIDC

      選擇身份提供商

      ack-rrsa-<cluster_id>。其中,<cluster_id>為您的集群ID。

      限制條件

      • oidc:iss:默認即可。

      • oidc:aud:選擇sts.aliyuncs.com

      • oidc:sub條件判定方式選擇StringEquals,值的格式為system:serviceaccount:aiph-ops:aiph-manager

  5. 為上一步創建的角色授予AliyunCSReadOnlyAccess系統策略權限,以及AI助手需要的自定義OpenAPI權限。自定義OpenAPI權限信息如下,如何創建自定義權限策略,請參見創建自定義權限策略,如何為RAM角色授權,請參見為RAM角色授權

    # 注:添加該權限即代表授權AI助手代替用戶進行靈駿節點自動化運維操作。
    
    {
       "Statement": [
          {
             "Effect": "Allow",
             "Action": [
               "eflo:*"
             ],
             "Resource": [
                "acs:eflo:*"
             ]
          },
          {
             "Effect": "Allow",
             "Action": "cms:DescribeSystemEventAttribute",
             "Resource": "acs:cms:*"
          }
       ],
       "Version": "1"
    }

后續步驟

如需使用訓練任務快速恢復,您需要開啟PAI的AI Master和EasyCKPT功能。具體操作步驟,請參見: