阿里云PAI為您提供靈駿智算資源,可用于AI開發和訓練,如果您希望進行高性能AI訓練、高性能計算,可以通過配置資源配額來使用靈駿智算資源。本文為您介紹如何新增、管理以及使用資源配額。
前提條件
已創建靈駿智算資源專有資源組并購買了計算資源。具體操作,請參見新建資源組并購買靈駿智算資源。
新增資源配額
通過新增資源配額來合理分配資源池中的資源。具體操作步驟如下:
登錄并進入PAI控制臺的AI計算資源 > 資源配額頁面。
在靈駿智算資源頁簽中,單擊新增資源配額。
在新增資源配額頁面中,配置以下參數,完成后單擊提交。
參數
描述
名稱
根據界面提示設置資源配額的名稱。
調度策略
選擇合適的調度策略,提高算力資源的利用率,取值如下:
智能策略
均衡策略
遍歷策略
FIFO策略
關于各個調度策略的原理介紹,請參見調度策略。
關聯工作空間
選擇所屬的工作空間后,該資源配額將與該工作空間綁定。
描述
對資源配額進行簡單的描述,以區分不同的資源配額。
來源類型
支持以下兩種配置:
專有資源組:選擇資源池中的資源組,將從該資源組中分配資源。
已有資源配額:從已有的資源配額中分配資源。
來源
選擇已創建的專有資源組或資源配額。
規格/資源
單擊添加,從已有的資源配額或專有資源組中選擇合適的資源規格和節點數量。
專有網絡
在下拉框中選擇已創建好的VPC、交換機和安全組。
說明后續如果您有訪問公網的需求,還需對此處綁定的VPC進行公網NAT網關的配置并綁定EIP,因此建議選擇的VPC為您后續用于訪問公網的VPC。配置公網NAT網關的SNAT功能操作詳情可參見使用公網NAT網關SNAT功能訪問互聯網。
安全組
交換機
管理資源配額
創建資源配額后,您可以單擊資源配額名稱,來查看詳情、水位并進行管理操作。還可以通過擴縮容、新增子級資源配額來優化資源配置。具體操作,請參見管理資源配額。
使用資源配額
綁定工作空間
只有將資源配額綁定到指定的工作空間后,才能使用其進行AI開發、訓練任務和服務部署。具體操作,請參見資源配額(Quota)功能介紹。
使用已綁定工作空間的資源配額進行AI開發、訓練和服務部署。
鏡像選擇
使用PAI靈駿資源配額進行分布式訓練(DLC)時,涉及服務器、網絡、驅動、訓練框架等軟硬件的協同,因此建議您直接使用PAI官方鏡像, 或基于PAI官方鏡像構建鏡像。
說明使用您自有的鏡像時,可能需要額外進行驅動、框架、軟件版本的適配,才能充分應用靈駿智算資源的高性能。
鏡像名稱
框架
機型
CUDA
操作系統
地區
開發語言&版本
deepspeed-training:23.06-gpu-py310-cu121-ubuntu22.04
PyTorch 2.1
Megatron-LM 23.06
DeepSpeed 0.9.5
Transformers 4.29.2
Nemo 1.19.0
GPU
121
ubuntu22.04
華北6(烏蘭察布)
Python3.10
megatron-training:23.06-gpu-py310-cu121-ubuntu22.04
PyTorch 2.1
Megatron-LM 23.06
DeepSpeed 0.9.5
Transformers 4.29.2
Nemo 1.19.0
GPU
121
ubuntu22.04
華北6(烏蘭察布)
Python3.10
nemo-training:23.06-gpu-py310-cu121-ubuntu22.04
PyTorch 2.1
Megatron-LM 23.06
DeepSpeed 0.9.5
Transformers 4.29.2
Nemo 1.19.0
GPU
121
ubuntu22.04
華北6(烏蘭察布)
Python3.10
提交DLC訓練任務選擇靈駿資源配額。具體操作,請參見創建訓練任務。
基于靈駿智算資源在DSW中開發模型。具體操作,請參見創建及管理DSW實例。
部署EAS服務。具體操作,請參見服務部署:控制臺。