在大模型時代,AI算力需求旺盛。因此,PAI特別推出了競價任務功能,提供了一定數目的算力資源,通過競價方式提供給客戶,來緩解客戶算力緊張的情況。相較于普通的公共資源實例(按量付費實例),競價資源通常在價格上有一定幅度的折扣,幫助您以較低成本獲取所需的AI算力,從而降低任務運行所需的資源成本。在使用靈駿智算類型的資源創建DLC任務時,您可以通過選擇競價資源來使用該功能。
使用限制
使用競價任務功能前,請聯系您的商務經理添加白名單。
僅支持在華北6(烏蘭察布)地域使用競價任務功能。
僅靈駿智算資源提供競價任務功能。
競價任務有如下功能限制:
不支持轉換為包年包月實例。
不支持變更實例規格和帶寬。
不支持備案服務。
不支持大客戶折扣。
競價資源特點
競價資源的市場價格會隨供需變化而浮動,相對于按量付費實例能最高節約90%的實例成本。
由于競價資源為阿里云所有用戶共同搶占,不是穩定承諾可用的計算資源,因此使用競價資源運行DLC任務時,需關注以下注意事項。
資源申請:使用競價資源的DLC任務提交后,即開始為用戶搶占實例資源,當阿里云的競價資源庫存不足時,有可能存在不能立即搶占到實例資源的情況,此時會持續為您申請競價資源,在此階段任務會表現為等待狀態。
資源回收:競價資源存在中斷回收機制,與市場價格、實例庫存以及創建任務時設置的單臺實例上限價格、實例使用時長有關。當您申請到競價資源后,DLC任務即開始創建并運行。當競價資源出價小于系統平均價格或資源庫存不足時,會被回收。此時DLC任務資源可能會在沒有任何提示的情況下被回收,任務表現為失敗結束。為了確保您的競價任務能夠持續穩定運行,您可以:
在提交競價任務時打開自動容錯(AIMaster)開關。開啟開關后,您的任務將自動進入競價隊列,再次參與競價,從而有機會再次運行起來。詳情請參見AIMaster:彈性自動容錯引擎。
使用EasyCkpt框架進行PyTorch大模型訓練。該訓練任務可以進行頻繁的Checkpoint保存,支持中斷和繼續訓練。詳情請參見EasyCkpt:AI大模型高性能狀態保存恢復。
計費規則
價格說明:
PAI競價任務的出價模式是設定您的最高價(SpotWithPriceLimit)。當DLC任務使用競價資源時,由于競價資源的市場價格會隨供需變化而浮動,因此使用相同的資源提交多個任務,其固定時間的賬單價格可能是相同的。競價資源支持使用的資源規格及出價范圍如下:
競價資源的價格會隨市場供需關系實時變化,最高出價是基于資源規格的原價,從1折到9折的離散選項。競價資源的實際市場價格和最高出價以控制臺顯示為準。
資源規格 | 市場價格區間(元/時) | 最高出價區間(元/時) |
ml.gu7ef.8xlarge-gu100 | 35.122~351.216 | 35.122~316.094 |
ml.gu7xf.8xlarge-gu108 | 31.609~316.092 | 31.609~284.483 |
ml.gu8xf.8xlarge-gu108 | 77.267~772.674 | 77.267~695.407 |
查看賬單:
任務執行成功后,您可以在次日訪問費用中心頁面,查看使用競價資源執行該任務產生的費用明細。類似于PAI-DLC后付費,您可以在阿里云賬單系統中查詢競價資源的訂單,可見使用競價資源的費用更低、更經濟。查看賬單明細的操作步驟,請參見查看賬單明細。
應用場景
適用場景:
建議以下場景使用競價資源來降低成本:
運行時間比較短的計算任務。
Debug狀態的計算任務。
能夠容忍過程中失敗的計算任務。
支持可中斷和繼續訓練的計算任務。例如使用EasyCkpt框架進行PyTorch大模型訓練的場景,能頻繁進行Checkpoint保存并從Checkpoint中恢復,詳情請參見EasyCkpt:AI大模型高性能狀態保存恢復。
不適用場景:
對穩定性要求極高的服務,請勿選擇競價資源。
操作步驟
使用靈駿智算資源提交DLC任務時使用競價資源,具體操作步驟如下:
進入新建任務頁面,詳情請參見步驟一:進入新建任務頁面。
配置以下關鍵參數,其他參數配置說明,請參見創建訓練任務。
參數
描述
資源信息
資源類型
選擇靈駿智算。
資源來源
選擇競價資源。
任務資源
在資源規格列,單擊選擇競價資源,并設置最高出價。該出價是基于實例的原價,從1折到9折的離散選項,表示參與競價的上限。當競價資源的最高出價≥市場價格且庫存充足時,可申請到競價資源。
專有網絡配置
專有網絡配置
在下拉框中選擇已創建好的專有網絡、交換機和安全組。
安全組
交換機
容錯與診斷
自動容錯
在提交競價任務時,強烈建議您打開自動容錯開關。開啟AIMaster功能后,競價任務可以在由于系統平均價格超過客戶設定的上限價格導致資源回收后, 自動重新進入競價中,再次進行嘗試競價。競價任務可以在系統平均價格低于設定的上限價格時再次運行。關于AIMaster功能更詳細的內容介紹,請參見AIMaster:彈性自動容錯引擎。
參數配置完成后,單擊確定。
任務提交后,DLC即開始申請競價資源,以創建并運行任務。如果未能申請到競價資源,此任務將顯示為等待狀態。