支持對訓練任務的資源健康度與性能進行檢查,提升訓練成功率及問題診斷效率。
適用客戶
AI大模型訓練場景的客戶。
新增功能/規格
算力健康檢測(Sanity Check)功能,旨在對分布式訓練任務的算力資源健康度與性能進行檢查。在創建DLC訓練任務時可以開啟該功能,健康檢測會對參與訓練的資源進行全面檢測,自動隔離故障節點,并觸發后臺自動化運維流程,有效減少任務訓練初期遇到問題的可能性,提升訓練成功率。在檢測完成后,會給出有關GPU算力以及通信性能的檢測報告,可以幫助識別和定位可能導致任務訓練性能下降的問題元素,整體提升問題診斷的效率。
目前僅支持在華北6(烏蘭察布)地域,使用靈駿智算資源提交的DLC訓練任務,開啟健康檢測功能。
產品文檔
文檔內容是否對您有幫助?