本文介紹彈性裸金屬AI訓練的場景描述、解決問題、架構圖及操作參考鏈接。
場景描述
本方案適用于AI圖片訓練場景,尤其是對性能要求苛刻、業務交付緊迫的場景。例如自動駕駛的模型訓練(圖片)等AI模型訓練的場景。 本方案使用了SCC超級計算集群,采用彈性裸金屬GPU服務器、并行文件系統CPFS、RDMA網絡、阿里云容器服務Kubernetes版和飛天AI加速訓練工具,提供性能穩定的訓練環境,保障業務能力。
解決問題
搭建AI圖片訓練基礎環境。
使用CPFS存儲訓練數據。
使用飛天AI加速訓練工具加速訓練。
使用Arena一鍵提交作業。
架構圖
參考鏈接
有關彈性裸金屬AI訓練的詳情,請參見彈性裸金屬AI訓練。
文檔內容是否對您有幫助?