本文為您介紹DSW完整的使用流程。
步驟一:準備工作
準備資源組
創建DSW實例前,您需要準備好訓練任務所需的通用計算資源(包括公共資源組和專有資源組)或靈駿智算資源(包括專有資源組)。
公共資源組:在開通PAI并完成DLC授權后,系統將為您準備好公共資源組,無需手動添加。
專有資源組:如果您需要使用專有資源組,則需要先購買并配置資源組,詳情請參見新建及管理通用計算資源和新建資源組并購買靈駿智算資源。
(可選)準備數據集
創建DSW實例時,實例的默認存儲方式如下:
使用公共資源組創建DSW實例時,PAI將贈送免費云盤,默認云盤存儲空間有限。實例停止不會影響云盤,在刪除實例后,云盤數據將被清空。
使用專有資源組創建DSW實例時,DSW實例使用自帶的系統盤作為臨時存儲。在停止或刪除實例后,臨時存儲將被清空。
您可以通過掛載數據集來擴展實例的存儲空間,實現數據持久化存儲。目前支持掛載OSS、NAS和CPFS類型的數據集,如何創建數據集,請參見創建及管理數據集。
(可選)準備鏡像
創建DSW實例前,您需要準備好需要安裝的鏡像,DSW實例將基于所選擇的鏡像來構建運行環境。目前支持選擇以下類型的鏡像:
官方鏡像
DSW預置了多種類型的官方鏡像,例如pytorch、tensorflow、modelscope等。每種鏡像均提供了不同的版本,以滿足您對特定框架版本的需求,從而方便您進行模型開發、訓練和部署等工作。
自定義鏡像
您也可以使用已創建的自定義鏡像來滿足特定場景下的開發需求。關于如何創建自定義鏡像,請參見自定義鏡像。
步驟二:創建及訪問DSW實例
創建實例
完成上述準備工作后,您可以創建DSW實例,請參見創建DSW實例。
管理實例
實例創建完成之后,您可以管理實例的生命周期,對實例進行啟動、停止和刪除等操作。您也可以更換實例配置,如實例規格、鏡像和數據集等。具體方法請參見 管理DSW實例。
為了優化節約成本,建議您配置好閑置關機和定時關機策略。對于免費試用計劃的實例,DSW實例自動開啟閑置關機;通用場景下,用戶管理員可以在工作空間調度中心配置資源回收策略,請參見工作空間調度中心。此外,建議您在不需要使用DSW實例時,及時停止實例。需要注意的是,臨時存儲的數據在停止實例后將被清空,請及時導出數據。
訪問實例
推薦您通過控制臺打開DSW實例,DSW提供了豐富的IDE環境,包含Notebook、WebIDE和Terminal工具,并且可以查看資源水位等,使用方法請參見訪問DSW實例。您也可以通過SSH遠程連接DSW實例,具體操作請參見連接DSW實例。
步驟三:使用DSW實例
模型開發與訓練
您可以直接在DSW實例頁面進行模型開發,DSW實例提供了交互式的開發環境,便于調試代碼和查看運行結果。您可以管理第三方庫,以滿足特定的環境需求。
分布式訓練的具體操作,請參見創建訓練任務。
模型部署
您可以將訓練好的模型部署為EAS在線服務,以實現模型推理功能。具體操作,請參見模型部署。
數據傳輸
除了掛載數據集之外,DSW在使用過程中還支持接入多種數據源,包括OSS和MaxCompute。您可以將開發所需的數據文件從不同的數據源導入到DSW實例中,并將處理后的數據導出到指定的數據源,請參見讀寫數據。
此外,DSW實例還提供了數據上傳和下載功能,以及Notebook的導出和分享功能,請參見文件傳輸與處理。
步驟四:玩轉DSW實例
最佳實踐
DSW Gallery提供了豐富的Notebook案例,包括LLM、AIGC前沿領域,覆蓋了Llama2、通義千問、Stable Diffusion等熱門模型,您可以選擇感興趣的內容,在DSW一鍵直接運行,以及進行二次開發。請參見Notebook Gallery。
高階功能
除了上述功能之外,DSW還支持以下高階應用場景:
在DSW利用Tensorboard進行訓練可視化,請參見Tensorboard:訓練可視化。
在DSW運行R語言,請參見DSW支持R語言。
在DSW使用SQL查詢MaxCompute數據源,請參見使用SQL File查詢MaxCompute表。
在DSW連接EMR集群,提交Spark作業,請參見DSW連接EMR集群。
更多操作實踐,請參見DSW使用案例匯總。