使用Pai-Megatron-Patch進行模型的訓練加速時,您需要先完成Pai-Megatron-Patch鏡像的安裝。本文為您介紹安裝Pai-Megatron-Patch鏡像的使用限制和操作要點。
使用限制
安裝Pai-Megatron-Patch鏡像時,僅支持使用GPU類型的實例。
顯卡驅動版本在460.32及以上。
操作步驟
在DLC中安裝Pai-Megatron-Patch鏡像
DLC為開發者和企業提供了云原生一站式的深度學習訓練平臺,為您提供靈活、穩定、易用和高性能的機器學習訓練環境。支持多種算法框架,超大規模分布式深度學習任務運行及自定義算法框架,為開發者和企業降本增效。
DLC提供了加載用戶自定義鏡像的能力,這極大方便了Pai-Megatron-Patch的部署。只需將鏡像地址傳給DLC,即可自動安裝Pai-Megatron-Patch鏡像,安裝完成后就可以在DLC上基于Pai-Megatron-Patch開展多機多卡超大規模分布式訓練。
具體安裝步驟如下。
登錄PAI控制臺。
在左側導航欄單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應工作空間內。
在工作空間頁面的左側導航欄選擇模型開發與訓練 > 分布式訓練(DLC),單擊新建任務。
關鍵配置信息如下所示,其他參數根據實際情況配置即可,參數詳情請參見創建訓練任務。
環境信息:節點鏡像選擇鏡像地址,并在鏡像地址的配置框中填寫Pai-Megatron-Patch鏡像地址:pai-image-manage-registry.cn-wulanchabu.cr.aliyuncs.com/pai/pytorch-training:2.0-ubuntu20.04-py3.10-cuda11.8-megatron-patch-llm
資源信息:
框架選擇PyTorch。
任務資源:在資源規格列單擊,選擇GPU類型的節點,并根據實際情況選擇具體節點規格。
單擊確定。
在DSW中安裝Pai-Megatron-Patch鏡像
DSW是為算法開發者量身打造的云端深度學習開發環境,集成JupyterLab,插件化深度定制化開發,無需任何運維配置,沉浸式體驗Notebook編寫、調試及運行Python代碼。支持開源框架的安裝,并提供阿里巴巴深度優化的Tensorflow框架,通過編譯優化提升訓練性能。
DSW也提供了加載用戶自定義鏡像的能力,只需將鏡像地址傳給DSW,即可自動安裝Pai-Megatron-Patch,安裝完成后就可以在DSW上基于Pai-Megatron-Patch調試訓練加速程序。
具體安裝步驟如下。
登錄PAI控制臺。
在左側導航欄單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應工作空間內。
在工作空間頁面的左側導航欄選擇模型開發與訓練 > 交互式建模(DSW),單擊創建實例。
關鍵配置信息如下所示,其他參數根據實際情況配置即可,參數詳情請參見創建DSW實例。
資源配額:選擇公共資源(后付費)。
資源規格:單擊,根據實際使用場景選擇所需的GPU類型的實例規格。
鏡像:在鏡像地址的配置框中填寫Pai-Megatron-Patch鏡像地址:
pai-image-manage-registry.cn-wulanchabu.cr.aliyuncs.com/pai/pytorch-training:2.0-ubuntu20.04-py3.10-cuda11.8-megatron-patch-llm
。
單擊確定,創建DSW實例。
安裝后使用
安裝Pai-Megatron-Patch鏡像后,您可以在Pai-Megatron-Patch的examples文件夾中查看相關示例并使用。