日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

安裝和使用Deepytorch Training

Deepytorch Training是阿里云自研的AI加速器,面向傳統AI和生成式AI場景,在模型訓練過程中,可提供顯著的訓練加速能力。本文主要介紹安裝并使用Deepytorch Training的操作方法。

說明

關于Deepytorch Training的更多信息,請參見什么是Deepytorch Training(訓練加速)

前提條件

已創建阿里云GPU實例,且GPU實例需滿足以下要求:

  • 操作系統為Alibaba Cloud Linux、CentOS 7.x、Ubuntu 18.04或更高版本。

  • 已安裝NVIDIA Driver、CUDA且滿足相應的版本要求。

    創建GPU實例時,選擇鏡像后,建議您同時選中安裝GPU驅動選項,然后依次選擇CUDA版本、Driver版本以及cuDNN版本,具體操作,請參見創建GPU實例

  • 已安裝PyTorch且滿足相應的版本要求。

支持的版本列表

Deepytorch Training支持多種PyTorch、CUDA以及Python版本。版本對應關系如下所示:

PyTorch Version

CUDA Runtime Version

Python Version

1.10.x

11.1/11.3

3.8/3.9

1.11.x

11.3

3.8/3.9/3.10

1.12.x

11.3/11.6

3.8/3.9/3.10

1.13.x

11.6/11.7

3.8/3.9/3.10

2.0.x

11.7/11.8

3.8/3.9/3.10/3.11

2.1.x

11.8/12.1

3.8/3.9/3.10/3.11

2.2.x

11.8/12.1

3.8/3.9/3.10/3.11

安裝Deepytorch Training

以安裝2.1.0版本的Deepytorch Training為例,執行pip install deepgpu命令即可安裝Deepytorch Training。

說明

Deepytorch Training屬于DeepGPU的工具包之一,DeepGPU會根據您當前的軟件環境自動匹配對應的Deepytorch Training安裝包。

pip3 install deepgpu==2.1.0

使用Deepytorch Training

您僅需要在模型的訓練腳本開頭增加一行代碼,即可啟用Deepytorch Training優化功能,增加的代碼如下所示:

import deepytorch  # 導入deepytorch庫
說明

import deepytorch需要在import torch命令行之前增加。

訓練效果驗證

本示例以ResNet50模型為例,通過Deepytorch訓練該模型,其加速優化效果如下。

其中,PyTorch為2.2.0版本,GPU實例規格為ecs.ebmgn7vx.32xlarge

  1. 執行以下代碼,進入示例代碼目錄。

    cd `echo $(python -c "import deepytorch; print(deepytorch)") | cut -d\' -f 4 | sed "s/\_\_init\_\_\.py//"`examples/DDPBenchmark
  2. 訓練ResNet50模型。

    本示例中使用單機8卡機型,其中batch size為512。

    • 使用原生PyTorch訓練模型

      bash run_benchmark.sh 1 0 8

      原生PyTorch訓練結果如下所示,訓練吞吐量為每秒1571張圖片。

      image

    • 使用Deepytorch加速訓練模型

      bash run_benchmark_deepgpu.sh 1 0 8

      Deepytorch訓練結果如下所示,訓練吞吐量為每秒2908張圖片。

      image

    說明
    • 如果使用單機非8卡機型,請將示例代碼中最后的數字修改為實際對應的卡數。例如,選擇單機2卡機型時,使用Deepytorch加速訓練模型時,代碼如下:

      bash run_benchmark_deepgpu.sh 1 0 2
    • 如果訓練日志出現OOM報錯,請您自行修改run_benchmark.shrun_benchmark_deepgpu.sh腳本中的--batch-size為256或128。

  3. 對比ResNet50模型的訓練加速效果。

    使用原生PyTorch訓練模型后,訓練吞吐量為每秒1571張圖片。而使用Deepytorch加速訓練模型后,訓練吞吐量為每秒2908張圖片,相比原生PyTorch,使用Deepytorch訓練性能提升了85%(加速效果顯著)。