日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

提交命令

您可以通過客戶端工具提交多種類型的訓練任務。本文介紹提交任務相關的命令詳情,包括調用格式、參數解釋和使用示例。

提交任務的通用參數

使用DLC命令行提交TensorFlow(tfjob),PyTorch(pytorchjob),XGBoost(xgboostjob)任務時,存在通用的參數。通用參數列表如下

表 1. 提交任務的通用參數

參數

是否必選

描述

類型

任務參數描述文件中是否支持該參數

name

任務的名稱,多個任務名稱可以相同。

STRING

command

各個節點的啟動命令。

STRING

data_sources

綁定的數據集ID,您可以前往數據集管理頁面查看,詳情請參見創建及管理數據集。如存在多個,則以半角逗號(,)分隔,默認為空。

STRING

code_source

代碼集ID,您可以前往代碼集頁面查看,詳情請參見代碼配置。只傳入單個,默認為空。

STRING

code_branch

指定代碼倉庫的分支,與參數code_source配合使用。

STRING

code_commit

指定代碼倉庫的CommitId,與參數code_source配合使用。

STRING

thirdparty_libs

Python三方庫;若存在多個,則以半角逗號(,)分隔,默認為空。

STRING

thirdparty_lib_dir

Python三方庫安裝使用的requirements.txt文件所在文件夾,默認為空。

STRING

vpc_id

任務可訪問的專有網絡VPC的ID,默認為空。

STRING

switch_id

否(若存在vpc_id則為必選)

任務訪問的專有網絡VPC中的交換器ID,默認為空。

STRING

security_group_id

否(若存在vpc_id則為必選)

任務訪問的專有網絡VPC中的安全組ID,默認為空。

STRING

job_file

任務參數描述文件;如果傳入,會優先使用job_file中參數,格式為key=value的格式,key名稱與命令行參數名稱保持一致。

STRING

interactive

是否以交互模式啟動任務。

BOOL

job_max_running_time_minutes

任務的最大運行時長。默認值為0,表示不設置最大運行時長。

INT64

success_policy

目前僅支持TFJob,取值如下:

  • ChiefWorker:只要Chief節點的Pod成功結束,則整個任務就會成功結束。

  • AllWorkers:只有所有的節點都成功結束,才會認為任務成功結束。

默認為空表示AllWorkers。

STRING

envs

配置Worker的環境變量,環境變量之間通過半角逗號(,)分隔,環境變量的Key與Value之間通過等號分隔。格式為key1=value1,key2=value2。

StringToString

tags

配置作業的標簽,標簽之間通過半角逗號(,)分隔,標簽的Key與Value之間通過等號分隔。格式為:key1=value1,key2=value2

StringToString

oversold_type

配置作業閑時資源的使用方式,取值如下:

  • AcceptQuotaOverSold(可接受):作業可以接受使用閑時計算資源。

  • ForceQuotaOverSold(只接受):作業僅接受閑時計算資源。

  • ForbiddenQuotaOverSold(不接受):作業僅接受已關聯Quota內的資源,而不會使用閑時計算資源。

STRING

driver

配置作業使用的GPU驅動版本。

STRING

default_route

當選擇VPC時,配置訪問公網的方式,取值如下:

  • eth0(默認值):使用公有網關訪問公網。

  • eth1:使用專有網關,通過選擇的VPC訪問公網。

STRING

priority

配置作業的優先級,默認值為1,參數值的范圍是1~9。其中:

  • 1為最低優先級。

  • 9為最高優先級。

INT32

exit_code_on_stopped

以交互模式運行任務時,當任務被停止時指定命令行工具的退出碼,默認值是0。

INT32

job_reserved_minutes

設置任務結束時的保留時長,單位是分鐘,默認值是0。

INT32

job_reserved_policy

設置任務保留的策略,可選值:

  • Always(默認值):任務運行成功或失敗均保留。

  • OnFailure:當任務運行失敗時保留。

  • OnSucceed:當任務運行成功時保留。

STRING

提交TensorFlow訓練任務(submit tfjob)

  • 功能

    用于提交TensorFlow訓練任務。

  • 格式

    系統支持通過命令行參數或任務參數描述文件的方式提交TensorFlow任務。

    ./dlc submit tfjob [flags]
  • 參數

    如果通過命令行參數的方式提交TensorFlow任務,則需要將命令中的如下參數替換為實際值。如果通過任務參數描述文件的方式提交TensorFlow任務,則將任務參數描述文件中支持的參數以<parameterName>=<parameterValue>的形式寫入文件中。提交TensorFlow任務的通用參數如文章開頭的列表所示,以下為TensorFlow的任務特有參數:

    表 2. 提交TensorFlow任務的特有參數

    參數

    是否必選

    描述

    類型

    任務參數描述文件中是否支持該參數

    workspace_id

    工作空間的ID,(即作業提交DLC公共的工作空間)默認為空。如何創建工作空間可以參考創建工作空間。

    STRING

    chief

    是否啟用TensorFlow Chief節點,該參數取值包括:

    • false:默認值,表示關閉TensorFlow Chief節點。

    • true:表示開啟TensorFlow Chief節點。

    BOOL

    chief_image

    TensorFlow Chief節點的鏡像,默認值為空。

    STRING

    chief_spec

    TensorFlow Chief節點使用的服務器型號,默認值為空。

    STRING

    master_image

    TensorFlow Master節點的鏡像,默認值為空。

    STRING

    master_spec

    TensorFlow Master節點使用的服務器型號。

    STRING

    masters

    TensorFlow Master節點的數量,默認值為0。

    INT

    ps

    TensorFlow Parameter Server節點的數量,默認值為0。

    INT

    ps_image

    TensorFlow Parameter Server節點的鏡像,默認值為空。

    STRING

    ps_spec

    TensorFlow Parameter Server節點使用的服務器型號,默認值為空。

    STRING

    worker_image

    TensorFlow Worker節點的鏡像,默認值為空。

    STRING

    worker_spec

    TensorFlow Worker節點使用的服務器型號,默認值為空。

    STRING

    workers

    TensorFlow Worker節點的數量,默認值為0。

    INT

    evaluator_image

    TensorFlow Evaluators節點的鏡像,默認值為空。

    STRING

    evaluator_spec

    TensorFlow Evaluators節點使用的服務器型號,默認值為空。

    STRING

    evaluators

    TensorFlow Evaluators節點的數量,默認值為0。

    INT

    graphlearn_image

    TensorFlow GraphLearn節點的鏡像,默認值為空。

    STRING

    graphlearn_spec

    TensorFlow GraphLearn節點使用的服務器型號,默認值為空。

    STRING

    graphlearns

    TensorFlow GraphLearn節點的數量,默認值為0。

    INT

    表 3. 提交TensorFlow任務至專有資源組的特有參數

    參數

    是否必選

    描述

    類型

    任務參數描述文件中是否支持該參數

    resource_id

    否(若要提交任務至專有資源組則為必選)

    專有資源配額的ID,默認為空。如何創建專有資源配額可以參考通用計算資源配額。

    STRING

    priority

    任務優先級,默認為1。

    INT

    chief_cpu

    TensorFlow Chief節點使用CPU的個數,默認為空。

    STRING

    chief_gpu

    TensorFlow Chief節點使用GPU的個數,默認為空。

    STRING

    chief_gpu_type

    TensorFlow Chief節點使用GPU的類型,默認為空。示例值:GU50。

    STRING

    chief_memory

    TensorFlow Chief節點使用內存資源,默認為空。示例值:500 Mi,1 Gi。

    STRING

    chief_shared_memory

    TensorFlow Chief節點用于共享的內存資源,默認為空。示例值:500 Mi,1 Gi。

    STRING

    master_cpu

    TensorFlow Master節點使用CPU的個數,默認為空。

    STRING

    master_gpu

    TensorFlow Master節點使用GPU的個數,默認為空。

    STRING

    master_gpu_type

    TensorFlow Master節點使用GPU的類型,默認為空。示例值:GU50。

    STRING

    master_memory

    TensorFlow Master節點使用內存資源,默認為空。示例值:500 Mi,1 Gi。

    STRING

    master_shared_memory

    TensorFlow Master節點用于共享的內存資源,默認為空。示例值:500 Mi,1 Gi。

    STRING

    *_cpu

    TensorFlow *節點使用CPU的個數,默認為空。*可替換為(ps,worker,evaluator,graphlearn)。

    STRING

    *_gpu

    TensorFlow *節點使用GPU的個數,默認為空。*可替換為(ps,worker,evaluator,graphlearn)。

    STRING

    *_gpu_type

    TensorFlow *節點使用GPU的類型,默認為空。示例值:GU50。*可替換為(ps,worker,evaluator,graphlearn)。

    STRING

    *_memory

    TensorFlow *節點使用的內存資源,默認為空。示例值:500 Mi,1 Gi。*可替換為(ps,worker,evaluator,graphlearn)。

    STRING

    *_shared_memory

    TensorFlow *節點用于共享內存資源,默認為空。示例值:500 Mi,1 Gi。*可替換為(ps,worker,evaluator,graphlearn)。

    STRING

  • 示例

    • 通過命令行參數提交一個2 Worker+ 1 PS的分布式作業,示例如下。

      ./dlc submit tfjob --name=test_2021 --ps=1 \
        --ps_spec=ecs.g6.8xlarge \
        --ps_image=registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/tensorflow-training:1.12.2PAI-cpu-py27-ubuntu16.04 \
        --workers=2 \
        --worker_spec=ecs.g6.4xlarge \
        --worker_image=registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/tensorflow-training:1.12.2PAI-cpu-py27-ubuntu16.04 \
        --command="python /root/data/dist_mnist/code/dist-main.py --max_steps=10000 --data_dir=/root/data/dist_mnist/data/" \
        --workspace_id=***** \
        --data_sources=data-2021xxxxxxxxxx-xxxxxxxxxxxx

      系統返回如下類似結果。

      +----------------------------------+--------------------------------------+
      |              JobId               |              RequestId               |
      +----------------------------------+--------------------------------------+
      | dlcmp6vwljkz****                 | xxxxxxxx-79AF-4EFC-9CE9-xxxxxxxxxxxx |
      +----------------------------------+--------------------------------------+
    • 通過任務參數描述文件提交一個2 Worker+ 1 PS的分布式作業,示例如下。

      ./dlc submit tfjob --job_file=job_file.dist_mnist.1ps2w

      其中job_file.dist_mnist.1ps2w為任務參數描述文件,采用<parameterName>=<parameterValue>的格式填寫參數。job_file.dist_mnist.1ps2w的內容如下所示。

      name=test_2021
      workers=2
      worker_spec=ecs.g6.4xlarge
      worker_image=registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/tensorflow-training:1.12.2PAI-cpu-py27-ubuntu16.04
      ps=1
      ps_spec=ecs.g6.8xlarge
      ps_image=registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/tensorflow-training:1.12.2PAI-cpu-py27-ubuntu16.04
      command=python /root/data/dist_mnist/code/dist-main.py --max_steps=10000 --data_dir=/root/data/dist_mnist/data/
      workspace_id=*****
      data_sources=data-2021xxxxxxxxxx-xxxxxxxxxxxx

提交PyTorch訓練任務(submit pytorchjob)

  • 功能

    用于提交PyTorch訓練任務。

  • 格式

    系統支持通過命令行參數或任務參數描述文件的方式提交PyTorch任務。

    ./dlc submit pytorchjob [flags]
  • 參數

    如果通過命令行參數的方式提交PyTorch任務,則需要將命令中的如下參數替換為實際值。如果通過任務參數描述文件的方式提交PyTorch任務,則將任務參數描述文件中支持的參數以<parameterName>=<parameterValue>的形式寫入文件中。提交PyTorch任務的通用參數如文章開頭的列表所示,以下為PyTorch任務的特有參數:

    表 4. 提交PyTorch任務的特有參數

    參數名稱

    是否必選

    描述

    類型

    任務參數描述文件中是否支持該參數

    workspace_id

    工作空間的ID,(即作業提交DLC公共的工作空間)默認為空。如何創建工作空間可以參考創建工作空間

    STRING

    master_image

    PyTorch Master節點的鏡像,默認值為空。

    STRING

    master_spec

    PyTorch Master節點使用的服務器型號,默認值為空。

    STRING

    masters

    PyTorch Master節點的數量,默認值為0。

    INT

    worker_image

    PyTorch Worker節點的鏡像,默認值為空。

    STRING

    worker_spec

    PyTorch Worker節點使用的服務器型號,默認值為空。

    STRING

    workers

    PyTorch Worker節點的數量,默認值為0。

    INT

    表 5. 提交PyTorch任務至專有資源組的特有參數

    參數

    是否必選

    描述

    類型

    任務參數描述文件中是否支持該參數

    resource_id

    否(若要提交任務至專有資源組則為必選)

    專有資源配額的ID,默認為空。如何創建專有資源配額可以參考通用計算資源配額

    STRING

    priority

    任務優先級。默認為1。

    INT

    master_cpu

    PyTorch Master節點使用CPU的個數,默認為空。

    STRING

    master_gpu

    PyTorch Master節點使用GPU的個數,默認為空。

    STRING

    master_gpu_type

    PyTorch Master節點使用GPU的類型,默認為空。示例值:GU50。

    STRING

    master_memory

    PyTorch Master節點使用內存資源,默認為空。示例值:500 Mi,1 Gi。

    STRING

    master_shared_memory

    PyTorch Master節點用于共享的內存資源,默認為空。示例值:500 Mi,1 Gi。

    STRING

    worker_cpu

    PyTorch Worker節點使用CPU的個數,默認為空。

    STRING

    worker_gpu

    PyTorch Worker節點使用GPU的個數,默認為空。

    STRING

    worker_gpu_type

    PyTorch Worker節點使用GPU的類型,默認為空。示例值:GU50。

    STRING

    worker_memory

    PyTorch Worker節點使用內存資源,默認為空。示例值:500 Mi,1 Gi。

    STRING

    worker_shared_memory

    PyTorch Worker節點用于共享的內存資源,默認為空。示例值:500 Mi,1 Gi。

    STRING

  • 示例

    通過命令行參數提交一個GPU的模型訓練任務,示例如下。

    ./dlc submit pytorchjob --name=test_pt_face \
      --workers=1 \
      --worker_spec=ecs.gn6e-c12g1.3xlarge \
      --worker_image=registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/pytorch-training:1.7.1-gpu-py37-cu110-ubuntu18.04 \
      --command="apt-get update; apt-get -y --allow-downgrades install libpcre3=2:8.38-3.1 libpcre3-dev libgl1-mesa-glx libglib2.0-dev; cd /root/data/face; python train.py --num_workers 0 --save_folder outputs" \
      --data_sources=data-20210410224621-xxxxxxxxxxxx \
      --workspace_id=*****

    系統返回如下類似結果。

    +----------------------------------+--------------------------------------+
    |              JobId               |              RequestId               |
    +----------------------------------+--------------------------------------+
    | dlcu704xxuxk****                 | xxxxxxxx-79AF-4EFC-9CE9-xxxxxxxxxxxx |
    +----------------------------------+--------------------------------------+

提交XGBoost訓練任務(submit xgboostjob)

  • 功能

    用于提交XGBoost訓練任務。

  • 格式

    系統支持通過命令行參數或任務參數描述文件的方式提交XGBoost任務。

    ./dlc submit xgboostjob [flags]
  • 參數

    如果通過命令行參數的方式提交XGBoost任務,則需要將命令中的如下參數替換為實際值。如果通過任務參數描述文件的方式提交XGBoost任務,則將任務參數描述文件中支持的參數以<parameterName>=<parameterValue>的形式寫入文件中。提交XGBoost任務的通用參數如文章開頭的列表所示,以下為XGBoost任務的特有參數:

    表 6. 提交XGBoost任務的特有參數

    參數名稱

    是否必選

    描述

    類型

    任務參數描述文件中是否支持該參數

    workspace_id

    工作空間的ID,(即作業提交DLC公共的工作空間)默認為空。如何創建工作空間可以參考創建工作空間

    STRING

    master_image

    XGBoost Master節點的鏡像,默認值為空。

    STRING

    master_spec

    XGBoost Master節點使用的服務器型號,默認值為空。

    STRING

    masters

    XGBoost Master節點的數量,默認值為0。

    INT

    worker_image

    XGBoost Worker節點的鏡像,默認值為空。

    STRING

    worker_spec

    XGBoost Worker節點使用的服務器型號,默認值為空。

    STRING

    workers

    XGBoost Worker節點的數量,默認值為0。

    INT

    表 7. 提交XGBoost任務至專有資源組的特有參數

    參數

    是否必選

    描述

    類型

    任務參數描述文件中是否支持該參數

    resource_id

    否(若要提交任務至專有資源組則為必選)

    專有資源配額的ID,默認為空。如何創建專有資源配額可以參考通用計算資源配額。

    STRING

    priority

    任務優先級。默認為1。

    INT

    master_cpu

    XGBoost Master節點使用CPU的個數,默認為空。

    STRING

    master_gpu

    XGBoost Master節點使用GPU的個數,默認為空。

    STRING

    master_gpu_type

    XGBoost Master節點使用GPU的類型,默認為空。示例值:GU50。

    STRING

    master_memory

    XGBoost Master節點使用內存資源,默認為空。示例值:500 Mi,1 Gi。

    STRING

    master_shared_memory

    XGBoost Master節點用于共享的內存資源,默認為空。示例值:500 Mi,1 Gi。

    STRING

    worker_cpu

    XGBoost Worker節點使用CPU的個數,默認為空。

    STRING

    worker_gpu

    XGBoost Worker節點使用GPU的個數,默認為空。

    STRING

    worker_gpu_type

    XGBoost Worker節點使用GPU的類型,默認為空。示例值:GU50。

    STRING

    worker_memory

    XGBoost Worker節點使用內存資源,默認為空。示例值:500 Mi,1 Gi。

    STRING

    worker_shared_memory

    XGBoost Worker節點用于共享的內存資源,默認為空。示例值:500 Mi,1 Gi。

    STRING

  • 示例

    通過命令行參數提交一個XGBoost任務,示例如下。

    ./dlc submit xgboostjob --name=test_xgboost \
      --workers=1 \
      --worker_spec=ecs.gn6e-c12g1.3xlarge \
      --worker_image=xgboost-training:1.6.0-cpu-py36-ubuntu18.04 \
      --command="python /root/code/horovod/xgboost/main.py --job_type=Train --xgboost_parameter=objective:multi:softprob,num_class:3 --n_estimators=50 --model_path=autoAI/xgb-opt/2" \
      --workspace_id=*****

    系統返回如下類似結果。

    +----------------------------------+--------------------------------------+
    |              JobId               |              RequestId               |
    +----------------------------------+--------------------------------------+
    | dlc1nvu3gli0****                 | xxxxxxxx-79AF-4EFC-9CE9-xxxxxxxxxxxx |
    +----------------------------------+--------------------------------------+

提交任務時使用指定節點調度

使用靈駿智算或通用計算的資源配額提交任務時,您可以通過在DLC命令行中配置參數來調度指定節點。

說明

該功能暫時僅供白名單用戶使用。如有需要,請聯系您的商務經理添加白名單。

  • 參數

    參數

    描述

    示例值

    --allow_nodes="${allow_nodes}"

    指定節點名稱列表,多個節點名稱使用半角逗號(,)分隔,建議中間不要有空格。

    lingjuc47iextvg9-***,lingjuc47iextvg9-***

    --deny_nodes="${deny_nodes}"

    排除節點名稱列表,多個節點名稱使用半角逗號(,)分隔,建議中間不要有空格。

    lingjuc47iextvg9-***,lingjuc47iextvg9-***

  • 示例

    命令行參數

    • 不指定調度節點

      ./dlc submit pytorchjob --name=assign_node_test_no_node  \--workers=1 \
          --worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 \
          --command="sleep 1000" \
          --workspace_id='****' \
          --resource_id='quotau2h98mt****' \
          --worker_cpu="1" \
          --worker_memory='2Gi'  
    • 指定調度節點

      ./dlc submit pytorchjob --name=assign_node_test_2_allow_nodes  \--workers=1 \
          --worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 \
          --command="sleep 1000" \
          --workspace_id='****' \
          --resource_id='quotau2h98mt****' \
          --worker_cpu="1" \
          --worker_memory='2Gi' \
          --allow_nodes="lingjuc47iextvg9-****,lingjuc47iextvg9-****" 
    • 排除指定節點

       ./dlc submit pytorchjob --name=assign_node_test_two_deny_nodes  \--workers=1 \
          --worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 \
          --command="sleep 1000" \
          --workspace_id='****' \
          --resource_id='quotau2h98mt****' \
          --worker_cpu="1" \
          --worker_memory='2Gi' \
          --deny_nodes="lingjuc47iextvg9-****,lingjuc47iextvg9-****"
    • 指定調度節點&排除指定節點

      ./dlc submit pytorchjob --name=assign_node_test_two_allow_two_deny  \--workers=1 \
          --worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04 \
          --command="sleep 1000" \
          --workspace_id='****' \
          --resource_id='quotau2h98mt****' \
          --worker_cpu="1" \
          --worker_memory='2Gi' \
          --allow_nodes="lingjuc47iextvg9-****,lingjuc47iextvg9-****" \
          --deny_nodes="lingjuc47iextvg9-****,lingjuc47iextvg9-****"

    文件讀取

    • 命令行

      ./dlc submit pytorchjob -f job_file
    • job_file文件示例

      • 不指定調度節點

        name=assign_node_test_no_node
        workers=1
        worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04
        command=sleep 1000
        workspace_id=****
        resource_id=quotau2h98mt****
        worker_cpu=1
        worker_memory=2Gi
        
      • 指定調度節點

        name=assign_node_test_2_allow_nodes
        workers=1
        worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04
        command=sleep 1000
        workspace_id=****
        resource_id=quotau2h98mt****
        worker_cpu=1
        worker_memory=2Gi
        allow_nodes=lingjuc47iextvg9-****,lingjuc47iextvg9-****
        
      • 排除指定節點

        name=assign_node_test_two_allow_two_deny
        workers=1
        worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04
        command=sleep 1000
        workspace_id=****
        resource_id=quotau2h98mt****
        worker_cpu=1
        worker_memory=2Gi
        deny_nodes=lingjuc47iextvg9-****,lingjuc47iextvg9-****
        
      • 指定調度節點&排除指定節點

        name=assign_node_test_two_allow_two_deny
        workers=1
        worker_image=dsw-registry-vpc.****.cr.aliyuncs.com/pai/easyanimate:1.1.5-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04
        command=sleep 1000
        workspace_id=****
        resource_id=quotau2h98mt****
        worker_cpu=1
        worker_memory=2Gi
        allow_nodes=lingjuc47iextvg9-****,lingjuc47iextvg9-****
        deny_nodes=lingjuc47iextvg9-****,lingjuc47iextvg9-****
        

相關文檔

  • 任務提交成功后,您可以通過客戶端工具管理任務。具體操作,請參見停止命令查詢命令。

  • 您也可以通過控制臺管理已提交的任務。具體操作,請參見管理訓練任務