提交Tensorflow訓練任務和定時任務
本文介紹如何在AI開發(fā)控制臺提交一個TensorFlow訓練任務和定時任務。
前提條件
- 創(chuàng)建ACK Pro版集群。
- ACK Pro版集群已安裝云原生AI套件的開發(fā)控制臺和調(diào)度組件,且集群Kubernetes版本不低于1.20。
- 集群管理員在RAM控制臺創(chuàng)建子賬號(即RAM用戶),并為該子賬號分配和關(guān)聯(lián)配額組。具體操作,請參見步驟一:為用戶配置配額組。
已配置訓練數(shù)據(jù)或訓練代碼。具體操作,請參見配置訓練數(shù)據(jù)和代碼。
提交Tensorflow訓練任務
- 登錄開發(fā)控制臺。具體操作,請參見步驟二:登錄開發(fā)控制臺。
在AI開發(fā)控制臺的左側(cè)導航欄中,單擊提交任務。
在基本信息區(qū)域:
配置任務名稱、任務類型(默認值為TF單機)、命名空間、執(zhí)行命令等。
重要命名空間只能選擇為集群管理員為您分配的命名空間,其他選項可根據(jù)需要配置。
可選:打開Tensorboard開關(guān),可視化查看訓練作業(yè)。
可選:打開定時任務開關(guān),配置定時任務。
定時策略:標準的Crontab表達式。關(guān)于如何使用Crontab表達式,請參見how-use-cron-linux。
如果當前訓練任務尚未結(jié)束,定時任務的并行策略支持以下三種:
Allow:允許創(chuàng)建新的訓練任務。
Forbid:在訓練任務結(jié)束前,禁止創(chuàng)建新的任務。
Replace:創(chuàng)建一個新的訓練任務,替換當前未結(jié)束的任務。
歷史記錄數(shù)量:集群中會保留該定時任務創(chuàng)建Tensorflow訓練任務數(shù)量,超過該數(shù)量,會自動刪除創(chuàng)建時間最早的Tensorflow訓練任務。
在任務資源配置區(qū)域,配置模型訓練的實例數(shù)量和鏡像,以及訓練任務需要的CPU(核數(shù))(默認值為4)、內(nèi)存(GB)(默認值為8 GB)、GPU(卡數(shù))(默認值為0)。
在高級配置區(qū)域,配置K8s對象的元數(shù)據(jù)label、annotation和nodeSelection。
單擊提交任務。
在AI開發(fā)控制臺的左側(cè)導航欄中,單擊任務列表,查看任務的名稱、執(zhí)行狀況等信息。