實驗管理提供了通過TensorBoard可視化對比任務指標的功能,本文為您介紹如何在快速開始的微調訓練任務中使用實驗管理。
前提條件
如您需要使用TensorBoard進行指標可視化,則需要創建OSS Bucket存儲空間,具體操作請參見控制臺創建存儲空間。
使用費用
實驗管理本身并不收費,但使用快速開始進行模型訓練并把訓練任務關聯到實驗時,需要收取DLC訓練費用和OSS存儲費用,計費詳情請參見通用計算資源(DSW/DLC)計費說明和OSS計費概述。
關聯訓練任務到實驗
您可以在快速開始創建模型微調訓練任務時將任務關聯至一個新的或已有的實驗中,具體操作步驟如下:
在模型詳情頁面,單擊微調訓練。
在微調訓練詳情頁面實驗配置區域中,進行關聯實驗配置。
當您第一次使用實驗管理或需要將任務關聯至一個新的實驗時,選擇新建實驗,設置實驗名稱及實驗輸出路徑。
說明關聯到實驗的所有任務的輸出數據路徑,如模型、TensorBoard Log等,都將使用實驗輸出路徑作為默認路徑。
如果您需要自定義任務輸出路徑,可以在訓練輸出配置中具體配置。但如果您修改了默認的TensorBoard路徑,會導致該任務無法在實驗的TensorBoard中與其他任務的指標進行可視化對比,因此建議您使用默認路徑。
您也可以選擇將任務關聯至已有實驗。
微調訓練任務的其他參數配置請參見模型部署及訓練。
單擊訓練。
頁面自動跳轉到任務詳情頁面。您可以查看到該任務關聯的實驗名稱,任務的超參數等元數據。
查看實驗及打開TensorBoard
關聯到同一個實驗的訓練任務之間可以在實驗的Tensorboard實例中進行train_loss
、total_flos
等訓練指標的可視化對比,具體步驟如下:
在快速開始首頁,單擊任務管理。
在任務管理頁面查看所有實驗,選擇您需要進行任務指標對比的實驗,點擊Tensorboard。
會自動打開一個Tensorboard實例。
當Tensorboard狀態變為運行中,點擊前往查看,會自動打開并跳轉至一個新的標簽頁。
您可以在該頁面中查看到關聯到實驗的所有訓練任務的指標,不同模型記錄的訓練任務指標可能會有所不同
在TensorBoard中對比任務指標
您可以通過選擇Horizontal Axis下的不同選項切換直角坐標系的橫坐標。
STEP:模型訓練的步數。
RELATIVE:相對時間,例如訓練開始后的0.5小時,以小時為單位。
WALL:絕對時間,例如2024年4月2日上午十點,以小時為單位。
常見的指標:
loss:損失,指的是模型預測結果與真實結果之間的差異。
accuracy/precision/recall: 精度指標。
也可以通過勾選/取消勾選任務ID前的復選框,選擇要進行指標對比的任務。
當幾個任務在某個指標的值比較相近時,可以點擊直角坐標系下方中間的按鈕,指標值將自動聚焦在數據差異較大的部分。
也可以點擊最左側按鈕,查看大圖。