本文為您介紹在快速開始(QuickStart)中部署或微調訓練模型時常見的問題及解決方式。
訓練任務失敗后,如何排查失敗原因?
訓練任務失敗有很多可能的原因,比如用戶準備的數據集格式不符合要求等。您可以嘗試通過以下方式排查失敗原因:
查看任務診斷:在任務管理 > 訓練任務中單擊指定任務,在任務詳情頁簽下鼠標懸停于失敗,系統會顯示錯誤原因及解決辦法。
查看任務日志:在任務管理 > 訓練任務中單擊指定任務,在任務日志頁簽下查看錯誤信息:
具體錯誤信息對應解決方法如下:
錯誤類型
錯誤信息
解決辦法
輸入/輸出錯誤相關
ValueError: output channel ${your OSS uri} must be directory
檢查訓練設置的輸出路徑是否為文件夾,系統要求輸出路徑必須是一個文件夾。
ValueError:train must be a file
檢查選擇的輸入路徑是否為文件,系統要求輸入路徑必須是文件。
FileNotFoundError
檢查選擇的輸入路徑是否存在符合要求的文件。
JSONDecodeError
檢查輸入的JSON文件格式是否正確。
KeyError:${some key name}
多見于JSON格式訓練集文件,根據模型說明頁面檢查訓練集文件各個key-value值是否符合模型要求。
超參數配置相關
ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: -9) local_rank: 0 (pid: 51) of binary: /usr/bin/python(且沒有相關subprocess的日志)
當前機型內存不足,加載模型時OOM(Out of Memory),請選擇內存更大的機型。
torch.cuda.OutOfMemoryError: CUDA out of memory
當前機型顯存不足,需要選擇顯存更大的GPU機型或者降低涉及顯存的相關超參數配置,如:lora dim,batch size。
ValueError: No closing quotation
提供的system prompt(也可能是其他參數)中出現了單個
"
,導致算法生成training command失敗。需要刪除單個"
,或補齊成對出現。