在Linux系統上使用GPU時,可能會因為GPU的GSP(GPU System Processor)組件運行狀態異常,導致GPU卡在初始化時提示失敗(例如出現XID 119或XID 120錯誤信息),本文為您介紹這種情況的解決方案。
問題現象
使用GPU時出現GPU掉卡現象,例如在Linux系統上使用GPU時,出現GPU卡初始化失敗的錯誤提示。執行sh nvidia-bug-report.sh nvidia-bug-report.sh
命令后,在生成的日志中,可以看到XID 119或XID 120錯誤信息。以XID 119報錯頁面為例,顯示如下:
關于其他XID Errors的更多信息,請參見NVIDIA Common XID Errors。
問題原因
引起上述問題的原因可能是GPU的GSP(GPU System Processor)組件運行狀態異常,升級NVIDIA最新版本驅動后,如果GPU掉卡問題仍然會復現,則建議您關閉GSP功能。
如果您想了解更多關于GSP功能的影響詳情,請參見開啟或關閉GSP功能的影響。
解決方案
遠程連接GPU實例。
具體操作,請參見通過密碼或密鑰認證登錄Linux實例。
執行以下命令,關閉GPU的GSP組件。
sudo su echo options nvidia NVreg_EnableGpuFirmware=0 > /etc/modprobe.d/nvidia-gsp.conf
重啟GPU實例。
具體操作,請參見重啟實例。
再次登錄GPU實例。
執行以下命令,查看
EnableGpuFirmware
參數值。cat /proc/driver/nvidia/params | grep EnableGpuFirmware:
如果返回結果是
EnableGpuFirmware: 0
,則表示GPU的GSP組件關閉,問題已修復。說明只要
EnableGpuFirmware: 0
,則執行nvidia-smi
檢查GPU卡狀態時,其返回結果肯定是正常的。如果返回結果不是
EnableGpuFirmware: 0
,則表示GSP組件沒有關閉,請繼續執行下一步確認NVIDIA GPU是否正常。
執行
nvidia-smi
命令,確認NVIDIA GPU卡是否正常。如果返回結果顯示GPU卡正常,例如GPU風扇轉速、溫度和性能模式等都正常,如下圖所示,則問題已解決。
如果返回結果異常,表示NVIDIA GPU卡仍然存在問題,請聯系阿里云運維技術人員進行關機遷移操作。