日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

使用GPU時出現XID 119/XID 120錯誤導致GPU掉卡

在Linux系統上使用GPU時,可能會因為GPU的GSP(GPU System Processor)組件運行狀態異常,導致GPU卡在初始化時提示失敗(例如出現XID 119或XID 120錯誤信息),本文為您介紹這種情況的解決方案。

問題現象

使用GPU時出現GPU掉卡現象,例如在Linux系統上使用GPU時,出現GPU卡初始化失敗的錯誤提示。執行sh nvidia-bug-report.sh nvidia-bug-report.sh命令后,在生成的日志中,可以看到XID 119或XID 120錯誤信息。以XID 119報錯頁面為例,顯示如下:

報錯信息.png

說明

關于其他XID Errors的更多信息,請參見NVIDIA Common XID Errors

問題原因

引起上述問題的原因可能是GPU的GSP(GPU System Processor)組件運行狀態異常,升級NVIDIA最新版本驅動后,如果GPU掉卡問題仍然會復現,則建議您關閉GSP功能。

說明

如果您想了解更多關于GSP功能的影響詳情,請參見開啟或關閉GSP功能的影響

解決方案

  1. 遠程連接GPU實例。

    具體操作,請參見通過密碼或密鑰認證登錄Linux實例

  2. 執行以下命令,關閉GPU的GSP組件。

    sudo su
    echo options nvidia NVreg_EnableGpuFirmware=0 > /etc/modprobe.d/nvidia-gsp.conf
  3. 重啟GPU實例。

    具體操作,請參見重啟實例

  4. 再次登錄GPU實例。

  5. 執行以下命令,查看EnableGpuFirmware參數值。

    cat /proc/driver/nvidia/params | grep EnableGpuFirmware:
    • 如果返回結果是EnableGpuFirmware: 0,則表示GPU的GSP組件關閉,問題已修復。

      Dingtalk_20240813131616.jpg

      說明

      只要EnableGpuFirmware: 0,則執行nvidia-smi檢查GPU卡狀態時,其返回結果肯定是正常的。

    • 如果返回結果不是EnableGpuFirmware: 0,則表示GSP組件沒有關閉,請繼續執行下一步確認NVIDIA GPU是否正常。

  6. 執行nvidia-smi命令,確認NVIDIA GPU卡是否正常。

    • 如果返回結果顯示GPU卡正常,例如GPU風扇轉速、溫度和性能模式等都正常,如下圖所示,則問題已解決。

      GPU卡.jpg

    • 如果返回結果異常,表示NVIDIA GPU卡仍然存在問題,請聯系阿里云運維技術人員進行關機遷移操作。