T4 GPU設備顯示異常
更新時間 2025-08-22 14:51:02
最近更新時間: 2025-08-22 14:51:02
分享文章
本文向您介紹如何解決T4 GPU設備顯示異常的問題。
問題描述
G6型或PI2型規格的GPU彈性云主機中,執行nvidia-smi命令查看GPU設備狀態或使用情況時,有如下問題:
單卡GPU彈性云主機上,報錯“No devices were found”。
多卡GPU彈性云主機上顯示卡數目不全,執行“lspci|grep -i nvidia“顯示GPU卡數目正常。
可能原因
NVIDIA Tesla T4 GPU默認使用并開啟GSP Firmware,導致GPU無法識別。
處理方法
執行以下命令,移除NVIDIA內核模塊。
rmmod nvidia_drm rmmod nvidi_modeset rmmod nvidia執行以下命令,關閉GSP Firmware開關,并載入NVIDIA內核模塊。
modprobe nvidia NVreg_EnableGpuFirmware=0 modprobe nvidia_drm modprobe nvidia_modeset
以上操作只對當前運行的系統生效。如需持久化設置,需要在配置文件/etc/modprobe.d/nvidia.conf中增加一行“options nvidia NVreg_EnableGpuFirmware=0“。
如果問題依然存在,請聯系客服,由技術支持人員處理。