PowerEdge: NVIDIA-drivrutinsfel: nvidia-smi misslyckades eftersom det inte kunde kommunicera med NVIDIA-drivrutinen
Summary: När du kör kommandot nvidia-smi kan du stöta på ett drivrutinsfel som säger att "nvidia-smi har misslyckats eftersom det inte kunde kommunicera med NVIDIA-drivrutinen.
Symptoms
Informationen nvidia-smi Kommandot kan inte köras och returnerar felmeddelandet:
nvidia-smi has failed because it could not communicate with the NVIDIA driver.
NVIDIA GPU-information visas inte när du kör nvidia-smi.
nvidia-smi has failed because it could not communicate with the NVIDIA driver
NVRM: nvidia_ctl_session_announce failed as driver unload is in progress.
Cause
Felet "nvidia-smi has failed because it could not communicate with the NVIDIA driver" kan orsakas av flera faktorer:
-
NVIDIA-drivrutinen är inte installerad eller skadad: NVIDIA-drivrutinen kanske inte är installerad på systemet, eller så kan installationen vara skadad, vilket orsakar
nvidia-smiverktyget att misslyckas när du försöker interagera med GPU:n. -
Drivrutinsinkompatibilitet: Den version av NVIDIA-drivrutinen som är installerad kanske inte är kompatibel med GPU:n eller operativsystemet, vilket leder till kommunikationsproblem.
-
NVIDIA-kärnmodulen är inte inläst: Den obligatoriska NVIDIA-kärnmodulen (
nvidia.ko) kanske inte laddas in i systemet, vilket förhindrar korrekt kommunikation mellannvidia-smiverktyget och GPU:n. -
GPU-initieringsfel: GPU:n kanske inte har initierats korrekt under starten eller på grund av ett maskinvarufel, vilket innebär att
nvidia-smiinte kan upprätta kommunikation med den. -
Motstridiga drivrutinsversioner: Motstridiga eller flera GPU-drivrutiner (till exempel Nouveau-drivrutiner med öppen källkod eller äldre NVIDIA-drivrutinsversioner) kan vara installerade, vilket gör att systemet inte kan läsa in rätt NVIDIA-drivrutin.
-
Felaktig hårdvara: Det kan finnas ett maskinvaruproblem med själva GPU:n, till exempel ett fysiskt fel, överhettning eller felaktig anslutning, som hindrar systemet från att komma åt den.
-
NVIDIA-licens saknas eller har löpt ut (för vGPU-konfigurationer): I virtualiserade miljöer kan en saknad eller utgången NVIDIA vGPU-licens hindra drivrutinen från att fungera korrekt, vilket leder till kommunikationsfel.
-
Systemuppdateringar eller kerneländringar: De senaste uppdateringarna av operativsystemet eller ändringar av kerneln kan ha påverkat NVIDIA-drivrutinens kompatibilitet eller funktionalitet, vilket gör att den misslyckas.
Lös problemet genom att kontrollera drivrutinsinstallationen, kontrollera att rätt drivrutin har lästs in och se till att maskinvaran och programvaran är kompatibla.
Resolution
Steg-för-steg-manual för att aktivera vGPU i ESXi 7.0 och senare:
-
Installera NVIDIA vGPU Manager:
- Hämta den senaste versionen av NVIDIA vGPU Manager för VMware ESXi från NVIDIA:s webbplats
.
- Använd SSH för att komma åt ESXi-värden eller ESXi-gränssnittet för att installera vGPU Manager-paketet.
- Hämta den senaste versionen av NVIDIA vGPU Manager för VMware ESXi från NVIDIA:s webbplats
-
Installera NVIDIA vGPU-drivrutinerna i virtuella maskiner (VM):
- För varje virtuell dator som använder vGPU installerar du lämplig NVIDIA GPU-drivrutin i gästoperativsystemet (till exempel Windows, Linux).
- Hämta drivrutinerna från NVIDIA-webbplatsen för det specifika operativsystemet.
- Installera drivrutinerna i den virtuella datorn på samma sätt som på en fysisk dator.
-
Starta om ESXi-värden:
- När du har installerat NVIDIA vGPU Manager startar du om ESXi-värden för att ändringarna ska börja gälla.
-
Kontrollera om NVIDIA-drivrutinen är laddad:
- Kör kommandot:
esxcli system module list | grep nvidia
- Det här alternativet kontrollerar om NVIDIA-kärnmodulen är inläst.
- Kör kommandot:
-
Läs in NVIDIA-drivrutinen manuellt (om den inte är inläst):
- Om NVIDIA-modulen inte läses in kan du läsa in den manuellt genom att köra:
esxcli system module load --module=nvidia
- Om NVIDIA-modulen inte läses in kan du läsa in den manuellt genom att köra:
-
Aktivera maskinvaruvirtualisering (om detta inte är aktiverat):
- Logga in på ESXi-värden via ESXi-värdklienten eller vSphere-klienten.
- Kontrollera att Intel VT-x eller AMD-V är aktiverat i BIOS/UEFI på den fysiska servern. De här alternativen krävs för virtualisering.
-
Kontrollera om NVIDIA GPU identifieras:
- Kör kommandot:
lspci | grep -i nvidia
- Det här alternativet kontrollerar om NVIDIA GPU detekteras av ESXi.
- Kör kommandot:
-
Kontrollera om det finns fel i systemloggarna:
- Använd kommandot för att hitta specifika felmeddelanden relaterade till NVIDIA-drivrutinen:
tail -f /var/log/vmkernel.log
- Använd kommandot för att hitta specifika felmeddelanden relaterade till NVIDIA-drivrutinen:
-
Kontrollera NVIDIA-specifika loggar:
- Granska de NVIDIA-specifika loggarna som finns på:
/var/log/nvidia-installer.log
- Granska de NVIDIA-specifika loggarna som finns på:
-
Konfigurera vGPU i vSphere:
- Öppna vSphere Client och navigera till ESXi-värden.
- Högerklicka på den virtuella dator som använder vGPU och välj Redigera inställningar.
- På fliken VM-maskinvara klickar du på Lägg till ny enhet och väljer PCI-enhet.
- Välj den NVIDIA GPU (vGPU) som du vill tilldela till den virtuella datorn.
- Välj önskad vGPU-profil (till exempel GRID, vComputeServer osv.) beroende på tillgängliga GPU-resurser och licensiering.
-
Tilldela en vGPU-profil:
- När du konfigurerar den virtuella datorn tilldelar du en vGPU-profil som avgör hur mycket av den fysiska GPU:ns resurser som ska allokeras till varje virtuell dator. Profilalternativen beror på GPU-modellen.
-
Konfigurera NVIDIA-licens:
- Se till att rätt NVIDIA vGPU-licens är installerad på ESXi-värden.
- Om du vill installera eller uppdatera vGPU-licensen använder du vGPU-licensieringsverktyget som medföljer NVIDIA vGPU-paketet.
- Licensen krävs för att vGPU-funktionen ska fungera korrekt och den kan tillämpas på ESXi-värden via kommandoraden.
-
Kontrollera att vGPU är aktiverat:
- När du har konfigurerat vGPU:n kontrollerar du att den känns igen korrekt i den virtuella maskinen.
- Logga in på VM och kör följande kommando:
nvidia-smi
- Då bör status för den virtuella grafikprocessorn visas, ungefär som på en fysisk dator.
Additional Information
Dell bör föreslå att kunden öppnar ett ärende hos NVIDIA för vGPU-relaterade problem genom att antingen skicka ett e-postmeddelande till enterprisesupport@nvidia.com ELLER genom att skicka in ett webbärende via deras portal eller kontakta dem via telefon.
Webbportal: https://www.nvidia.com/en-us/support/
Telefonsupport: