PowerEdge: NVIDIA-drivrutinsfel: nvidia-smi misslyckades eftersom det inte kunde kommunicera med NVIDIA-drivrutinen

Summary: När du kör kommandot nvidia-smi kan du stöta på ett drivrutinsfel som säger att "nvidia-smi har misslyckats eftersom det inte kunde kommunicera med NVIDIA-drivrutinen.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Informationen nvidia-smi Kommandot kan inte köras och returnerar felmeddelandet:

nvidia-smi has failed because it could not communicate with the NVIDIA driver.

NVIDIA GPU-information visas inte när du kör nvidia-smi.

nvidia-smi has failed because it could not communicate with the NVIDIA driver
NVIDIA-SMI har misslyckats felmeddelande

NVRM: nvidia_ctl_session_announce failed as driver unload is in progress.
nvidia_ctl_session_announce misslyckat meddelande

 

Cause

Felet "nvidia-smi has failed because it could not communicate with the NVIDIA driver" kan orsakas av flera faktorer:

  • NVIDIA-drivrutinen är inte installerad eller skadad: NVIDIA-drivrutinen kanske inte är installerad på systemet, eller så kan installationen vara skadad, vilket orsakar nvidia-smi verktyget att misslyckas när du försöker interagera med GPU:n.

  • Drivrutinsinkompatibilitet: Den version av NVIDIA-drivrutinen som är installerad kanske inte är kompatibel med GPU:n eller operativsystemet, vilket leder till kommunikationsproblem.

  • NVIDIA-kärnmodulen är inte inläst: Den obligatoriska NVIDIA-kärnmodulen (nvidia.ko) kanske inte laddas in i systemet, vilket förhindrar korrekt kommunikation mellan nvidia-smi verktyget och GPU:n.

  • GPU-initieringsfel: GPU:n kanske inte har initierats korrekt under starten eller på grund av ett maskinvarufel, vilket innebär att nvidia-smi inte kan upprätta kommunikation med den.

  • Motstridiga drivrutinsversioner: Motstridiga eller flera GPU-drivrutiner (till exempel Nouveau-drivrutiner med öppen källkod eller äldre NVIDIA-drivrutinsversioner) kan vara installerade, vilket gör att systemet inte kan läsa in rätt NVIDIA-drivrutin.

  • Felaktig hårdvara: Det kan finnas ett maskinvaruproblem med själva GPU:n, till exempel ett fysiskt fel, överhettning eller felaktig anslutning, som hindrar systemet från att komma åt den.

  • NVIDIA-licens saknas eller har löpt ut (för vGPU-konfigurationer): I virtualiserade miljöer kan en saknad eller utgången NVIDIA vGPU-licens hindra drivrutinen från att fungera korrekt, vilket leder till kommunikationsfel.

  • Systemuppdateringar eller kerneländringar: De senaste uppdateringarna av operativsystemet eller ändringar av kerneln kan ha påverkat NVIDIA-drivrutinens kompatibilitet eller funktionalitet, vilket gör att den misslyckas.

    Lös problemet genom att kontrollera drivrutinsinstallationen, kontrollera att rätt drivrutin har lästs in och se till att maskinvaran och programvaran är kompatibla.

 

Resolution

Steg-för-steg-manual för att aktivera vGPU i ESXi 7.0 och senare:

  • Installera NVIDIA vGPU Manager:

    • Hämta den senaste versionen av NVIDIA vGPU Manager för VMware ESXi från NVIDIA:s webbplatsDen här hyperlänken tar dig till en webbplats utanför Dell Technologies..
    • Använd SSH för att komma åt ESXi-värden eller ESXi-gränssnittet för att installera vGPU Manager-paketet.
  • Installera NVIDIA vGPU-drivrutinerna i virtuella maskiner (VM):

    • För varje virtuell dator som använder vGPU installerar du lämplig NVIDIA GPU-drivrutin i gästoperativsystemet (till exempel Windows, Linux).
    • Hämta drivrutinerna från NVIDIA-webbplatsen för det specifika operativsystemet.
    • Installera drivrutinerna i den virtuella datorn på samma sätt som på en fysisk dator.
  • Starta om ESXi-värden:

    • När du har installerat NVIDIA vGPU Manager startar du om ESXi-värden för att ändringarna ska börja gälla.
  • Kontrollera om NVIDIA-drivrutinen är laddad:

    • Kör kommandot:
      esxcli system module list | grep nvidia
    • Det här alternativet kontrollerar om NVIDIA-kärnmodulen är inläst.
  • Läs in NVIDIA-drivrutinen manuellt (om den inte är inläst):

    • Om NVIDIA-modulen inte läses in kan du läsa in den manuellt genom att köra:
      esxcli system module load --module=nvidia
  • Aktivera maskinvaruvirtualisering (om detta inte är aktiverat):

    • Logga in på ESXi-värden via ESXi-värdklienten eller vSphere-klienten.
    • Kontrollera att Intel VT-x eller AMD-V är aktiverat i BIOS/UEFI på den fysiska servern. De här alternativen krävs för virtualisering.
  • Kontrollera om NVIDIA GPU identifieras:

    • Kör kommandot:
      lspci | grep -i nvidia
    • Det här alternativet kontrollerar om NVIDIA GPU detekteras av ESXi.
  • Kontrollera om det finns fel i systemloggarna:

    • Använd kommandot för att hitta specifika felmeddelanden relaterade till NVIDIA-drivrutinen:
      tail -f /var/log/vmkernel.log
  • Kontrollera NVIDIA-specifika loggar:

    • Granska de NVIDIA-specifika loggarna som finns på:
      /var/log/nvidia-installer.log
  • Konfigurera vGPU i vSphere:

    • Öppna vSphere Client och navigera till ESXi-värden.
    • Högerklicka på den virtuella dator som använder vGPU och välj Redigera inställningar.
    • På fliken VM-maskinvara klickar du på Lägg till ny enhet och väljer PCI-enhet.
    • Välj den NVIDIA GPU (vGPU) som du vill tilldela till den virtuella datorn.
    • Välj önskad vGPU-profil (till exempel GRID, vComputeServer osv.) beroende på tillgängliga GPU-resurser och licensiering.
  • Tilldela en vGPU-profil:

    • När du konfigurerar den virtuella datorn tilldelar du en vGPU-profil som avgör hur mycket av den fysiska GPU:ns resurser som ska allokeras till varje virtuell dator. Profilalternativen beror på GPU-modellen.
  • Konfigurera NVIDIA-licens:

    • Se till att rätt NVIDIA vGPU-licens är installerad på ESXi-värden.
    • Om du vill installera eller uppdatera vGPU-licensen använder du vGPU-licensieringsverktyget som medföljer NVIDIA vGPU-paketet.
    • Licensen krävs för att vGPU-funktionen ska fungera korrekt och den kan tillämpas på ESXi-värden via kommandoraden.
  • Kontrollera att vGPU är aktiverat:

    • När du har konfigurerat vGPU:n kontrollerar du att den känns igen korrekt i den virtuella maskinen.
    • Logga in på VM och kör följande kommando:
      nvidia-smi
    • Då bör status för den virtuella grafikprocessorn visas, ungefär som på en fysisk dator.

 

Additional Information

Dell bör föreslå att kunden öppnar ett ärende hos NVIDIA för vGPU-relaterade problem genom att antingen skicka ett e-postmeddelande till enterprisesupport@nvidia.com ELLER genom att skicka in ett webbärende via deras portal eller kontakta dem via telefon.

Webbportal: https://www.nvidia.com/en-us/support/Den här hyperlänken tar dig till en webbplats utanför Dell Technologies.

Telefonsupport:
NVIDIA-telefonsupport

Obs! Dell kan inleda ett ärende med NVIDIA för att få ytterligare hjälp, men om licensen inte har utfärdats av Dell föredrar NVIDIA vanligtvis att arbeta direkt med kunden.

 

Affected Products

C Series, Rack Servers, Tower Servers, XE Servers, VMware ESXi 7.x, VMware ESXi 8.x, VMware OEM Products with ProSupport

Products

HS Series, OEM Server Solutions
Article Properties
Article Number: 000252982
Article Type: Solution
Last Modified: 08 Nov 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.