PowerEdge: NVIDIA-driverfejl: nvidia-smi mislykkedes, fordi den ikke kunne kommunikere med NVIDIA-driveren

Summary: Når du kører kommandoen nvidia-smi, kan du støde på en driverfejl, der angiver, at "nvidia-smi mislykkedes, fordi den ikke kunne kommunikere med NVIDIA-driveren.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Ikonet nvidia-smi Kommandoen kan ikke køres og returnerer fejlmeddelelsen:

nvidia-smi has failed because it could not communicate with the NVIDIA driver.

NVIDIA GPU-oplysninger vises ikke, når du kører nvidia-smi.

nvidia-smi has failed because it could not communicate with the NVIDIA driver
Fejlmeddelelse om fejl i NVIDIA-SMI mislykkedes

NVRM: nvidia_ctl_session_announce failed as driver unload is in progress.
nvidia_ctl_session_announce mislykket meddelelse

 

Cause

Fejlen "nvidia-smi has failed because it could not communicate with the NVIDIA driver" kan skyldes flere faktorer:

  • NVIDIA-driver ikke installeret eller beskadiget: NVIDIA-driveren er muligvis ikke installeret på systemet, eller installationen kan blive beskadiget, hvilket forårsager nvidia-smi værktøj til at mislykkes, når du forsøger at interagere med GPU'en.

  • Driver inkompatibilitet: Den installerede version af NVIDIA-driveren er muligvis ikke kompatibel med GPU'en eller operativsystemet, hvilket fører til kommunikationsproblemer.

  • NVIDIA-kernemodulet er ikke indlæst: Det påkrævede NVIDIA-kernemodul (nvidia.ko) må ikke indlæses i systemet, hvilket forhindrer korrekt kommunikation mellem nvidia-smi og GPU'en.

  • GPU-initialiseringsfejl: GPU'en er muligvis ikke blevet initialiseret korrekt under opstart eller på grund af en hardwarefejl, hvilket betyder nvidia-smi kan ikke etablere kommunikation med det.

  • Modstridende driverversioner: Der kan være installeret modstridende eller flere GPU-drivere (f.eks. Nouveau open source-driver eller ældre NVIDIA-driverversioner), hvilket medfører, at systemet ikke kan indlæse den korrekte NVIDIA-driver.

  • Defekt hardware: Der kan være et hardwareproblem med selve GPU'en, såsom en fysisk funktionsfejl, overophedning eller forkert forbindelse, der forhindrer systemet i at få adgang til den.

  • Manglende eller udløbet NVIDIA-licens (til vGPU-opsætninger): I virtualiserede miljøer kan en manglende eller udløbet NVIDIA vGPU-licens forhindre driveren i at fungere korrekt, hvilket kan føre til kommunikationsfejl.

  • Systemopdateringer eller kerneændringer: De seneste opdateringer til operativsystemet eller kerneændringer kan have påvirket kompatibiliteten eller funktionaliteten af NVIDIA-driveren og forårsaget, at den mislykkes.

    Du kan løse dette problem ved at kontrollere driverinstallationen, kontrollere, at den korrekte driver er indlæst, og sikre, at hardwaren og softwaren er kompatible.

 

Resolution

Trinvis vejledning til aktivering af vGPU i ESXi 7.0 og nyere:

  • Installer NVIDIA vGPU Manager:

    • Download den nyeste NVIDIA vGPU Manager til VMware ESXi fra NVIDIA-webstedetDette hyperlink fører dig til et websted uden for Dell Technologies..
    • Brug SSH til at få adgang til ESXi-værten eller ESXi Shell til at installere vGPU Manager-pakken.
  • Installer NVIDIA vGPU-drivere i de virtuelle maskiner (VM'er):

    • For hver VM, der bruger vGPU, skal du installere den relevante NVIDIA GPU-driver i gæsteoperativsystemet (f.eks. Windows, Linux).
    • Download driverne fra NVIDIA-webstedet for det specifikke operativsystem.
    • Installer driverne inde i VM'en, som du ville gøre på en fysisk maskine.
  • Genstart ESXi-værten:

    • Når du har installeret NVIDIA vGPU Manager, skal du genstarte ESXi-værten, så ændringerne kan træde i kraft.
  • Kontroller, om NVIDIA-driveren er indlæst:

    • Kør kommandoen:
      esxcli system module list | grep nvidia
    • Dermed kontrolleres om NVIDIA-kernemodulet er indlæst.
  • Indlæs NVIDIA-driveren manuelt (hvis den ikke er indlæst):

    • Hvis NVIDIA-modulet ikke er indlæst, kan du indlæse det manuelt ved at køre:
      esxcli system module load --module=nvidia
  • Aktivér hardwarevirtualisering (hvis ikke aktiveret):

    • Log på ESXi-værten via ESXi-værtsklienten eller vSphere-klienten.
    • Kontroller, at Intel VT-x eller AMD-V er aktiveret i BIOS/UEFI på den fysiske server. Disse indstillinger er nødvendige til virtualisering.
  • Kontrollér, om NVIDIA-GPU en er registreret:

    • Kør kommandoen:
      lspci | grep -i nvidia
    • Dermed kontrolleres det, om NVIDIA-GPU en registreres af ESXi.
  • Kontrollér systemlogfiler for fejl:

    • Brug kommandoen til at finde specifikke fejlmeddelelser relateret til NVIDIA-driveren:
      tail -f /var/log/vmkernel.log
  • Kontrollér NVIDIA-specifikke logfiler:

    • Gennemse de NVIDIA-specifikke logfiler, der findes på:
      /var/log/nvidia-installer.log
  • Konfigurer vGPU i vSphere:

    • Åbn vSphere-klienten , og naviger til ESXi-værten.
    • Højreklik på den VM, der bruger vGPU, og vælg Rediger indstillinger.
    • På fanen VM-hardware skal du klikke på Tilføj ny enhed og vælge PCI-enhed.
    • Vælg den NVIDIA-GPU (vGPU), du vil tildele VM'en.
    • Vælg den ønskede vGPU-profil (f.eks. GRID, vComputeServer osv.) afhængigt af de tilgængelige GPU-ressourcer og licenser.
  • Tildel en vGPU-profil:

    • Når du konfigurerer VM'en, skal du tildele en vGPU-profil , der bestemmer, hvor meget af den fysiske GPU's ressourcer der skal allokeres til hver VM. Profilindstillingerne afhænger af GPU-modellen.
  • Konfigurer NVIDIA-licens:

    • Sørg for, at den korrekte NVIDIA vGPU-licens er installeret på ESXi-værten.
    • Hvis du vil installere eller opdatere vGPU-licensen, skal du bruge det vGPU-licensværktøj , der følger med NVIDIA vGPU-pakken.
    • Licensen er nødvendig, for at vGPU-funktionalitet kan fungere korrekt, og den kan anvendes på ESXi-værten over kommandolinjen.
  • Bekræft, at vGPU er aktiveret:

    • Når du har konfigureret vGPU'en, skal du kontrollere, at den genkendes korrekt på den virtuelle maskine.
    • Log på VM'en, og kør følgende kommando:
      nvidia-smi
    • Dette skal vise status for den virtuelle GPU, svarende til hvordan den ville se ud på en fysisk maskine.

 

Additional Information

Dell bør foreslå kunden at åbne en sag hos NVIDIA for vGPU-relaterede problemer ved enten at sende en e-mail til enterprisesupport@nvidia.com ELLER ved at indsende en websag via deres portal eller kontakte kunden telefonisk.

Webportal: https://www.nvidia.com/en-us/support/Dette hyperlink fører dig til et websted uden for Dell Technologies.

Telefonsupport:
Understøttelse af NVIDIA-telefon

Bemærk: Selvom Dell kan starte en sag med NVIDIA for at få yderligere hjælp, men hvis licensen ikke er udstedt af Dell, foretrækker NVIDIA typisk at arbejde direkte med kunden.

 

Affected Products

C Series, Rack Servers, Tower Servers, XE Servers, VMware ESXi 7.x, VMware ESXi 8.x, VMware OEM Products with ProSupport

Products

HS Series, OEM Server Solutions
Article Properties
Article Number: 000252982
Article Type: Solution
Last Modified: 08 Nov 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.