PowerEdge: NVIDIA-driverfejl: nvidia-smi mislykkedes, fordi den ikke kunne kommunikere med NVIDIA-driveren
Summary: Når du kører kommandoen nvidia-smi, kan du støde på en driverfejl, der angiver, at "nvidia-smi mislykkedes, fordi den ikke kunne kommunikere med NVIDIA-driveren.
Symptoms
Ikonet nvidia-smi Kommandoen kan ikke køres og returnerer fejlmeddelelsen:
nvidia-smi has failed because it could not communicate with the NVIDIA driver.
NVIDIA GPU-oplysninger vises ikke, når du kører nvidia-smi.
nvidia-smi has failed because it could not communicate with the NVIDIA driver
NVRM: nvidia_ctl_session_announce failed as driver unload is in progress.
Cause
Fejlen "nvidia-smi has failed because it could not communicate with the NVIDIA driver" kan skyldes flere faktorer:
-
NVIDIA-driver ikke installeret eller beskadiget: NVIDIA-driveren er muligvis ikke installeret på systemet, eller installationen kan blive beskadiget, hvilket forårsager
nvidia-smiværktøj til at mislykkes, når du forsøger at interagere med GPU'en. -
Driver inkompatibilitet: Den installerede version af NVIDIA-driveren er muligvis ikke kompatibel med GPU'en eller operativsystemet, hvilket fører til kommunikationsproblemer.
-
NVIDIA-kernemodulet er ikke indlæst: Det påkrævede NVIDIA-kernemodul (
nvidia.ko) må ikke indlæses i systemet, hvilket forhindrer korrekt kommunikation mellemnvidia-smiog GPU'en. -
GPU-initialiseringsfejl: GPU'en er muligvis ikke blevet initialiseret korrekt under opstart eller på grund af en hardwarefejl, hvilket betyder
nvidia-smikan ikke etablere kommunikation med det. -
Modstridende driverversioner: Der kan være installeret modstridende eller flere GPU-drivere (f.eks. Nouveau open source-driver eller ældre NVIDIA-driverversioner), hvilket medfører, at systemet ikke kan indlæse den korrekte NVIDIA-driver.
-
Defekt hardware: Der kan være et hardwareproblem med selve GPU'en, såsom en fysisk funktionsfejl, overophedning eller forkert forbindelse, der forhindrer systemet i at få adgang til den.
-
Manglende eller udløbet NVIDIA-licens (til vGPU-opsætninger): I virtualiserede miljøer kan en manglende eller udløbet NVIDIA vGPU-licens forhindre driveren i at fungere korrekt, hvilket kan føre til kommunikationsfejl.
-
Systemopdateringer eller kerneændringer: De seneste opdateringer til operativsystemet eller kerneændringer kan have påvirket kompatibiliteten eller funktionaliteten af NVIDIA-driveren og forårsaget, at den mislykkes.
Du kan løse dette problem ved at kontrollere driverinstallationen, kontrollere, at den korrekte driver er indlæst, og sikre, at hardwaren og softwaren er kompatible.
Resolution
Trinvis vejledning til aktivering af vGPU i ESXi 7.0 og nyere:
-
Installer NVIDIA vGPU Manager:
- Download den nyeste NVIDIA vGPU Manager til VMware ESXi fra NVIDIA-webstedet
.
- Brug SSH til at få adgang til ESXi-værten eller ESXi Shell til at installere vGPU Manager-pakken.
- Download den nyeste NVIDIA vGPU Manager til VMware ESXi fra NVIDIA-webstedet
-
Installer NVIDIA vGPU-drivere i de virtuelle maskiner (VM'er):
- For hver VM, der bruger vGPU, skal du installere den relevante NVIDIA GPU-driver i gæsteoperativsystemet (f.eks. Windows, Linux).
- Download driverne fra NVIDIA-webstedet for det specifikke operativsystem.
- Installer driverne inde i VM'en, som du ville gøre på en fysisk maskine.
-
Genstart ESXi-værten:
- Når du har installeret NVIDIA vGPU Manager, skal du genstarte ESXi-værten, så ændringerne kan træde i kraft.
-
Kontroller, om NVIDIA-driveren er indlæst:
- Kør kommandoen:
esxcli system module list | grep nvidia
- Dermed kontrolleres om NVIDIA-kernemodulet er indlæst.
- Kør kommandoen:
-
Indlæs NVIDIA-driveren manuelt (hvis den ikke er indlæst):
- Hvis NVIDIA-modulet ikke er indlæst, kan du indlæse det manuelt ved at køre:
esxcli system module load --module=nvidia
- Hvis NVIDIA-modulet ikke er indlæst, kan du indlæse det manuelt ved at køre:
-
Aktivér hardwarevirtualisering (hvis ikke aktiveret):
- Log på ESXi-værten via ESXi-værtsklienten eller vSphere-klienten.
- Kontroller, at Intel VT-x eller AMD-V er aktiveret i BIOS/UEFI på den fysiske server. Disse indstillinger er nødvendige til virtualisering.
-
Kontrollér, om NVIDIA-GPU en er registreret:
- Kør kommandoen:
lspci | grep -i nvidia
- Dermed kontrolleres det, om NVIDIA-GPU en registreres af ESXi.
- Kør kommandoen:
-
Kontrollér systemlogfiler for fejl:
- Brug kommandoen til at finde specifikke fejlmeddelelser relateret til NVIDIA-driveren:
tail -f /var/log/vmkernel.log
- Brug kommandoen til at finde specifikke fejlmeddelelser relateret til NVIDIA-driveren:
-
Kontrollér NVIDIA-specifikke logfiler:
- Gennemse de NVIDIA-specifikke logfiler, der findes på:
/var/log/nvidia-installer.log
- Gennemse de NVIDIA-specifikke logfiler, der findes på:
-
Konfigurer vGPU i vSphere:
- Åbn vSphere-klienten , og naviger til ESXi-værten.
- Højreklik på den VM, der bruger vGPU, og vælg Rediger indstillinger.
- På fanen VM-hardware skal du klikke på Tilføj ny enhed og vælge PCI-enhed.
- Vælg den NVIDIA-GPU (vGPU), du vil tildele VM'en.
- Vælg den ønskede vGPU-profil (f.eks. GRID, vComputeServer osv.) afhængigt af de tilgængelige GPU-ressourcer og licenser.
-
Tildel en vGPU-profil:
- Når du konfigurerer VM'en, skal du tildele en vGPU-profil , der bestemmer, hvor meget af den fysiske GPU's ressourcer der skal allokeres til hver VM. Profilindstillingerne afhænger af GPU-modellen.
-
Konfigurer NVIDIA-licens:
- Sørg for, at den korrekte NVIDIA vGPU-licens er installeret på ESXi-værten.
- Hvis du vil installere eller opdatere vGPU-licensen, skal du bruge det vGPU-licensværktøj , der følger med NVIDIA vGPU-pakken.
- Licensen er nødvendig, for at vGPU-funktionalitet kan fungere korrekt, og den kan anvendes på ESXi-værten over kommandolinjen.
-
Bekræft, at vGPU er aktiveret:
- Når du har konfigureret vGPU'en, skal du kontrollere, at den genkendes korrekt på den virtuelle maskine.
- Log på VM'en, og kør følgende kommando:
nvidia-smi
- Dette skal vise status for den virtuelle GPU, svarende til hvordan den ville se ud på en fysisk maskine.
Additional Information
Dell bør foreslå kunden at åbne en sag hos NVIDIA for vGPU-relaterede problemer ved enten at sende en e-mail til enterprisesupport@nvidia.com ELLER ved at indsende en websag via deres portal eller kontakte kunden telefonisk.
Webportal: https://www.nvidia.com/en-us/support/
Telefonsupport: