PowerEdge: NVIDIA-driverfeil: nvidia-smi mislyktes fordi den ikke kunne kommunisere med NVIDIA-driveren
Summary: Når du kjører nvidia-smi-kommandoen, kan du støte på en driverfeil som sier at "nvidia-smi har mislyktes fordi den ikke kunne kommunisere med NVIDIA-driveren.
Symptoms
Informasjonen i nvidia-smi Kommandoen kjører ikke og returnerer feilmeldingen:
nvidia-smi has failed because it could not communicate with the NVIDIA driver.
NVIDIA GPU-informasjon vises ikke når du kjører nvidia-smi.
nvidia-smi has failed because it could not communicate with the NVIDIA driver
NVRM: nvidia_ctl_session_announce failed as driver unload is in progress.
Cause
Feilen "nvidia-smi has failed because it could not communicate with the NVIDIA driver" kan skyldes flere faktorer:
-
NVIDIA-driveren er ikke installert eller ødelagt: Det kan hende at NVIDIA-driveren ikke er installert på systemet, eller installasjonen kan være ødelagt, noe som forårsaker
nvidia-smiverktøy for å mislykkes når du prøver å samhandle med GPU. -
Driverinkompatibilitet: Det kan hende at versjonen av den installerte NVIDIA-driveren ikke er kompatibel med GPU-en eller operativsystemet, noe som fører til kommunikasjonsproblemer.
-
NVIDIA-kjernemodulen er ikke lastet inn: Den nødvendige NVIDIA-kjernemodulen (
nvidia.ko) ikke lastes inn i systemet, noe som hindrer riktig kommunikasjon mellomnvidia-smiverktøyet og GPU. -
Feil ved GPU-initialisering: GPU-en ble kanskje ikke initialisert riktig under oppstart eller på grunn av en maskinvarefeil, noe som betyr at
nvidia-smikan ikke etablere kommunikasjon med den. -
Motstridende driverversjoner: Motstridende eller flere GPU-drivere (for eksempel Nouveau-driver med åpen kildekode eller eldre NVIDIA-driverversjoner) kan installeres, noe som fører til at systemet ikke laster inn riktig NVIDIA-driver.
-
Defekt maskinvare: Det kan være et maskinvareproblem med selve GPU-en, for eksempel en fysisk funksjonsfeil, overoppheting eller feil tilkobling, som hindrer systemet i å få tilgang til den.
-
Manglende eller utløpt NVIDIA-lisens (for vGPU-oppsett): I virtualiserte miljøer kan en manglende eller utløpt NVIDIA vGPU-lisens forhindre at driveren fungerer som den skal, noe som fører til kommunikasjonsfeil.
-
Systemoppdateringer eller kjerneendringer: Nylige oppdateringer av operativsystemet eller kjerneendringer kan ha påvirket kompatibiliteten eller funksjonaliteten til NVIDIA-driveren, noe som førte til at den mislyktes.
Du kan løse dette ved å kontrollere driverinstallasjonen, kontrollere at riktig driver er lastet inn og kontrollere at maskinvaren og programvaren er kompatibel.
Resolution
Trinnvis veiledning for å aktivere vGPU i ESXi 7.0 og nyere:
-
Installer NVIDIA vGPU Manager:
- Last ned den nyeste NVIDIA vGPU Manager for VMware ESXi fra NVIDIA-nettstedet
.
- Bruk SSH for å få tilgang til ESXi-verten eller ESXi Shell for å installere vGPU Manager-pakken.
- Last ned den nyeste NVIDIA vGPU Manager for VMware ESXi fra NVIDIA-nettstedet
-
Installer NVIDIA vGPU-drivere i virtuelle maskiner (VM-er):
- For hver virtuelle maskin som bruker vGPU, installerer du riktig NVIDIA GPU-driver i gjesteoperativsystemet (for eksempel Windows, Linux).
- Last ned driverne fra NVIDIA-nettstedet for det spesifikke operativsystemet.
- Installer driverne inne i den virtuelle maskinen på samme måte som på en fysisk maskin.
-
Start ESXi-verten på nytt:
- Når du har installert NVIDIA vGPU Manager, må du starte ESXi-verten på nytt for at endringene skal tre i kraft.
-
Sjekk om NVIDIA-driveren er lastet inn:
- Kjør følgende kommando:
esxcli system module list | grep nvidia
- Dette kontrollerer om NVIDIA-kjernemodulen er lastet inn.
- Kjør følgende kommando:
-
Last inn NVIDIA-driveren manuelt (hvis den ikke er lastet inn):
- Hvis NVIDIA-modulen ikke er lastet inn, kan du laste den inn manuelt ved å kjøre:
esxcli system module load --module=nvidia
- Hvis NVIDIA-modulen ikke er lastet inn, kan du laste den inn manuelt ved å kjøre:
-
Aktiver maskinvarevirtualisering (hvis ikke aktivert):
- Logg på ESXi-verten via ESXi-vertsklienten eller vSphere-klienten.
- Kontroller at Intel VT-x eller AMD-V er aktivert i BIOS/UEFI på den fysiske serveren. Disse alternativene kreves for virtualisering.
-
Sjekk om NVIDIA GPU er oppdaget:
- Kjør følgende kommando:
lspci | grep -i nvidia
- Dette kontrollerer om NVIDIA GPU oppdages av ESXi.
- Kjør følgende kommando:
-
Kontroller systemloggene for feil:
- Bruk kommandoen til å finne spesifikke feilmeldinger relatert til NVIDIA-driveren:
tail -f /var/log/vmkernel.log
- Bruk kommandoen til å finne spesifikke feilmeldinger relatert til NVIDIA-driveren:
-
Sjekk NVIDIA-spesifikke logger:
- Se gjennom de NVIDIA-spesifikke loggene som du finner på:
/var/log/nvidia-installer.log
- Se gjennom de NVIDIA-spesifikke loggene som du finner på:
-
Konfigurere vGPU i vSphere:
- Åpne vSphere-klienten , og gå til ESXi-verten.
- Høyreklikk på VM-en som bruker vGPU, og velg Rediger innstillinger.
- I VM-maskinvare-fanen klikker du på Legg til ny enhet og velger PCI-enhet.
- Velg NVIDIA GPU (vGPU) du vil tilordne til den virtuelle maskinen.
- Velg ønsket vGPU-profil (for eksempel GRID, vComputeServer osv.) avhengig av tilgjengelige GPU-ressurser og lisensiering.
-
Tilordne en vGPU-profil:
- Når du konfigurerer den virtuelle maskinen, tilordner du en vGPU-profil som bestemmer hvor mye av den fysiske GPU-ens ressurser som skal tildeles hver virtuelle maskin. Profilalternativene avhenger av GPU-modellen.
-
Konfigurer NVIDIA-lisens:
- Kontroller at riktig NVIDIA vGPU-lisens er installert på ESXi-verten.
- Hvis du vil installere eller oppdatere vGPU-lisensen, bruker du vGPU-lisensieringsverktøyet som følger med NVIDIA vGPU-pakken.
- Lisensen er nødvendig for at vGPU-funksjonaliteten skal fungere riktig, og den kan brukes på ESXi-verten via kommandolinjen.
-
Kontroller at vGPU er aktivert:
- Når du har konfigurert vGPU, må du kontrollere at den gjenkjennes riktig på den virtuelle maskinen.
- Logg på VM-en, og kjør følgende kommando:
nvidia-smi
- Dette skal vise statusen til den virtuelle GPUen, på samme måte som den vil se ut på en fysisk maskin.
Additional Information
Dell bør foreslå at kunden åpner en sak med NVIDIA for vGPU-relaterte problemer ved enten å sende en e-post til enterprisesupport@nvidia.com ELLER ved å sende inn en nettforespørsel via portalen deres, eller ved å kontakte dem via telefon.
Nettportal: https://www.nvidia.com/en-us/support/
Telefonstøtte: