PowerEdge: NVIDIA-driverfout: nvidia-smi is mislukt omdat het niet kan communiceren met het NVIDIA-stuurprogramma
Summary: Bij het uitvoeren van de nvidia-smi-opdracht kan er een driverfout optreden met de melding "nvidia-smi has failed because it could communicate not with the NVIDIA driver.
Symptoms
De nvidia-smi Opdracht mislukt en retourneert de volgende foutmelding:
nvidia-smi has failed because it could not communicate with the NVIDIA driver.
NVIDIA GPU-informatie wordt niet weergegeven tijdens het uitvoeren nvidia-smi.
nvidia-smi has failed because it could not communicate with the NVIDIA driver
NVRM: nvidia_ctl_session_announce failed as driver unload is in progress.
Cause
De fout "nvidia-smi has failed because it could not communicate with the NVIDIA driver" kan door verschillende factoren worden veroorzaakt:
-
NVIDIA-driver niet geïnstalleerd of beschadigd: De NVIDIA-driver is mogelijk niet op het systeem geïnstalleerd of de installatie kan beschadigd zijn, waardoor het
nvidia-smitool om te mislukken wanneer u probeert te communiceren met de GPU. -
Incompatibiliteit van stuurprogramma: De versie van de geïnstalleerde NVIDIA-driver is mogelijk niet compatibel met de GPU of het besturingssysteem, wat leidt tot communicatieproblemen.
-
NVIDIA Kernel Module Not Loaded: De vereiste NVIDIA-kernelmodule (
nvidia.ko) niet in het systeem worden geladen, waardoor een goede communicatie tussen denvidia-smitool en de GPU. -
Fout GPU-initialisatie: De GPU is mogelijk niet correct geïnitialiseerd tijdens het opstarten of vanwege een hardwarefout, wat betekent dat
nvidia-smikan er geen communicatie mee tot stand brengen. -
Conflicterende driverversies: Conflicterende of meerdere GPU-drivers (bijvoorbeeld Nouveau open-sourcedriver of oudere NVIDIA-driverversies) kunnen zijn geïnstalleerd, waardoor het systeem niet de juiste NVIDIA-driver laadt.
-
Defecte hardware: Er kan een hardwareprobleem zijn met de GPU zelf, zoals een fysieke storing, oververhitting of onjuiste verbinding, waardoor het systeem er geen toegang toe heeft.
-
Ontbrekende of verlopen NVIDIA-licentie (voor vGPU-configuraties): In gevirtualiseerde omgevingen kan een ontbrekende of verlopen NVIDIA vGPU-licentie ervoor zorgen dat de driver niet goed werkt, wat kan leiden tot communicatiefouten.
-
Systeemupdates of kernelwijzigingen: Recente updates van het besturingssysteem of kernelwijzigingen hebben mogelijk invloed gehad op de compatibiliteit of functionaliteit van de NVIDIA-driver, waardoor deze defect is geraakt.
Om dit op te lossen, controleert u de installatie van de driver, controleert u of de juiste driver is geladen en zorgt u ervoor dat de hardware en software compatibel zijn.
Resolution
Stapsgewijze handleiding voor het inschakelen van vGPU in ESXi 7.0 en hoger:
-
De NVIDIA vGPU Manager installeren:
- Download de nieuwste NVIDIA vGPU Manager voor VMware ESXi van de NVIDIA-website
.
- Gebruik SSH om toegang te krijgen tot de ESXi-host of de ESXi Shell om het vGPU Manager-pakket te installeren.
- Download de nieuwste NVIDIA vGPU Manager voor VMware ESXi van de NVIDIA-website
-
Installeer de NVIDIA vGPU-drivers in de virtuele machines (VM's):
- Installeer voor elke VM die vGPU gebruikt de juiste NVIDIA GPU-driver in het gastbesturingssysteem (bijvoorbeeld Windows, Linux).
- Download de drivers van de NVIDIA-website voor het specifieke besturingssysteem.
- Installeer de drivers in de VM zoals u dat op een fysieke machine zou doen.
-
Start de ESXi-host opnieuw op:
- Nadat u de NVIDIA vGPU Manager hebt geïnstalleerd, start u de ESXi-host opnieuw op om de wijzigingen door te voeren.
-
Controleer of de NVIDIA-driver is geladen:
- Voer deze opdracht uit:
esxcli system module list | grep nvidia
- Dit controleert of de NVIDIA-kernelmodule wordt geladen.
- Voer deze opdracht uit:
-
Laad de NVIDIA-driver handmatig (indien niet geladen):
- Als de NVIDIA-module niet wordt geladen, kunt u deze handmatig laden door de volgende opdracht uit te voeren:
esxcli system module load --module=nvidia
- Als de NVIDIA-module niet wordt geladen, kunt u deze handmatig laden door de volgende opdracht uit te voeren:
-
Hardwarevirtualisatie inschakelen (indien niet ingeschakeld):
- Meld u aan bij de ESXi-host via de ESXi-hostclient of vSphere-client.
- Controleer of Intel VT-x of AMD-V is ingeschakeld in het BIOS/UEFI van de fysieke server. Deze opties zijn vereist voor virtualisatie.
-
Controleer of de NVIDIA GPU wordt gedetecteerd:
- Voer deze opdracht uit:
lspci | grep -i nvidia
- Dit controleert of de NVIDIA GPU wordt gedetecteerd door ESXi.
- Voer deze opdracht uit:
-
Controleer systeemlogboeken op fouten:
- Gebruik de opdracht om specifieke foutmeldingen met betrekking tot het NVIDIA-stuurprogramma te vinden:
tail -f /var/log/vmkernel.log
- Gebruik de opdracht om specifieke foutmeldingen met betrekking tot het NVIDIA-stuurprogramma te vinden:
-
Controleer NVIDIA-specifieke logboeken:
- Bekijk de NVIDIA-specifieke logboeken op:
/var/log/nvidia-installer.log
- Bekijk de NVIDIA-specifieke logboeken op:
-
Configure vGPU in vSphere:
- Open de vSphere Client en navigeer naar uw ESXi-host.
- Klik met de rechtermuisknop op de VM die vGPU gebruikt en selecteer Instellingen bewerken.
- Klik op het tabblad VM-hardware op Nieuw apparaat toevoegen en selecteer PCI-apparaat.
- Kies de NVIDIA GPU (vGPU) die u aan de VM wilt toewijzen.
- Selecteer het gewenste vGPU-profiel (bijvoorbeeld GRID, vComputeServer, enzovoort), afhankelijk van de beschikbare GPU-bronnen en licenties.
-
Een vGPU-profiel toewijzen:
- Wijs bij het configureren van de VM een vGPU-profiel toe dat bepaalt hoeveel van de fysieke GPU-resources aan elke VM moeten worden toegewezen. De profielopties zijn afhankelijk van het GPU-model.
-
NVIDIA-licentie configureren:
- Zorg ervoor dat de juiste NVIDIA vGPU-licentie is geïnstalleerd op de ESXi-host.
- Als u de vGPU-licentie wilt installeren of bijwerken, gebruikt u het vGPU-licentiehulpprogramma dat bij het NVIDIA vGPU-pakket wordt geleverd.
- De licentie is vereist om vGPU-functionaliteit goed te laten werken en kan via de opdrachtregel worden toegepast op de ESXi-host.
-
Controleren of vGPU is ingeschakeld:
- Controleer na het instellen van de vGPU of deze correct wordt herkend op de virtuele machine.
- Meld u aan bij de VM en voer de volgende opdracht uit:
nvidia-smi
- Dit zou de status van de virtuele GPU moeten weergeven, vergelijkbaar met hoe deze eruit zou zien op een fysieke machine.
Additional Information
Dell raadt de klant aan een case te openen bij NVIDIA voor problemen met vGPU door een e-mail te sturen naar enterprisesupport@nvidia.com OF door een webcase in te dienen via hun portal of door telefonisch contact met hen op te nemen.
Webportaal: https://www.nvidia.com/en-us/support/
Telefonische support: