PowerEdge: NVIDIA-Treiberfehler: nvidia-smi ist fehlgeschlagen, da es nicht mit dem NVIDIA-Treiber kommunizieren konnte
Summary: Beim Ausführen des Befehls nvidia-smi kann ein Treiberfehler auftreten, der besagt, dass nvidia-smi fehlgeschlagen ist, da es nicht mit dem NVIDIA-Treiber kommunizieren konnte.
Symptoms
Die Spalte nvidia-smi Der Befehl kann nicht ausgeführt werden und gibt die folgende Fehlermeldung zurück:
nvidia-smi has failed because it could not communicate with the NVIDIA driver.
NVIDIA GPU-Informationen werden beim Ausführen nicht angezeigt nvidia-smi.
nvidia-smi has failed because it could not communicate with the NVIDIA driver
NVRM: nvidia_ctl_session_announce failed as driver unload is in progress.
Cause
Der Fehler "nvidia-smi has failed because it could not communicate with the NVIDIA driver" kann durch mehrere Faktoren verursacht werden:
-
NVIDIA-Treiber nicht installiert oder beschädigt: Der NVIDIA-Treiber ist möglicherweise nicht auf dem System installiert oder die Installation könnte beschädigt sein, was dazu führt, dass die
nvidia-smikann beim Versuch, mit der GPU zu interagieren, fehlschlagen. -
Treiberinkompatibilität: Die installierte Version des NVIDIA-Treibers ist möglicherweise nicht mit der GPU oder dem Betriebssystem kompatibel, was zu Kommunikationsproblemen führt.
-
NVIDIA-Kernel-Modul nicht geladen: Das erforderliche NVIDIA-Kernel-Modul (
nvidia.ko) kann nicht in das System geladen werden, wodurch eine ordnungsgemäße Kommunikation zwischen dennvidia-smiTool und der GPU. -
GPU-Initialisierungsfehler: Die GPU wurde möglicherweise während des Startvorgangs oder aufgrund eines Hardwarefehlers nicht ordnungsgemäß initialisiert, was bedeutet:
nvidia-smiKommunikation mit ihm kann nicht hergestellt werden. -
Widersprüchliche Treiberversionen: Möglicherweise sind widersprüchliche oder mehrere GPU-Treiber (z. B. Nouveau Open-Source-Treiber oder ältere NVIDIA-Treiberversionen) installiert, was dazu führt, dass das System nicht den richtigen NVIDIA-Treiber lädt.
-
Fehlerhafte Hardware: Möglicherweise liegt ein Hardwareproblem mit der GPU selbst vor, z. B. eine physische Fehlfunktion, Überhitzung oder eine unsachgemäße Verbindung, die den Systemzugriff verhindert.
-
Fehlende oder abgelaufene NVIDIA-Lizenz (für vGPU-Setups): In virtualisierten Umgebungen kann eine fehlende oder abgelaufene NVIDIA vGPU-Lizenz dazu führen, dass der Treiber nicht ordnungsgemäß funktioniert, was zu Kommunikationsfehlern führt.
-
Systemupdates oder Kernel-Änderungen: Kürzliche Aktualisierungen des Betriebssystems oder Kernel-Änderungen haben möglicherweise die Kompatibilität oder Funktionalität des NVIDIA-Treibers beeinträchtigt, was zu einem Ausfall geführt hat.
Um dieses Problem zu beheben, überprüfen Sie die Treiberinstallation, stellen Sie sicher, dass der richtige Treiber geladen ist, und stellen Sie sicher, dass Hardware und Software kompatibel sind.
Resolution
Schritt-für-Schritt-Anleitung zur Aktivierung von vGPU in ESXi 7.0 und höher:
-
Installieren Sie den NVIDIA vGPU Manager:
- Laden Sie den neuesten NVIDIA vGPU Manager für VMware ESXi von der NVIDIA-Website
herunter.
- Verwenden Sie SSH, um auf den ESXi-Host zuzugreifen, oder die ESXi Shell, um das vGPU Manager-Paket zu installieren.
- Laden Sie den neuesten NVIDIA vGPU Manager für VMware ESXi von der NVIDIA-Website
-
Installieren Sie die NVIDIA vGPU-Treiber auf den virtuellen Maschinen (VMs):
- Installieren Sie für jede VM, die vGPU verwendet, den entsprechenden NVIDIA GPU-Treiber im Gastbetriebssystem (z. B. Windows, Linux).
- Laden Sie die Treiber für das jeweilige Betriebssystem von der NVIDIA-Website herunter.
- Installieren Sie die Treiber in der VM wie auf einem physischen Computer.
-
Starten Sie den ESXi-Host neu:
- Starten Sie nach der Installation des NVIDIA vGPU Manager den ESXi-Host neu, damit die Änderungen wirksam werden.
-
Überprüfen Sie, ob der NVIDIA-Treiber geladen ist:
- Führen Sie den Befehl aus:
esxcli system module list | grep nvidia
- Damit wird geprüft, ob das NVIDIA-Kernel-Modul geladen ist.
- Führen Sie den Befehl aus:
-
Laden Sie den NVIDIA-Treiber manuell (falls noch nicht geladen):
- Wenn das NVIDIA-Modul nicht geladen ist, können Sie es manuell laden, indem Sie Folgendes ausführen:
esxcli system module load --module=nvidia
- Wenn das NVIDIA-Modul nicht geladen ist, können Sie es manuell laden, indem Sie Folgendes ausführen:
-
Aktivieren Sie die Hardwarevirtualisierung (falls nicht aktiviert):
- Melden Sie sich über den ESXi-Hostclient oder vSphere Client beim ESXi-Host an.
- Stellen Sie sicher, dass Intel VT-x oder AMD-V im BIOS/UEFI des physischen Servers aktiviert ist. Diese Optionen sind für die Virtualisierung erforderlich.
-
Überprüfen Sie, ob die NVIDIA-GPU erkannt wird:
- Führen Sie den Befehl aus:
lspci | grep -i nvidia
- Damit wird geprüft, ob die NVIDIA-GPU von ESXi erkannt wird.
- Führen Sie den Befehl aus:
-
Überprüfen Sie die Systemprotokolle auf Fehler:
- Verwenden Sie den Befehl, um bestimmte Fehlermeldungen im Zusammenhang mit dem NVIDIA-Treiber zu finden:
tail -f /var/log/vmkernel.log
- Verwenden Sie den Befehl, um bestimmte Fehlermeldungen im Zusammenhang mit dem NVIDIA-Treiber zu finden:
-
Überprüfen Sie NVIDIA-spezifische Protokolle:
- Überprüfen Sie die NVIDIA-spezifischen Protokolle unter:
/var/log/nvidia-installer.log
- Überprüfen Sie die NVIDIA-spezifischen Protokolle unter:
-
Konfigurieren Sie vGPU in vSphere:
- Öffnen Sie den vSphere Client und navigieren Sie zu Ihrem ESXi-Host.
- Klicken Sie mit der rechten Maustaste auf die VM, die vGPU verwendet, und wählen Sie Edit Settings aus.
- Klicken Sie auf der Registerkarte VM-Hardware auf Neues Gerät hinzufügen und wählen Sie PCI-Gerät aus.
- Wählen Sie die NVIDIA-GPU (vGPU) aus, die Sie der VM zuweisen möchten.
- Wählen Sie je nach verfügbaren GPU-Ressourcen und Lizenzierung das gewünschte vGPU-Profil (z. B. GRID, vComputeServer usw.) aus.
-
Zuweisen eines vGPU-Profils:
- Weisen Sie bei der Konfiguration der VM ein vGPU-Profil zu, das bestimmt, wie viele der Ressourcen der physischen GPU den einzelnen VMs zugewiesen werden sollen. Die Profiloptionen hängen vom GPU-Modell ab.
-
Konfigurieren der NVIDIA-Lizenz:
- Stellen Sie sicher, dass die richtige NVIDIA vGPU-Lizenz auf dem ESXi-Host installiert ist.
- Verwenden Sie zum Installieren oder Aktualisieren der vGPU-Lizenz das vGPU-Lizenzierungsdienstprogramm , das im Lieferumfang des NVIDIA vGPU-Pakets enthalten ist.
- Die Lizenz ist erforderlich, damit die vGPU-Funktionalität ordnungsgemäß funktioniert, und sie kann über die Befehlszeile auf den ESXi-Host angewendet werden.
-
Überprüfen Sie, ob vGPU aktiviert ist:
- Überprüfen Sie nach dem Einrichten der vGPU, ob sie in der virtuellen Maschine korrekt erkannt wird.
- Melden Sie sich bei der VM an und führen Sie den folgenden Befehl aus:
nvidia-smi
- Dadurch sollte der Status der virtuellen GPU angezeigt werden, ähnlich wie auf einer physischen Maschine.
Additional Information
Dell sollte dem Kunden vorschlagen, einen Fall bei NVIDIA für vGPU-bezogene Probleme zu eröffnen, indem er entweder eine E-Mail an enterprisesupport@nvidia.com sendet, einen Web-Fall über sein Portal einreicht oder ihn telefonisch kontaktiert.
Webportal: https://www.nvidia.com/en-us/support/
Telefon-Support: