Zu den Hauptinhalten
  • Bestellungen schnell und einfach aufgeben
  • Bestellungen anzeigen und den Versandstatus verfolgen
  • Erstellen Sie eine Liste Ihrer Produkte, auf die Sie jederzeit zugreifen können.
  • Verwalten Sie mit der Unternehmensverwaltung Ihre Dell EMC Seiten, Produkte und produktspezifischen Kontakte.

Dell PowerEdge 14G: ESXi gibt „Failed to initialize NVML: Unknown Error“ bei Nvidia-GPU zurück

Zusammenfassung: Um dieses Problem zu beheben, stellen Sie die Einstellung "Memory Mapped I/O Base" auf 512 GB.

Dieser Artikel wurde möglicherweise automatisch übersetzt. Wenn Sie eine Rückmeldung bezüglich dessen Qualität geben möchten, teilen Sie uns diese über das Formular unten auf dieser Seite mit.

Artikelinhalt


Symptome

Beschreibung

Wenn Sie versuchen, eine NVIDIA GPU (z. B. M10) auf einem unterstützten 14G-Server (R740 und R740XD) zu installieren, kann nach der Installation der Treiber-VIB die folgende Fehlermeldung angezeigt werden, wenn Sie versuchen, den Befehl nvidia-smi auszuführen:

[root@localhost:~] nvidia-smi
Failed to initialize NVML: Unknown Error


SLN308065_en_US__1PSE2940error


In der Datei "nvidia-bug-report.log" werden unter /var/log/vmkernel.log ähnliche Ereignisse wie die folgenden angezeigt:

2017-11-02T18:28:19.707Z cpu45:66263)NVRM: loading NVIDIA UNIX x86_64 Kernel Module  384.73  Mon Aug 21 15:16:25 PDT 2017
2017-11-02T18:28:19.710Z cpu3:66145)NVRM: This is a 64-bit BAR mapped above 16 TB by the system
NVRM: BIOS or the VMware ESXi kernel. This PCI I/O region assigned
NVRM: to your NVIDIA device is not supported by the kernel.
NVRM: BAR1 is 256M @ 0x382fe00$



 


Lösung

Die Hardware funktioniert einwandfrei. Um dieses Problem zu beheben, setzen Sie die Einstellung Memory Mapped I/O Base auf 512 GB (Standard ist 56 TB) oder 12 TB (wenn der Server über >512 GB RAM verfügt):

SLN308065_en_US__2PSE2940biossetting


Dieses Problem ist im R740-Hardware-Benutzerhandbuch dokumentiert:

Memory Mapped I/O above 4 GB – Aktiviert oder deaktiviert die Unterstützung für PCIe-Geräte, die große Speichermengen benötigen. Aktivieren Sie diese Option nur für 64-Bit-Betriebssysteme. Diese Option ist standardmäßig auf Enabled (Aktiviert) gesetzt.

Memory Mapped I/O above Base – Wenn die Option auf 12 TB gesetzt ist, ordnet das System MMIO base 12 TB zu. Aktivieren Sie diese Option für ein Betriebssystem, das 44-bit-PCIe-Adressierung erfordert.
Wenn die Option auf 512 GB eingestellt ist, wird die MMIO-Basis auf 512 GB festgelegt und die maximale Unterstützung für Speicher auf weniger als 512 GB reduziert. Aktivieren Sie diese Option nur für das 4-GPU-DGMA-Problem. Diese Option ist standardmäßig auf 56 TB gesetzt.

http://topics-cdn.dell.com/pdf/poweredge-r740_owner's%20manual_en-us.pdf (Seite 52)

 

SLN308065_en_US__3icon Beachten Sie, dass hierdurch der Systemspeicher auf 512 GB (bei Festlegung auf 512 GB) begrenzt wird.

 

Nachdem Sie diese Einstellung geändert und das System neu gestartet haben, sollte nvidia-smi etwas Ähnliches ausgeben wie:

SLN308065_en_US__4PSE2940noerror

Ursache

-

Lösung

-

Artikeleigenschaften


Betroffenes Produkt

PowerEdge R740, PowerEdge R740xd, PowerEdge T640

Letztes Veröffentlichungsdatum

07 Okt 2021

Version

4

Artikeltyp

Solution