跳转至主要内容
  • 快速、轻松地下订单
  • 查看订单并跟踪您的发货状态
  • 创建并访问您的产品列表
  • 使用“Company Administration”(公司管理),管理Dell EMC站点、产品和产品级联系人。

Dell PowerEdge 14G: ESXi gibt „Failed to initialize NVML: Unknown Error“ bei Nvidia-GPU zurück

摘要: Um dieses Problem zu beheben, stellen Sie die Einstellung "Memory Mapped I/O Base" auf 512 GB.

本文可能已自动翻译。如果您对其质量有任何反馈,请使用此页面底部的表单告知我们。

文章内容


症状

Beschreibung

Wenn Sie versuchen, eine NVIDIA GPU (z. B. M10) auf einem unterstützten 14G-Server (R740 und R740XD) zu installieren, kann nach der Installation der Treiber-VIB die folgende Fehlermeldung angezeigt werden, wenn Sie versuchen, den Befehl nvidia-smi auszuführen:

[root@localhost:~] nvidia-smi
Failed to initialize NVML: Unknown Error


SLN308065_en_US__1PSE2940error


In der Datei "nvidia-bug-report.log" werden unter /var/log/vmkernel.log ähnliche Ereignisse wie die folgenden angezeigt:

2017-11-02T18:28:19.707Z cpu45:66263)NVRM: loading NVIDIA UNIX x86_64 Kernel Module  384.73  Mon Aug 21 15:16:25 PDT 2017
2017-11-02T18:28:19.710Z cpu3:66145)NVRM: This is a 64-bit BAR mapped above 16 TB by the system
NVRM: BIOS or the VMware ESXi kernel. This PCI I/O region assigned
NVRM: to your NVIDIA device is not supported by the kernel.
NVRM: BAR1 is 256M @ 0x382fe00$



 


Lösung

Die Hardware funktioniert einwandfrei. Um dieses Problem zu beheben, setzen Sie die Einstellung Memory Mapped I/O Base auf 512 GB (Standard ist 56 TB) oder 12 TB (wenn der Server über >512 GB RAM verfügt):

SLN308065_en_US__2PSE2940biossetting


Dieses Problem ist im R740-Hardware-Benutzerhandbuch dokumentiert:

Memory Mapped I/O above 4 GB – Aktiviert oder deaktiviert die Unterstützung für PCIe-Geräte, die große Speichermengen benötigen. Aktivieren Sie diese Option nur für 64-Bit-Betriebssysteme. Diese Option ist standardmäßig auf Enabled (Aktiviert) gesetzt.

Memory Mapped I/O above Base – Wenn die Option auf 12 TB gesetzt ist, ordnet das System MMIO base 12 TB zu. Aktivieren Sie diese Option für ein Betriebssystem, das 44-bit-PCIe-Adressierung erfordert.
Wenn die Option auf 512 GB eingestellt ist, wird die MMIO-Basis auf 512 GB festgelegt und die maximale Unterstützung für Speicher auf weniger als 512 GB reduziert. Aktivieren Sie diese Option nur für das 4-GPU-DGMA-Problem. Diese Option ist standardmäßig auf 56 TB gesetzt.

http://topics-cdn.dell.com/pdf/poweredge-r740_owner's%20manual_en-us.pdf (Seite 52)

 

SLN308065_en_US__3icon Beachten Sie, dass hierdurch der Systemspeicher auf 512 GB (bei Festlegung auf 512 GB) begrenzt wird.

 

Nachdem Sie diese Einstellung geändert und das System neu gestartet haben, sollte nvidia-smi etwas Ähnliches ausgeben wie:

SLN308065_en_US__4PSE2940noerror

原因

-

解决方案

-

文章属性


受影响的产品

PowerEdge R740, PowerEdge R740XD, PowerEdge T640

上次发布日期

07 10月 2021

版本

4

文章类型

Solution