Zu den Hauptinhalten
  • Bestellungen schnell und einfach aufgeben
  • Bestellungen anzeigen und den Versandstatus verfolgen
  • Profitieren Sie von exklusiven Prämien und Rabatten für Mitglieder
  • Erstellen Sie eine Liste Ihrer Produkte, auf die Sie jederzeit zugreifen können.
  • Verwalten Sie mit der Unternehmensverwaltung Ihre Dell EMC Seiten, Produkte und produktspezifischen Kontakte.

Dell PowerEdge 14G: ESXi 返回 NVidia GPU 错误消息 "Failed to initialize NVML: Unknown Error"

Zusammenfassung: 要解决此问题,请将 Memory Mapped I/O Base 设置为 512 GB

Dieser Artikel wurde möglicherweise automatisch übersetzt. Wenn Sie eine Rückmeldung bezüglich dessen Qualität geben möchten, teilen Sie uns diese über das Formular unten auf dieser Seite mit.

Artikelinhalt


Symptome

描述

当尝试在受支持的 14G 服务器(R740 和 R740XD)上安装 NVidia GPU(例如 M10)时,在安装驱动程序 vib 后尝试执行 nvidia-smi 命令过程中,可能会出现以下错误:

[root@localhost:~] nvidia-smi
无法初始化 NVML:未知错误


SLN308065_en_US__1PSE2940error


在 nvidia-bug-report.log 中,/var/log/vmkernel.log 部分会显示类似于以下内容的事件:

2017-11-02T18:28:19.707Z cpu45:66263)NVRM: loading NVIDIA UNIX x86_64 Kernel Module  384.73  Mon Aug 21 15:16:25 PDT 2017
2017-11-02T18:28:19.710Z cpu3:66145)NVRM: This is a 64-bit BAR mapped above 16 TB by the system
NVRM: BIOS or the VMware ESXi kernel. This PCI I/O region assigned
NVRM: to your NVIDIA device is not supported by the kernel.
NVRM: BAR1 is 256M @ 0x382fe00$



 


解决方案

硬件工作正常。要解决此问题,请将 Memory Mapped I/O Base 设置设为 512 GB(默认值为 56Tb)或 12 TB(如果服务器具有 >512GB 的 RAM):

SLN308065_en_US__2PSE2940biossetting


此问题记录在 R740 硬件用户手册中:

Memory Mapped I/O above 4 GB - 启用或禁用要求大量内存的 PCIe 设备支持。仅 64 位操作系统可启用此选项。此选项默认为已启用。

Memory Mapped I/O above Base - 当设置为 12 TB 时,系统将 MMIO 库映射到 12 TB。需要 44 位 PCIe 寻址的操作系统可启用此选项。
当设置为 512 GB 时,系统将 MMIO 库映射到 512 GB,并将最大内存支持减少到低于 512 GB。仅针对 4 GPU DGMA 问题启用此选项。此选项默认设置为 56 TB。

http://topics-cdn.dell.com/pdf/poweredge-r740_owner's%20manual_en-us.pdf(第 52 页)

 

SLN308065_en_US__3icon 请注意,这会将系统内存限制为 512 GB(如果已设置为 512 GB)。

 

更改此设置并重新引导系统后,nvidia-smi 应输出类似于以下内容的信息:

SLN308065_en_US__4PSE2940noerror

Ursache

Lösung

Artikeleigenschaften


Betroffenes Produkt

PowerEdge R740, PowerEdge R740XD, PowerEdge T640

Letztes Veröffentlichungsdatum

07 Okt. 2021

Version

4

Artikeltyp

Solution