Zu den Hauptinhalten
  • Bestellungen schnell und einfach aufgeben
  • Bestellungen anzeigen und den Versandstatus verfolgen
  • Profitieren Sie von exklusiven Prämien und Rabatten für Mitglieder
  • Erstellen Sie eine Liste Ihrer Produkte, auf die Sie jederzeit zugreifen können.
  • Verwalten Sie mit der Unternehmensverwaltung Ihre Dell EMC Seiten, Produkte und produktspezifischen Kontakte.

Dell PowerEdge 14G: O ESXi retorna "Failed to initialize NVML: Unknown Error" com GPU NVidia

Zusammenfassung: Para resolver esse problema, defina a configuração Memory Mapped I/O Base como 512 GB

Dieser Artikel wurde möglicherweise automatisch übersetzt. Wenn Sie eine Rückmeldung bezüglich dessen Qualität geben möchten, teilen Sie uns diese über das Formular unten auf dieser Seite mit.

Artikelinhalt


Symptome

Descrição

Ao tentar instalar uma GPU NVidia (por exemplo, M10) em um servidor 14G compatível (R740 e R740XD). Após a instalação da vib do driver, o seguinte erro pode ser exibido ao tentar executar o comando nvidia-smi:

[root@localhost:~] nvidia-smi
Failed to initialize NVML: Unknown Error


SLN308065_en_US__1PSE2940error


No nvidia-bug-report.log, eventos semelhantes aos seguintes são vistos na seção /var/log/vmkernel.log:

2017-11-02T18:28:19.707Z cpu45:66263)NVRM: loading NVIDIA UNIX x86_64 Kernel Module  384.73  Mon Aug 21 15:16:25 PDT 2017
2017-11-02T18:28:19.710Z cpu3:66145)NVRM: This is a 64-bit BAR mapped above 16 TB by the system
NVRM: BIOS or the VMware ESXi kernel. This PCI I/O region assigned
NVRM: to your NVIDIA device is not supported by the kernel.
NVRM: BAR1 is 256M @ 0x382fe00$



 


Solução

O hardware está funcionando bem. Para resolver esse problema, defina a configuração Memory Mapped I/O Base como 512 GB (o padrão é 56 TB) ou 12 TB (se o servidor tiver mais de 512 GB de RAM):

SLN308065_en_US__2PSE2940biossetting


Esse problema está documentado no manual do proprietário do hardware R740:

Memory Mapped I/O above 4 GB – ativa ou desativa o suporte para dispositivos PCIe que precisam de grandes quantidades de memória. Ative essa opção somente para sistemas operacionais de 64 bits. Por padrão, essa opção está definida como Enabled.

Memory Mapped I/O above Base – quando essa opção estiver definida como 12 TB, o sistema mapeará a base de MMIO para 12 TB. Ative essa opção para um SO que requer endereçamento PCIe de 44 bits.
Quando a opção estiver definida como 512 GB, o sistema mapeará a base de MMIO para 512 GB e reduzirá o suporte máximo à memória para menos de 512 GB. Ative essa opção somente para o problema DGMA de quatro GPUs. Por padrão, essa opção é definida como 56 TB.

http://topics-cdn.dell.com/pdf/poweredge-r740_owner's%20manual_en-us.pdf (página 52)

 

SLN308065_en_US__3icon Observe que isso limitará a memória do sistema a 512 GB (se a opção estiver definida como 512 GB).

 

Depois que essa configuração for alterada e o sistema for reinicializado, o comando nvidia-smi deve gerar algo semelhante a:

SLN308065_en_US__4PSE2940noerror

Ursache

-

Lösung

-

Artikeleigenschaften


Betroffenes Produkt

PowerEdge R740, PowerEdge R740XD, PowerEdge T640

Letztes Veröffentlichungsdatum

07 Okt. 2021

Version

4

Artikeltyp

Solution