Zu den Hauptinhalten
  • Bestellungen schnell und einfach aufgeben
  • Bestellungen anzeigen und den Versandstatus verfolgen
  • Profitieren Sie von exklusiven Prämien und Rabatten für Mitglieder
  • Erstellen Sie eine Liste Ihrer Produkte, auf die Sie jederzeit zugreifen können.
  • Verwalten Sie mit der Unternehmensverwaltung Ihre Dell EMC Seiten, Produkte und produktspezifischen Kontakte.

Dell PowerEdge 14G: ESXi zwraca komunikat „Failed to initialize NVML: Unknown Error” w przypadku karty graficznej NVidia

Zusammenfassung: Aby rozwiązać ten problem, należy ustawić wartość bazową pamięci zmapowanej we/wy na 512 GB

Dieser Artikel wurde möglicherweise automatisch übersetzt. Wenn Sie eine Rückmeldung bezüglich dessen Qualität geben möchten, teilen Sie uns diese über das Formular unten auf dieser Seite mit.

Artikelinhalt


Symptome

Opis

W trakcie instalacji karty graficznej NVIDIA (np. M10) do obsługiwanego serwera 14G (R740 i R740XD) po zainstalowaniu pliku VIB sterownika, podczas próby wykonania polecenia nvidia-smi może pojawić się następujący błąd:

[root@localhost:~] nvidia-smi
Failed to initialize NVML: Unknown Error


SLN308065_en_US__1PSE2940error


W sekcji /var/log/vmkernel.log pliku nvidia-bug-report.log są wyświetlane zdarzenia podobne do następujących:

2017-11-02T18:28:19.707Z cpu45:66263)NVRM: loading NVIDIA UNIX x86_64 Kernel Module  384.73  Mon Aug 21 15:16:25 PDT 2017
2017-11-02T18:28:19.710Z cpu3:66145)NVRM: This is a 64-bit BAR mapped above 16 TB by the system
NVRM: BIOS or the VMware ESXi kernel. This PCI I/O region assigned
NVRM: to your NVIDIA device is not supported by the kernel.
NVRM: BAR1 is 256M @ 0x382fe00$



 


Rozwiązanie

Sprzęt działa prawidłowo. Aby rozwiązać ten problem, należy zmienić ustawienie Memory Mapped I/O Base na 512 GB (domyślnie 56 TB) lub 12 TB (jeśli serwer ma mniej niż 512 GB pamięci RAM):

SLN308065_en_US__2PSE2940biossetting


Ten problem został udokumentowany w instrukcji obsługi serwera R740:

Pamięć zmapowana we/wy powyżej 4 GB – włącza lub wyłącza obsługę urządzeń PCIe, które wymagają dużych ilości pamięci. Tę opcję należy włączać tylko w przypadku 64-bitowych systemów operacyjnych. Jest ona domyślnie włączona.

Pamięć zmapowana we/wy powyżej wartości bazowej – jeśli ustawiono na 12 TB, system zmapuje wartość bazową MMIO do 12 TB. Tę opcję należy włączać dla systemu operacyjnego, który wymaga 44-bitowego adresowania PCIe.
W przypadku ustawienia 512 GB system ustawi wartość bazową pamięci zmapowanej we/wy na 512 GB i obniży maksymalną wielkość obsługiwanej pamięci do wartości niższej od 512 GB. Tę opcję należy włączać tylko w przypadku problemu DGMA z 4 GPU. Domyślnie ta opcja jest ustawiona na 56 TB.

http://topics-cdn.dell.com/pdf/poweredge-r740_owner's%20manual_en-us.pdf (strona 52)

 

SLN308065_en_US__3icon Należy pamiętać, że ograniczy to pamięć systemową do 512 GB (w przypadku ustawienia 512 GB).

 

Po zmianie tego ustawienia i ponownym uruchomieniu systemu polecenie nvidia-smi powinno wyświetlać wyniki podobne do:

SLN308065_en_US__4PSE2940noerror

Ursache

-

Lösung

-

Artikeleigenschaften


Betroffenes Produkt

PowerEdge R740, PowerEdge R740XD, PowerEdge T640

Letztes Veröffentlichungsdatum

07 Okt. 2021

Version

4

Artikeltyp

Solution