跳转至主要内容
  • 快速、轻松地下订单
  • 查看订单并跟踪您的发货状态
  • 创建并访问您的产品列表
  • 使用“Company Administration”(公司管理),管理Dell EMC站点、产品和产品级联系人。

Dell PowerEdge 14G: ESXi zwraca komunikat „Failed to initialize NVML: Unknown Error” w przypadku karty graficznej NVidia

摘要: Aby rozwiązać ten problem, należy ustawić wartość bazową pamięci zmapowanej we/wy na 512 GB

本文可能已自动翻译。如果您对其质量有任何反馈,请使用此页面底部的表单告知我们。

文章内容


症状

Opis

W trakcie instalacji karty graficznej NVIDIA (np. M10) do obsługiwanego serwera 14G (R740 i R740XD) po zainstalowaniu pliku VIB sterownika, podczas próby wykonania polecenia nvidia-smi może pojawić się następujący błąd:

[root@localhost:~] nvidia-smi
Failed to initialize NVML: Unknown Error


SLN308065_en_US__1PSE2940error


W sekcji /var/log/vmkernel.log pliku nvidia-bug-report.log są wyświetlane zdarzenia podobne do następujących:

2017-11-02T18:28:19.707Z cpu45:66263)NVRM: loading NVIDIA UNIX x86_64 Kernel Module  384.73  Mon Aug 21 15:16:25 PDT 2017
2017-11-02T18:28:19.710Z cpu3:66145)NVRM: This is a 64-bit BAR mapped above 16 TB by the system
NVRM: BIOS or the VMware ESXi kernel. This PCI I/O region assigned
NVRM: to your NVIDIA device is not supported by the kernel.
NVRM: BAR1 is 256M @ 0x382fe00$



 


Rozwiązanie

Sprzęt działa prawidłowo. Aby rozwiązać ten problem, należy zmienić ustawienie Memory Mapped I/O Base na 512 GB (domyślnie 56 TB) lub 12 TB (jeśli serwer ma mniej niż 512 GB pamięci RAM):

SLN308065_en_US__2PSE2940biossetting


Ten problem został udokumentowany w instrukcji obsługi serwera R740:

Pamięć zmapowana we/wy powyżej 4 GB – włącza lub wyłącza obsługę urządzeń PCIe, które wymagają dużych ilości pamięci. Tę opcję należy włączać tylko w przypadku 64-bitowych systemów operacyjnych. Jest ona domyślnie włączona.

Pamięć zmapowana we/wy powyżej wartości bazowej – jeśli ustawiono na 12 TB, system zmapuje wartość bazową MMIO do 12 TB. Tę opcję należy włączać dla systemu operacyjnego, który wymaga 44-bitowego adresowania PCIe.
W przypadku ustawienia 512 GB system ustawi wartość bazową pamięci zmapowanej we/wy na 512 GB i obniży maksymalną wielkość obsługiwanej pamięci do wartości niższej od 512 GB. Tę opcję należy włączać tylko w przypadku problemu DGMA z 4 GPU. Domyślnie ta opcja jest ustawiona na 56 TB.

http://topics-cdn.dell.com/pdf/poweredge-r740_owner's%20manual_en-us.pdf (strona 52)

 

SLN308065_en_US__3icon Należy pamiętać, że ograniczy to pamięć systemową do 512 GB (w przypadku ustawienia 512 GB).

 

Po zmianie tego ustawienia i ponownym uruchomieniu systemu polecenie nvidia-smi powinno wyświetlać wyniki podobne do:

SLN308065_en_US__4PSE2940noerror

原因

-

解决方案

-

文章属性


受影响的产品

PowerEdge R740, PowerEdge R740XD, PowerEdge T640

上次发布日期

07 10月 2021

版本

4

文章类型

Solution