跳转至主要内容
  • 快速、轻松地下订单
  • 查看订单并跟踪您的发货状态
  • 创建并访问您的产品列表
  • 使用“Company Administration”(公司管理),管理Dell EMC站点、产品和产品级联系人。

Dell PowerEdge 14G: O ESXi retorna "Failed to initialize NVML: Unknown Error" com GPU NVidia

摘要: Para resolver esse problema, defina a configuração Memory Mapped I/O Base como 512 GB

本文可能已自动翻译。如果您对其质量有任何反馈,请使用此页面底部的表单告知我们。

文章内容


症状

Descrição

Ao tentar instalar uma GPU NVidia (por exemplo, M10) em um servidor 14G compatível (R740 e R740XD). Após a instalação da vib do driver, o seguinte erro pode ser exibido ao tentar executar o comando nvidia-smi:

[root@localhost:~] nvidia-smi
Failed to initialize NVML: Unknown Error


SLN308065_en_US__1PSE2940error


No nvidia-bug-report.log, eventos semelhantes aos seguintes são vistos na seção /var/log/vmkernel.log:

2017-11-02T18:28:19.707Z cpu45:66263)NVRM: loading NVIDIA UNIX x86_64 Kernel Module  384.73  Mon Aug 21 15:16:25 PDT 2017
2017-11-02T18:28:19.710Z cpu3:66145)NVRM: This is a 64-bit BAR mapped above 16 TB by the system
NVRM: BIOS or the VMware ESXi kernel. This PCI I/O region assigned
NVRM: to your NVIDIA device is not supported by the kernel.
NVRM: BAR1 is 256M @ 0x382fe00$



 


Solução

O hardware está funcionando bem. Para resolver esse problema, defina a configuração Memory Mapped I/O Base como 512 GB (o padrão é 56 TB) ou 12 TB (se o servidor tiver mais de 512 GB de RAM):

SLN308065_en_US__2PSE2940biossetting


Esse problema está documentado no manual do proprietário do hardware R740:

Memory Mapped I/O above 4 GB – ativa ou desativa o suporte para dispositivos PCIe que precisam de grandes quantidades de memória. Ative essa opção somente para sistemas operacionais de 64 bits. Por padrão, essa opção está definida como Enabled.

Memory Mapped I/O above Base – quando essa opção estiver definida como 12 TB, o sistema mapeará a base de MMIO para 12 TB. Ative essa opção para um SO que requer endereçamento PCIe de 44 bits.
Quando a opção estiver definida como 512 GB, o sistema mapeará a base de MMIO para 512 GB e reduzirá o suporte máximo à memória para menos de 512 GB. Ative essa opção somente para o problema DGMA de quatro GPUs. Por padrão, essa opção é definida como 56 TB.

http://topics-cdn.dell.com/pdf/poweredge-r740_owner's%20manual_en-us.pdf (página 52)

 

SLN308065_en_US__3icon Observe que isso limitará a memória do sistema a 512 GB (se a opção estiver definida como 512 GB).

 

Depois que essa configuração for alterada e o sistema for reinicializado, o comando nvidia-smi deve gerar algo semelhante a:

SLN308065_en_US__4PSE2940noerror

原因

-

解决方案

-

文章属性


受影响的产品

PowerEdge R740, PowerEdge R740XD, PowerEdge T640

上次发布日期

07 10月 2021

版本

4

文章类型

Solution