跳转至主要内容
  • 快速、轻松地下订单
  • 查看订单并跟踪您的发货状态
  • 创建并访问您的产品列表
  • 使用“Company Administration”(公司管理),管理Dell EMC站点、产品和产品级联系人。

Dell PowerEdge 14G: ESXi 返回 NVidia GPU 错误消息 "Failed to initialize NVML: Unknown Error"

摘要: 要解决此问题,请将 Memory Mapped I/O Base 设置为 512 GB

本文可能已自动翻译。如果您对其质量有任何反馈,请使用此页面底部的表单告知我们。

文章内容


症状

描述

当尝试在受支持的 14G 服务器(R740 和 R740XD)上安装 NVidia GPU(例如 M10)时,在安装驱动程序 vib 后尝试执行 nvidia-smi 命令过程中,可能会出现以下错误:

[root@localhost:~] nvidia-smi
无法初始化 NVML:未知错误


SLN308065_en_US__1PSE2940error


在 nvidia-bug-report.log 中,/var/log/vmkernel.log 部分会显示类似于以下内容的事件:

2017-11-02T18:28:19.707Z cpu45:66263)NVRM: loading NVIDIA UNIX x86_64 Kernel Module  384.73  Mon Aug 21 15:16:25 PDT 2017
2017-11-02T18:28:19.710Z cpu3:66145)NVRM: This is a 64-bit BAR mapped above 16 TB by the system
NVRM: BIOS or the VMware ESXi kernel. This PCI I/O region assigned
NVRM: to your NVIDIA device is not supported by the kernel.
NVRM: BAR1 is 256M @ 0x382fe00$



 


解决方案

硬件工作正常。要解决此问题,请将 Memory Mapped I/O Base 设置设为 512 GB(默认值为 56Tb)或 12 TB(如果服务器具有 >512GB 的 RAM):

SLN308065_en_US__2PSE2940biossetting


此问题记录在 R740 硬件用户手册中:

Memory Mapped I/O above 4 GB - 启用或禁用要求大量内存的 PCIe 设备支持。仅 64 位操作系统可启用此选项。此选项默认为已启用。

Memory Mapped I/O above Base - 当设置为 12 TB 时,系统将 MMIO 库映射到 12 TB。需要 44 位 PCIe 寻址的操作系统可启用此选项。
当设置为 512 GB 时,系统将 MMIO 库映射到 512 GB,并将最大内存支持减少到低于 512 GB。仅针对 4 GPU DGMA 问题启用此选项。此选项默认设置为 56 TB。

http://topics-cdn.dell.com/pdf/poweredge-r740_owner's%20manual_en-us.pdf(第 52 页)

 

SLN308065_en_US__3icon 请注意,这会将系统内存限制为 512 GB(如果已设置为 512 GB)。

 

更改此设置并重新引导系统后,nvidia-smi 应输出类似于以下内容的信息:

SLN308065_en_US__4PSE2940noerror

原因

解决方案

文章属性


受影响的产品

PowerEdge R740, PowerEdge R740XD, PowerEdge T640

上次发布日期

07 10月 2021

版本

4

文章类型

Solution