跳转至主要内容
  • 快速、轻松地下订单
  • 查看订单并跟踪您的发货状态
  • 创建并访问您的产品列表
  • 使用“Company Administration”(公司管理),管理Dell EMC站点、产品和产品级联系人。

Dell PowerEdge 14G: ESXi 傳回「無法初始化 NVML:未知錯誤」(含 NVidia GPU)

摘要: 若要解決此問題,請將記憶體對應 I/O 基礎設定為 512 GB

本文可能已自动翻译。如果您对其质量有任何反馈,请使用此页面底部的表单告知我们。

文章内容


症状

描述名稱

嘗試將 NVidia GPU (例如 M10) 安裝至支援的 14G 伺服器 (R740 和 R740XD) 時,在安裝驅動程式 vib 後,嘗試執行以下 nvidia-smi 命令時,可能會出現下列錯誤:

[root@localhost:~] nvidia-smi
無法初始化 NVML:未知錯誤


SLN308065_en_US__1PSE2940error


在 nvidia-bug-report.log 中,在 /var/log/vmkernel.log 區段中會看到類似以下的事件:

2017-11-02T18:28:19.707Z cpu45:66263)NVRM: loading NVIDIA UNIX x86_64 Kernel Module  384.73  Mon Aug 21 15:16:25 PDT 2017
2017-11-02T18:28:19.710Z cpu3:66145)NVRM: 這是 64 位元的 BAR,由系統對應在 16 TB 以上
NVRM:BIOS 或 VMware ESXi 核心。此 PCI I/O 為區域指派
NVRM:核心不支援至您的 NVIDIA 裝置。
NVRM:BAR1 為 256M @ 0x382fe00$



 


解決方案

硬體運作正常。若要解決此問題,請將記憶體對應 I/O 基礎設定為 512 GB (預設為 56 TB) 或 12TB (如果伺服器有 >512GB RAM):

SLN308065_en_US__2PSE2940biossetting


此問題會記錄在 R740 硬體擁有者手冊中:

記憶體對應 I/O 高於 4 GB - 啟用或停用需要大量記憶體之 PCIe 裝置的支援。僅針對 64 位元作業系統啟用此選項。此設定預設為啟用。

記憶體對應 I/O 高於基礎 - 設為 12 TB 時,系統會將 MMIO 基礎對應至 12 TB。為需要 44 位元 PCIe 定址的作業系統啟用此選項。
若設為 512 GB,系統會將 MMIO 基礎對應至 512 GB,並將對記憶體的最大支援降低至低於 512 GB。僅針對 4 個 GPU DGMA 問題啟用此選項。此選項依預設設定為 56 TB。

http://topics-cdn.dell.com/pdf/poweredge-r740_owner's%20manual_en-us.pdf (第 52 頁)

 

SLN308065_en_US__3icon 請注意,這會將系統記憶體限制至 512GB (若設為 512 GB)。

 

變更此設定並重新啟動系統後,nvidia-smi 應會輸出類似以下內容:

SLN308065_en_US__4PSE2940noerror

原因

-

解决方案

-

文章属性


受影响的产品

PowerEdge R740, PowerEdge R740XD, PowerEdge T640

上次发布日期

07 10月 2021

版本

4

文章类型

Solution