NVDIMM-N:错误消息差异和“自我修复”功能简介
摘要: 本文介绍 NVDIMM-N 的不同错误消息和自我修复功能,以及它在 RDIMM 和 LRDIMM 之间有何不同。
说明
NVDIMM-N:
NVDIMM-N 是否支持作为 BIOS 2.1.8 和更高版本的一部分为标准 RDIMM/LRDIMM 内存提供的“自我修复”功能?
由于 BIOS 更改,错误日志记录行为有哪些差异?
技术支持部门有何建议以及针对不同的错误消息应采取哪些措施?
RDIMM/LRDIMM 和 NVDIMM-N 模块之间的主要区别是什么?
自我修复功能
封装后修复 (PPR) — NVDIMM-N 内存模块不支持像标准 RDIMM/LRDIMM 那样的 PPR 功能。
内存重新训练 — NVDIMM-N 内存模块支持内存重新训练。内存重新训练计划并非特定于 DIMM 插槽位置,而是适用于插入内存总线的所有设备。因此,RDIMM/LRDIMM 的所有相同触发器都适用,即内存错误、配置更改等。
永久性内存清理有助于识别 NVDIMM-N 上的多位错误或不可纠正错误,减少未来故障,尽管这不是自我修复功能。
BIOS 会记录错误,并向操作系统提供内存位置,操作系统会将该位置添加到要避免使用的坏内存位置黑名单中。当这些内存位置未被操作系统“占用”或使用时,这些不是严重错误,也不是致命错误。
永久性内存清理有三种 BIOS 设置:
Auto:当检测到多位错误时,系统会在开机自检过程中自动清理永久性内存。
这是后台操作。
One Shot:在开机自检期间,系统将对整个永久性内存范围内的永久性内存进行一次清理。下次启动时,系统将返回到“Auto”永久性内存清理模式。
Enable:在每次启动时,系统将在开机自检期间清理整个永久性内存范围内的永久性内存。
可能的 NVDIMM-N 永久性内存清理错误消息以及操作或建议
请参阅以下“标准 RDIMM/LRDIMM 和 NVDIMM-N 模块之间的主要差异”部分中的示例。
MEM0001 — 所有 BIOS 版本
在位置 arg1 处的内存设备上检测到多位内存错误
永久性内存清理在已占用(使用中)的内存页面上发现多位/不可纠正的错误。
信息: 坏页面或位置会被添加到 MB NVRAM 中该插槽的坏列表。在开机自检过程中,视服务器的 BIOS 版本,MEM0702/MEM9072/MEM9022 错误可能会被报告为页面或位置尚未被占用。
建议: 更换引用的 NVDIMM-N。
MEM0702 — BIOS 2.5.4 之前(2020 年 2 月):
实际消息:已超过 arg1 的可纠正内存错误率
对于 NVDIMM-N 的次要含义:永久性内存清理在未占用的内存页面或未在使用中的位置发现不可纠正的错误。该内存页面或位置已提供给操作系统“黑名单”,不会被使用。
信息:如果此错误是由于永久性内存清理识别的坏页面或位置导致的,则在每次重新启动时的开机自检过程中都会发生此错误。要确定错误是由于可纠正的错误率还是内存清理识别的坏页面所导致,请检查 SPD 数据。
建议: 更换引用的 NVDIMM-N。
MEM9072 — BIOS 2.5.4(2020 年 2 月)至 BIOS 2.6.4(2020 年 5 月):
实际消息:系统内存在位于位置 arg1 的内存设备的非执行路径中遇到不可纠正的多位内存错误。
对于 NVDIMM-N 的次要含义:永久性内存清理在未占用(非执行路径)的内存页面或未在使用中的位置发现不可纠正的错误。该内存页面或位置已提供给操作系统“黑名单”,不会被使用。
信息:与 MEM0001 错误不同,虽然此错误是不可纠正/多位错误,但它不是在发生时会导致服务器重新启动的“致命”错误。
建议:无需执行任何操作。坏内存页面或位置已提供给操作系统“黑名单”,将不会被使用。此错误消息在每次重新启动时的开机自检期间出现。
MEM9022 — 高于 BIOS 2.7.x 的版本(2020 年 7 月后)— 计划更改:
实际消息:在插槽 arg1 中的非易失性双列直插式内存模块 (NVDIMM) 设备上检测到非严重事件。
永久性内存清理在未占用的内存页面或未在使用中的位置发现不可纠正的错误。该内存页面或位置已提供给操作系统“黑名单”,不会被使用。
建议: 无需执行任何操作。坏内存页面或位置已提供给操作系统“黑名单”,将不会被使用。
标准 RDIMM/LRDIMM 与 NVDIMM-N 模块之间的主要区别
请勿在服务器类型之间移动 NVDIMM-N 模块,即从基于 AMD 的服务器移至基于英特尔的服务器。
NVDIMM-N 模块上的现有永久性数据可能不可再访问。
不同系统类型上的 CRC 算法存在差异,会导致意外错误(MEM0001、MEM0702、MEM9072 或 MEM9022)。
将 NVDIMM-N 模块移至其他系统时,请在新系统中对其进行清理,以确保其按预期工作。清理 NVDIMM-N 模块将擦除 NVDIMM-N 上的所有数据。
请勿将 NVDIMM-N 模块从一个插槽位置移至另一个插槽位置 — 这是为了进行故障处理。NVDIMM-N 模块在操作系统中以独立或交叉存取形式,按插槽进行配置。物理重新定位 NVDIMM-N 模块可能会导致数据丢失,因为给定插槽位置中的 NVDIMM-N 模块不再与当前操作系统配置匹配。
如果 NVDIMM-N 上没有有效数据,并且 NVDIMM-N 模块必须移至不同的插槽(即交换以进行故障处理):
确保清理(擦除)关联的 NVDIMM-N 模块。如果在开机自检期间(向操作系统提供现有的“坏”列表时)在特定插槽上记录了永久性内存清理错误,即使受影响的 NVDIMM-N 模块已交换/移至其他插槽,这些错误也会继续在该插槽上出现。除了擦除 NVDIMM-N 模块上的数据外,清理操作还会清除与给定插槽关联的 MB NVRAM“坏”列表。
根据需要在操作系统中配置 NVDIMM-N 模块并还原客户数据。
NVDIMM-N 模块包含的固件在更改固件版本时可能会引入行为依赖问题。如果 NVDIMM-N 模块的固件从其原始版本降级,则必须在使用前对其进行清理。否则,可能会导致永久性内存清理报告“误报”错误(MEM0702、MEM9072 或 MEM9022)。
在最近的一个案例中,多台服务器的 NVDIMM-N 固件从版本 9772 降级到 9324,之后没有对模块进行清理。这些服务器在许多 NVDIMM-N 模块中报告了 MEM0702 错误(在开机自检期间或开机自检完成后不久)。清理(擦除)NVDIMM-N 模块解决了这些“误报”的永久性内存清理错误
有关 NVDIMM-N 内存的更多信息,请参阅 https://www.dell.com/support/home 上相应平台的 Manuals and Documents 选项卡中的《Dell EMC NVDIMM-N 永久性内存用户指南》