PowerEdge:什么是英特尔至强可扩展处理器的 DDR4 自我修复

Summary: 使用 DDR4 的 PowerEdge 服务器上可纠正和不可纠正的内存错误,以及对故障处理步骤的更改

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

配备 Intel Xeon 可扩展处理器(第一代或第二代)和 BIOS 2.1.x 或更高版本的 Dell PowerEdge 服务器上的 DDR4 “自我修复”是什么?

当服务器发生内存错误时,这些 DDR4“自我修复”功能(BIOS 增强功能)会对建议的客户和技术支持操作产生什么影响?

较新版本的 BIOS 中包含哪些“自我修复”增强功能?

Cause

我们持续发布 Dell PowerEdge BIOS 的改进和增强功能,以改善服务器重新启动时发生的内存事件消息传递、错误处理和“自我修复”。这样就无需安排维护窗口或现场人员来更换记录错误事件的 DDR4 内存 DIMM。

Resolution

运行 BIOS 2.1.x 和更高版本并配备 DDR4 的 PowerEdge 服务器有两个主要的与内存相关的“自我修复”BIOS 增强功能。当内存事件出现并被记录到 LifeCycle 日志中时,这些增强功能的确会改变建议的步骤或操作。

提醒:
  • 如果在 BIOS 2.0 或更低版本上 DDR4 发生内存错误,请将 BIOS 更新至最新版本,以获得内存自我修复功能和持续发布的增强功能。我们始终鼓励客户更新到最新的可用 BIOS 版本(和 iDRAC 固件),以便他们可以利用最新的自我修复增强功能。
  • 之前执行的故障处理步骤包括将故障 DIMM 移至不同的插槽,以确认错误是与 DIMM 还是与 DIMM 插槽有关。对于 BIOS 2.1.x 或更高版本,第一个推荐步骤是重新启动(无需将 DIMM 移至不同的插槽)。允许新的 BIOS 增强功能运行,这可能可以解决(自我修复)DIMM 错误,而无需计划任何 DIMM 更换。
  1. 内存重新安排 增强功能

内存重新安排发生在启动过程(在“配置内存”步骤的较早操作)中,通过优化每个 DIMM/插槽的信号计时和裕度以获得最好的访问效果。DIMM 的内存信号计时和裕度特征可能会随着时间的推移而发生变化,原因有多种:

  • 服务器内存配置更改
  • BIOS 更改(内存参考代码 - MRC)
  • 不同的服务器或 DIMM 运行温度
  • DIMM 的一般使用期限

之前,当检测到 BIOS 更新或内存配置更改时,会在后续的启动中进行内存重新安排。从 BIOS 2.1.x 开始,为内存重新安排增加了可纠正和不可纠正内存错误的“触发器”:

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

任何记录在 SEL 或生命周期日志中的错误都会导致为下一次重新启动(热或冷)计划内存重新训练。无论启动什么,BIOS 都会自动强制进行冷重启。

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."

 

如果操作系统无法处理该错误,此多位错误可能会导致服务器重新启动,因为存在致命错误。在该启动过程中,将自动进行内存重新安排。如果在非关键内存位置发生操作系统能够处理的多位错误,则必须计划重新启动。

开机自检期间的内存重新训练可能会通过优化信号时序和裕量,“自我修复”故障 DIMM 和相关插槽。无需为这些错误更换 DIMM,除非启动过程中内存重新安装失败 (UEFI0106) 或这些错误继续出现。
 

  1. 封装后修复(PPR)

第二个“自我修复”内存增强功能是 PPR。PPR 通过禁用硬件层上的位置或地址并启用一个备用内存行来修复故障内存位置。可用的备用内存行的确切数量取决于 DRAM 设备和 DIMM 大小。

此前,此功能仅限于制造过程。与上文提到的内存重新安排增强功能相似,某些可纠正的内存错误会导致在下一次重新启动(热重启或冷重启)时对特定 DIMM 插槽运行 PPR。无论启动什么,BIOS 都会自动强制进行冷重启。由于在特定 DIMM 插槽上安排了 PPR 操作,因此在运行 PPR 操作之前,请勿更改 DIMM 插槽位置。错误示例如下:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

日志中的任何这些事件都会导致为“配置内存”阶段开始时的下一次重启(热重启或冷重启)计划 PPR。

提醒:消息 ID MEM8000(Correctable memory error logging disabled for a memory device at location DIMM_XX.),在同一 DIMM 位置没有相应的 MEM0005/MEM0701/MEM0702,不会导致为下一次重新启动计划 PPR。

有关 MEM8000 事件和更新版本 1.1 及更高版本白皮书的更改,请参阅 2020 年 7 月 10 日更新。

重新启动后,确认 PPR 操作已成功执行。成功的 PPR 操作的示例类似于:

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."


无需为这些可纠正内存错误更换 DIMM,除非进行了 PPR 操作。失败的严重 PPR 消息的示例如下:

UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."

 

一本新近发布的白皮书(版本 1.0)介绍了与 Dell PowerEdge 服务器内存相关的可靠性、可用性和可维护性 (RAS) 功能,其中介绍了 PowerEdge 服务器中可用的各种 RAS 功能和特性 — Memory Errors and Dell EMC PowerEdge YX4X Server Memory RAS Features(内存错误和 Dell PowerEdge YX4X 服务器内存 RAS 功能)

 

上次更新日期 2020 年 4 月 24 日

戴尔不断增强我们的“自我修复”功能。以下部分列出了与不同 BIOS 版本关联的更新和增强功能。

BIOS 2.1.x — 关于从 BIOS 2.1.6 及更高版本开始提供“自我修复”功能的初始文章发布,包括错误消息示例和建议的操作。

BIOS 2.4.x 和更新版本更改(2019 年 12 月)

  • MEM0702(已超出可纠正错误率)— 消息从严重更新为警告。更新了建议的操作以重新启动服务器,以允许进行“自我修复”— 例如,开机自检程序包修复。
    • 还需要安装 2019 年 12 月或更高版本的 iDRAC 以获取更新的消息
    • 建议措施:重新启动服务器以允许 PPR 运行
  • MEM9060 — 更新消息说明以指示“自我修复”已成功完成

BIOS 2.5.x 和更新版本更改(2020 年 2 月)

  • 添加了“Correctable Error Logging”BIOS 选项,以允许客户禁用与可纠正错误相关的所有生命周期或 SEL 日志记录。所有“自我修复”功能将继续正常工作 — 例如,PPR 和内存重新安排仍会在下次重新启动期间(在配置内存过程的早期阶段)计划和运行。
  • 为 RDIMM 和 LRDIMM 添加 MEM08xx 错误,替换现有错误消息和操作。现有错误消息仍用于不支持“自我修复”功能的平台。
    • 需要 2020 年 2 月或更高版本的 iDRAC,用于记录新消息。
提醒:如果没有更新的 iDRAC,新的 BIOS 消息在 SEL 或生命周期日志中“未知”。
  • MEM0802 — 更换的 MEM0702 — 超过可纠正错误率
    • 建议措施:重新启动服务器以允许 PPR 运行。确认 PPR 成功 (MEM0802)
  • MEM0804 — 更换了 MEM9060,指示 PPR 成功。现在包括运行 PPR 的 DIMM 插槽位置
    • 建议措施:无,此事件表示发生了“自我修复”,无需更换 DIMM。
  • MEM0805 — 更换了 UEFI0278,指示 PPR 失败
    • 建议措施:更换故障 DIMM

上次更新日期:2020 年 7 月 10 日

BIOS 2.7.x 和更新版本更改(2020 年 7 月发布的 BIOS — 针对 Web 发布于 7 月中旬推出)

  • MEM8000(已禁用可纠正的错误日志记录)— 从 BIOS ~2.0.x 开始,戴尔工程部门进行了 BIOS 更改,以改善可能影响性能的可纠正错误检测率。此更改导致 MEM8000 事件出现上升,而 DIMM 故障分析的结果并未证实这一点。从 BIOS 2.7.x 开始,有两个与 MEM8000 相关的更改。第一个是已修改 MEM8000 事件的信号。第二个是 BIOS 为下一次重新启动计划自我修复 (PPR)。iDRAC 消息尚未更新以反映新操作。
    • 建议措施:重新启动服务器以允许运行自我修复/PPR。确认 PPR 成功 (MEM0804)。
  • MEM0001(不可纠正的错误)— 导致为下一次重新启动计划自我修复 (PPR)。iDRAC 消息尚未更新以反映新操作。
    • 建议措施:如果 MEM0001 与操作系统无法恢复的关键页面有关,则无需执行任何操作 — 仍是导致重新启动的致命错误。如果 MEM0001 与操作系统可以恢复的非关键页面相关,则必须计划重新启动,以进行所有自我修复 (PPR)。确认 PPR 成功 (MEM0804)。

上次更新日期:2021 年 1 月 13 日

BIOS 2.8.2 及更高版本更改(2020 年 9 月周期 BIOS)

  • MEM9072(内存巡检清理过程识别出不可纠正的错误 — 页面未使用或正在使用中)— 导致为下一次重新启动计划自我修复 (PPR)。iDRAC 消息尚未更新以反映新操作。
    • 建议措施:立即计划重新启动。延迟重新启动可能会导致页面被占用,从而导致 MEM0001 错误,从而可能导致重新启动。内存自我修复 (PPR) 在重新启动期间运行。确认 PPR 成功 (MEM0804)。
提醒:最新版本的工程白皮书(版本 1.3 - 发布日期:2020 年 11 月 20 日)位于:  https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdf
有关 Intel Xeon E 和 AMD EPYC 内容,请继续参考原始工程白皮书(版本 1.0):PowerEdge YX4X 服务器内存 RAS 1.0 版白皮书(dell.com)

在未来的 BIOS 更新中,我们还将评估更多的 RAS 功能增强。

 
提醒:有关特定错误代码消息的详细说明和建议的操作,请参阅以下链接:查找 (dell.com)。由于错误代码(如 MEM0001)适用于多代服务器和平台,因此建议的操作可能不是特定 BIOS 版本的最新操作。已添加的新错误代码(如 MEM0802、MEM0804、MEM0805 等)仅适用于配备英特尔至强可扩展处理器(第一代或第二代)的服务器。

 

本文将在新信息可用时更新。


下载和驱动程序:驱动程序和下载

Affected Products

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R240, OEMR R250 , OEMR XE R250, OEMR R260, OEMR XE R260, OEMR R340, OEMR R350, OEMR XE R350, OEMR R360, OEMR XE R360, OEMR R440, PowerEdge XR2, OEMR R450, OEMR R540, OEMR R550, OEMR R5500, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R660, OEMR XL R660, OEMR R660xs, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R760, OEMR R760xa, OEMR R760XD2, OEMR XL R760, OEMR R760xs, OEMR R840, OEMR R860, OEMR R940, OEMR R940xa, OEMR R960, OEMR T140, OEMR T150, OEMR T340, OEMR T350, OEMR T360, OEMR T440, OEMR T550, OEMR T560, OEMR T640, OEMR XL T640, OEMR XL R240, OEMR XL R340, OEMR XL R660xs, OEMR XR11, OEMR XR12, OEMR XR4000r, OEMR XR4000w, OEMR XR4510c, OEMR XR4520c, OEMR XR5610, OEMR XR7620, OEMR XR8610t, OEMR XR8620t, Poweredge C4140, PowerEdge C6420, PowerEdge C6520, PowerEdge C6525, PowerEdge C6615, PowerEdge C6620, PowerEdge FC640, PowerEdge HS5610, PowerEdge HS5620, PowerEdge M640, PowerEdge MX740C, PowerEdge MX750c, PowerEdge MX760c, PowerEdge MX840C, PowerEdge R240, PowerEdge R250, PowerEdge R260, PowerEdge R340, PowerEdge R350, PowerEdge R360, PowerEdge R440, PowerEdge R450, PowerEdge R540, PowerEdge R550, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R660, PowerEdge R660xs, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R760, PowerEdge R760XA, PowerEdge R760xd2, PowerEdge R760xs, PowerEdge R840, PowerEdge R860, PowerEdge R940, PowerEdge R940xa, PowerEdge R960, PowerEdge T140, PowerEdge T150, PowerEdge T160, PowerEdge T340, PowerEdge T350, PowerEdge T360, PowerEdge T440, PowerEdge T550, PowerEdge T560, PowerEdge T640, PowerEdge XE2420, PowerEdge XE7100, PowerEdge XE7420, PowerEdge XE7440, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680, PowerEdge XE9680L, PowerEdge XR11, PowerEdge XR12, PowerEdge XR4000r, PowerEdge XR4000w, PowerEdge XR4510c, PowerEdge XR4520c, PowerEdge XR5610, PowerEdge XR7620, PowerEdge XR8610t, PowerEdge XR8620t, PowerFlex appliance R650, PowerFlex appliance R660, Powerflex appliance R750, PowerFlex appliance R760, PowerFlex custom node R650, PowerFlex custom node R660, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R860, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN C6420 Ready Node, Dell EMC vSAN MX740c Ready Node, Dell EMC vSAN MX750c Ready Node, Dell vSAN Ready Node MX760c, Dell EMC vSAN R440 Ready Node, Dell EMC vSAN R640 Ready Node, Dell EMC vSAN R650 Ready Node, vSAN Ready Node R660, Dell EMC vSAN R740 Ready Node, Dell EMC vSAN R740xd Ready Node, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R760 Ready Node, Dell EMC vSAN R840 Ready Node, Dell EMC vSAN T350 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...

Products

PowerFlex rack, VxFlex Ready Nodes, PowerFlex Appliance, PowerFlex custom node, ScaleIO, PowerFlex appliance Intelligent Catalog Software, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex custom node, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R660, PowerFlex custom node R6625, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R7625, PowerFlex rack connectivity, PowerFlex rack HW, PowerFlex rack RCM Software, PowerFlex Software, VxFlex Ready Node, VxFlex Ready Node R640, VxFlex Ready Node R740xd, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...
Article Properties
Article Number: 000053203
Article Type: Solution
Last Modified: 25 Nov 2025
Version:  26
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.