PowerEdge:什么是英特尔至强可扩展处理器的 DDR4 自我修复
Summary: 使用 DDR4 的 PowerEdge 服务器上可纠正和不可纠正的内存错误,以及对故障处理步骤的更改
Symptoms
当服务器发生内存错误时,这些 DDR4“自我修复”功能(BIOS 增强功能)会对建议的客户和技术支持操作产生什么影响?
较新版本的 BIOS 中包含哪些“自我修复”增强功能?
Cause
我们持续发布 Dell PowerEdge BIOS 的改进和增强功能,以改善服务器重新启动时发生的内存事件消息传递、错误处理和“自我修复”。这样就无需安排维护窗口或现场人员来更换记录错误事件的 DDR4 内存 DIMM。
Resolution
运行 BIOS 2.1.x 和更高版本并配备 DDR4 的 PowerEdge 服务器有两个主要的与内存相关的“自我修复”BIOS 增强功能。当内存事件出现并被记录到 LifeCycle 日志中时,这些增强功能的确会改变建议的步骤或操作。
- 如果在 BIOS 2.0 或更低版本上 DDR4 发生内存错误,请将 BIOS 更新至最新版本,以获得内存自我修复功能和持续发布的增强功能。我们始终鼓励客户更新到最新的可用 BIOS 版本(和 iDRAC 固件),以便他们可以利用最新的自我修复增强功能。
- 之前执行的故障处理步骤包括将故障 DIMM 移至不同的插槽,以确认错误是与 DIMM 还是与 DIMM 插槽有关。对于 BIOS 2.1.x 或更高版本,第一个推荐步骤是重新启动(无需将 DIMM 移至不同的插槽)。允许新的 BIOS 增强功能运行,这可能可以解决(自我修复)DIMM 错误,而无需计划任何 DIMM 更换。
- 内存重新安排 增强功能
内存重新安排发生在启动过程(在“配置内存”步骤的较早操作)中,通过优化每个 DIMM/插槽的信号计时和裕度以获得最好的访问效果。DIMM 的内存信号计时和裕度特征可能会随着时间的推移而发生变化,原因有多种:
- 服务器内存配置更改
- BIOS 更改(内存参考代码 - MRC)
- 不同的服务器或 DIMM 运行温度
- DIMM 的一般使用期限
之前,当检测到 BIOS 更新或内存配置更改时,会在后续的启动中进行内存重新安排。从 BIOS 2.1.x 开始,为内存重新安排增加了可纠正和不可纠正内存错误的“触发器”:
Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
任何记录在 SEL 或生命周期日志中的错误都会导致为下一次重新启动(热或冷)计划内存重新训练。无论启动什么,BIOS 都会自动强制进行冷重启。
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
如果操作系统无法处理该错误,此多位错误可能会导致服务器重新启动,因为存在致命错误。在该启动过程中,将自动进行内存重新安排。如果在非关键内存位置发生操作系统能够处理的多位错误,则必须计划重新启动。
开机自检期间的内存重新训练可能会通过优化信号时序和裕量,“自我修复”故障 DIMM 和相关插槽。无需为这些错误更换 DIMM,除非启动过程中内存重新安装失败 (UEFI0106) 或这些错误继续出现。
- 封装后修复(PPR)
第二个“自我修复”内存增强功能是 PPR。PPR 通过禁用硬件层上的位置或地址并启用一个备用内存行来修复故障内存位置。可用的备用内存行的确切数量取决于 DRAM 设备和 DIMM 大小。
此前,此功能仅限于制造过程。与上文提到的内存重新安排增强功能相似,某些可纠正的内存错误会导致在下一次重新启动(热重启或冷重启)时对特定 DIMM 插槽运行 PPR。无论启动什么,BIOS 都会自动强制进行冷重启。由于在特定 DIMM 插槽上安排了 PPR 操作,因此在运行 PPR 操作之前,请勿更改 DIMM 插槽位置。错误示例如下:
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
日志中的任何这些事件都会导致为“配置内存”阶段开始时的下一次重启(热重启或冷重启)计划 PPR。
有关 MEM8000 事件和更新版本 1.1 及更高版本白皮书的更改,请参阅 2020 年 7 月 10 日更新。
重新启动后,确认 PPR 操作已成功执行。成功的 PPR 操作的示例类似于:
MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
无需为这些可纠正内存错误更换 DIMM,除非进行了 PPR 操作。失败的严重 PPR 消息的示例如下:
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
一本新近发布的白皮书(版本 1.0)介绍了与 Dell PowerEdge 服务器内存相关的可靠性、可用性和可维护性 (RAS) 功能,其中介绍了 PowerEdge 服务器中可用的各种 RAS 功能和特性 — Memory Errors and Dell EMC PowerEdge YX4X Server Memory RAS Features(内存错误和 Dell PowerEdge YX4X 服务器内存 RAS 功能)。
上次更新日期 2020 年 4 月 24 日
戴尔不断增强我们的“自我修复”功能。以下部分列出了与不同 BIOS 版本关联的更新和增强功能。
BIOS 2.1.x — 关于从 BIOS 2.1.6 及更高版本开始提供“自我修复”功能的初始文章发布,包括错误消息示例和建议的操作。
BIOS 2.4.x 和更新版本更改(2019 年 12 月)
- MEM0702(已超出可纠正错误率)— 消息从严重更新为警告。更新了建议的操作以重新启动服务器,以允许进行“自我修复”— 例如,开机自检程序包修复。
- 还需要安装 2019 年 12 月或更高版本的 iDRAC 以获取更新的消息
- 建议措施:重新启动服务器以允许 PPR 运行
- MEM9060 — 更新消息说明以指示“自我修复”已成功完成
BIOS 2.5.x 和更新版本更改(2020 年 2 月)
- 添加了“Correctable Error Logging”BIOS 选项,以允许客户禁用与可纠正错误相关的所有生命周期或 SEL 日志记录。所有“自我修复”功能将继续正常工作 — 例如,PPR 和内存重新安排仍会在下次重新启动期间(在配置内存过程的早期阶段)计划和运行。
- 为 RDIMM 和 LRDIMM 添加 MEM08xx 错误,替换现有错误消息和操作。现有错误消息仍用于不支持“自我修复”功能的平台。
- 需要 2020 年 2 月或更高版本的 iDRAC,用于记录新消息。
- MEM0802 — 更换的 MEM0702 — 超过可纠正错误率
- 建议措施:重新启动服务器以允许 PPR 运行。确认 PPR 成功 (MEM0802)
- MEM0804 — 更换了 MEM9060,指示 PPR 成功。现在包括运行 PPR 的 DIMM 插槽位置
- 建议措施:无,此事件表示发生了“自我修复”,无需更换 DIMM。
- MEM0805 — 更换了 UEFI0278,指示 PPR 失败
- 建议措施:更换故障 DIMM
上次更新日期:2020 年 7 月 10 日
BIOS 2.7.x 和更新版本更改(2020 年 7 月发布的 BIOS — 针对 Web 发布于 7 月中旬推出)
- MEM8000(已禁用可纠正的错误日志记录)— 从 BIOS ~2.0.x 开始,戴尔工程部门进行了 BIOS 更改,以改善可能影响性能的可纠正错误检测率。此更改导致 MEM8000 事件出现上升,而 DIMM 故障分析的结果并未证实这一点。从 BIOS 2.7.x 开始,有两个与 MEM8000 相关的更改。第一个是已修改 MEM8000 事件的信号。第二个是 BIOS 为下一次重新启动计划自我修复 (PPR)。iDRAC 消息尚未更新以反映新操作。
- 建议措施:重新启动服务器以允许运行自我修复/PPR。确认 PPR 成功 (MEM0804)。
- MEM0001(不可纠正的错误)— 导致为下一次重新启动计划自我修复 (PPR)。iDRAC 消息尚未更新以反映新操作。
- 建议措施:如果 MEM0001 与操作系统无法恢复的关键页面有关,则无需执行任何操作 — 仍是导致重新启动的致命错误。如果 MEM0001 与操作系统可以恢复的非关键页面相关,则必须计划重新启动,以进行所有自我修复 (PPR)。确认 PPR 成功 (MEM0804)。
上次更新日期:2021 年 1 月 13 日
BIOS 2.8.2 及更高版本更改(2020 年 9 月周期 BIOS)
- MEM9072(内存巡检清理过程识别出不可纠正的错误 — 页面未使用或正在使用中)— 导致为下一次重新启动计划自我修复 (PPR)。iDRAC 消息尚未更新以反映新操作。
- 建议措施:立即计划重新启动。延迟重新启动可能会导致页面被占用,从而导致 MEM0001 错误,从而可能导致重新启动。内存自我修复 (PPR) 在重新启动期间运行。确认 PPR 成功 (MEM0804)。
有关 Intel Xeon E 和 AMD EPYC 内容,请继续参考原始工程白皮书(版本 1.0):PowerEdge YX4X 服务器内存 RAS 1.0 版白皮书(dell.com)
在未来的 BIOS 更新中,我们还将评估更多的 RAS 功能增强。
本文将在新信息可用时更新。
下载和驱动程序:驱动程序和下载