Dell PowerEdge BIOS 有持续的改进和增强功能,以改善服务器重新启动时发生的内存事件消息传递、错误处理和“自我修复”。这样就无需计划维护窗口或现场人员来更换记录错误事件的 DDR4 内存 DIMM。
运行 BIOS 2.1.x 和更高版本并配备 DDR4 的 PowerEdge 服务器有两个主要的与内存相关的“自我修复”BIOS 增强功能。当内存事件发生并记录到 LifeCycle 日志中时,这些增强功能确实会改变建议的步骤或操作。
内存重新安排发生在启动过程中(在“配置内存”步骤的较早操作),可优化每个 DIMM/插槽的信号计时和裕度以获得最佳访问效果。DIMM 的内存信号计时和裕度特征可能会随着时间的推移而变化,原因有多种:
之前,当检测到 BIOS 更新或内存配置更改时,会在后续的启动中进行内存重新安排。从 BIOS 2.1.x 开始,为内存重新安排增加了可纠正和不可纠正内存错误的“触发器”:
Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
只要任意以上错误被记录在 SEL/LifeCycle 日志中,都将为下一次重新启动(热重启或冷重启)安排内存重新安排。无论启动什么,BIOS 都会自动强制进行冷重启。
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
如果操作系统无法处理该错误,此多位错误可能会导致服务器重新启动,因为存在致命错误。在该启动过程中,将自动进行内存重新安排。如果在非关键内存位置发生操作系统能够处理的多位错误,则必须计划重新启动。
开机自检期间的内存重新安排可能会优化信号时序和裕度,从而“自我修复”故障 DIMM 和相关插槽。无需为这些错误更换 DIMM,除非启动过程中内存重新安装失败 (UEFI0106) 或这些错误继续出现。
第二个“自我修复”记忆增强功能是 PPR。PPR 通过禁用硬件层上的位置或地址来修复故障内存位置,转而使用备用内存行。可用的备用内存行的确切数量取决于 DRAM 设备和 DIMM 大小。
此前,此功能仅限于制造过程。与上文提到的内存重新安排增强功能一样,某些可纠正的内存错误会导致在下一次重新启动(热重启或冷重启)时在特定 DIMM 插槽上计划 PPR。无论启动什么,BIOS 都会自动强制进行冷重启。由于在特定 DIMM 插槽上安排了 PPR 操作,因此在运行 PPR 操作之前,请勿更改 DIMM 插槽位置。错误示例如下:
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
日志中的任何这些事件都会导致在“配置内存”阶段早期为下一次重新启动(热重启或冷重启)计划 PPR。
重新启动后,确认 PPR 操作已成功执行。成功的 PPR 操作的示例类似于:
MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
新发布的白皮书(版本 1.0)介绍了 Dell PowerEdge 服务器与内存相关的可靠性、可用性和可维护性 (RAS) 功能,其中介绍了 PowerEdge 服务器上可用的各种 RAS 特性和功能 - 内存错误和 Dell EMC PowerEdge YX4X 服务器内存 RAS 功能。
有关可纠正错误阈值事件的更多信息,请参阅第 14 代英特尔和第 15 代英特尔/AMD PowerEdge 服务器:DDR4 内存:管理可纠正的错误阈值事件。上次更新日期 2020 年 4 月 24 日
戴尔正在不断增强我们的“自我修复”功能。以下部分列出了与不同 BIOS 版本关联的更新和增强功能。
BIOS 2.1.x — 关于从 BIOS 2.1.6 及更高版本开始提供“自我修复”功能的初始文章发布,包括错误消息示例和建议的操作。
BIOS 2.4.x 和更新版本更改(2019 年 12 月)
BIOS 2.5.x 和更新版本更改(2020 年 2 月)
上次更新日期:2020 年 7 月 10 日
BIOS 2.7.x 和更新版本更改(2020 年 7 月发布的 BIOS — 针对 Web 发布于 7 月中旬推出)
上次更新日期:2021 年 1 月 13 日
BIOS 2.8.2 及更高版本更改(2020 年 9 月周期 BIOS)
在未来的 BIOS 更新中,我们还将评估更多的 RAS 功能增强。
本文将在有新信息可用时更新。
另请参见:有关通过交换测试对内存进行故障处理的指导 — 通过交换测试
对 PowerEdge 系统上的内存错误进行故障处理下载和驱动程序:驱动程序与下载 |戴尔美国