跳转至主要内容
  • 快速、轻松地下订单
  • 查看订单并跟踪您的发货状态
  • 创建并访问您的产品列表
  • 使用“Company Administration”(公司管理),管理Dell EMC站点、产品和产品级联系人。

VxFlex-IR:PowerEdge DIMM ECC 可纠正内存错误

摘要: Dell 13G/14G 服务器正将 MEMXXXX 错误发布到 iDRAC 事件日志中。此事件可能导致节点挂起或导致机器检查异常。接下来您应该做什么?

本文可能已自动翻译。如果您对其质量有任何反馈,请使用此页面底部的表单告知我们。

文章内容


症状



在 iDRAC 事件日志中有一个 13G 或 14G 节点报告 MEM 错误。

如需在不进行硬件更换或 CE 计划访问的情况下解决问题,应该怎么做。

什么是 DDR4“自我修复”?
当服务器发生内存错误时,这些 DDR4“自我修复”功能(BIOS 增强功能)会对建议的客户和技术支持操作产生什么影响?

运行 BIOS 2.1.x 和更高版本并配备 DDR4 的 PowerEdge 服务器有两个主要的与内存相关的“自我修复”BIOS 增强功能。当内存错误出现并被记录到 vCenter、VxFM、dial home 或 LifeCycle 日志中时,这些增强功能的确会改变建议的步骤/操作。

注:如果您的 DDR4 发生内存错误,并且您运行的是早于 2.1.x 的 BIOS,请将 BIOS 更新至最新版本,以获得内存自我修复增强功能。  然后重新启动您的节点以继续 (PPR)。请参阅“解决方案”部分以了解更多详细信息

注:当前的内存故障处理步骤包括将故障 DIMM 移至不同的插槽,以确认错误是与 DIMM 还是与 DIMM 插槽有关。

如果 13G 节点运行的是 bios 2.8.x 或更高版本,则第一个推荐步骤是重新引导/重新启动(不将 DIMM 移至不同的插槽)。允许新的 BIOS 增强功能运行,这可能可以解决(自我修复)DIMM 错误,而无需更换任何 DIMM。

如果 14G 节点运行的是 bios 2.4.8 或更高版本,则第一个推荐步骤是重新引导/重新启动(不将 DIMM 移至不同的插槽)。允许新的 BIOS 增强功能运行,这可能可以解决(自我修复)DIMM 错误,而无需更换任何 DIMM。

原因

在大多数情况下,ECC 内存错误是由随机阿尔法粒子撞击造成的。  阿尔法粒子是在每天发生的正常辐射的一部分。  有时,阿尔法粒子会从内存模块上撞击掉单个电子,损坏数据。  现代内存模块的设计目的是识别此事件并进行修复。  每个模块保留其修复内存错误次数的内部计数器。  在 BIOS 中设置阈值,当达到该阈值时,系统会提醒服务器内存事件数超过该阈值。

解决方案

将 Bios 升级到(13G:2.8.x 或更高版本)和(14G:2.1.x 或更高版本),为安装 DDR4 RAM 的服务器启用内存重新安排增强 — 在启动过程发生的内存重新安排为每个 DIMM/插槽优化信号计时/裕度以获得最好的访问效果。一个 DIMM 的计时特征可能因多种原因而发生变化:

示例包括但不限于:
1.服务器内存配置更改
2.BIOS 更改
3.不同的服务器或 DIMM 运行温度
4.DIMM 的一般使用期限

之前,当检测到 BIOS 更新或内存配置更改时,会在后续的启动中进行内存重新安排。从 BIOS 2.1.x (14G) 和 2.8.x (13G) 开始,为内存重新安排增加了可纠正和不可纠正内存错误的“触发器”:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."

被记录在 VC events/ dial home/ SEL /LifeCycle 日志中的以上任何错误都将为下一次重新启动(热重启或冷重启)安排内存重新安排。

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location(s) DIMM_XX."

MEM0001 会导致服务器由于致命错误而重新启动。在该启动过程中,将自动进行内存重新安排。

上述任一可纠正或不可纠正(多位)内存错误导致的重新启动时的内存重新安排可能会通过优化每个 DIMM/插槽的信号计时/裕度来“自我修复”故障 DIMM。无需为这些错误更换 DIMM,除非启动过程中内存重新安装失败 (UEFI0106) 或这些错误继续。

2.开机自检程序包修复 (PPR) — 第二个“自我修复”内存增强功能。它通过禁用硬件层上的位置/地址并启用一个备用内存行来修复 DIMM 上的故障内存位置。可用的备用内存行的确切数量取决于 DRAM 设备和 DIMM 大小。
此前,此功能仅限于制造过程。与上文提到的内存重新安排增强功能相似,某些可纠正的内存错误会导致在下一次重新启动(热重启或冷重启)时对特定 DIMM 插槽运行 PPR。无论启动什么,BIOS 都会自动强制进行冷重启。由于在特定 DIMM 插槽上安排了 PPR 操作,因此在运行 PPR 操作之前,请勿更改 DIMM 插槽位置。错误示例如下:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."

被记录在 VC events/ Dial home/SEL/LifeCycle 日志中的以上任何错误都将为下一次重新启动(热重启或冷重启)安排开机自检程序包修复。

重新启动后,确认 PPR 操作已成功执行。成功的 PPR 操作的示例如下:

Message ID MEM9060 - "The PostPackage Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
无需为这些可纠正内存错误更换 DIMM,除非重新启动后 PPR 操作失败。失败的 PPR 消息的示例如下:
Critical - Message ID UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."

其他信息

注:如果您遇到独立于任何对应的 MEM0005/MEM0701/MEM0702 消息出现(即非在类似的时间范围内)的消息 ID MEM8000(已为位置 DIMM_XX 上的内存设备禁用可纠正内存错误记录),不会导致为下一次重新启动计划 PPR。

独立的或带有对应 MCE(计算机检查异常)的消息 ID MEM8000 表示 DIMM 模块的一般故障,不是可纠正或不可纠正的存储桶最初溢出的情况。此类内存事件应被视为 DIMM 故障,并且应在客户方便时尽快更换所列的 DIMM 模块。

文章属性


受影响的产品

VxFlex Product Family

产品

VxFlex Product Family

上次发布日期

15 4月 2021

版本

4

文章类型

Solution