Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

第 14 代英特尔和第 15 代英特尔/AMD PowerEdge 服务器:DDR4 内存:管理可纠正的错误阈值事件

Summary: 更新了在基于英特尔的第 14 代和第 15 代 PowerEdge 服务器以及基于 AMD 的第 15 代 PowerEdge 服务器中安装的 DDR4 RDIMM 或 LRDIMM 上管理可纠正错误阈值事件(MEM0802 或 MEM5104)时向客户提供的建议。 提醒:本文不适用于基于 14G AMD 的 PowerEdge 服务器,例如 64x5 或 74x5 平台,因为它们不具备开机自检软件包修复/自我修复功能,即使 DIMM 本身也支持此功能。 ...

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

随着企业级内存中 RAS(可靠性、可访问性和可维护性)功能的演变,戴尔在错误报告方面采取了保守的方法,以向我们的客户提供透明度。随着这种演变,戴尔的错误报告方法也在不断发展,以便专注于需要更紧急响应的通知,而不是主要提供信息性质的通知。

随着基于 DRAM 的内存几何结构不断缩小,从而为客户提供所需的更高性能,预计在统一扩展过程中,可纠正错误会越来越多。

Cause

在全球服务器行业,戴尔也认同越来越多的共识,即每个 DIMM 的某些可纠正错误是不可避免的,并且本身并不保证更换内存模块,甚至不需要立即重新启动以启动自我修复。

Resolution

继续运行报告可纠正错误的系统而不重新启动进行自我修复,不会显著增加遇到不可纠正错误(可能导致计划外停机)的风险。事实上,业内其他公司已经公开表示,他们的内存处理未报告可纠正错误。

在第 14 代英特尔 PowerEdge BIOS 版本 2.5.4 及更高版本中,添加了一个名为“可纠正的错误日志记录”的 BIOS 设置,以允许客户选择禁用可纠正错误报告(许多选项都有)。  BIOS 将继续为可纠正阈值事件安排自我修复,即使没有日志记录也是如此。此计划的自我修复将在后续系统重新启动期间自动进行。

为了更符合行业和持续的客户反馈,从 2022 年 3 月开始,Dell PowerEdge BIOS 更新会将“可纠正的错误日志记录”BIOS 设置默认更改为禁用。  如果客户希望继续查看可纠正内存阈值事件,可以重新启用此 BIOS 选项。包括此 BIOS 设置更改的 BIOS 版本包括:
  • 第 14 代英特尔平台 — BIOS 版本 2.13.3 或更高版本
  • 15G AMD 平台 - BIOS 版本 2.6.5 或更高版本
  • 15G 英特尔平台 - BIOS 版本 1.5.5 或更高版本。

DDR4 DIMM 通过系统重新启动进行自我修复的好处:
  • 支持在不从系统中卸下的情况下修复 DDR4 DIMM;所有源自戴尔的 DDR4 DIMM 都支持内存自我修复。注 — 第 14 代 AMD PowerEdge 服务器不具备此自我修复功能。
  • 利用架构到 DRAM 中的可用备用行,其中坏行通过电气熔断永久替换为已知的好行。
  • 随后的内存重新训练通过重新校准中心点来优化“数据眼”,以确保内存总线以最高级别的信号完整性运行。


对于启用了“可纠正错误日志记录”BIOS 设置 可纠正阈值事件,如果发生内存阈值事件,戴尔建议按客户的定期维护计划重新启动,以允许执行计划的内存自我修复或自我纠正。重新启动后,将记录关联 DIMM 的成功或失败自我修复事件。

在“Correctable Error Logging”(可纠正错误日志记录)BIOS 设置处于启用状态的情况下,戴尔建议按客户的定期维护计划重新启动。重新启动后,所有计划的自我修复操作都将自动运行。如果自我修复/自我纠正操作失败,系统将记录一个事件(MEM0805 或 MEM7114 类型的事件),并进一步建议以物理方式更换受影响的 DIMM。

建议
Dell EMC 内存工程部门建议使用较旧 BIOS 版本(2022 年 3 月之前的 BIOS 版本)的 PowerEdge 服务器客户将“可纠正的错误日志记录”BIOS 设置更改为 “已禁用”。这将消除其服务器基础架构中零星的可纠正内存阈值事件(例如MEM0802或MEM5104类型事件),这些事件建议重新启动服务器以进行自我修复或自我纠正。如前所述,任何计划的自我修复或自我纠正操作都将在服务器重新启动时自动运行,并将报告任何故障。
 

可以通过将服务器重新启动至 F2 设置或通过 iDRAC GUI 更改“可纠正错误日志记录”BIOS 设置。
 

要使用 F2 设置更改 BIOS 设置,请执行以下操作:

  • 重新启动服务器,停止在 F2 设置处
  • 在 BIOS Settings -> Memory Settings 选项中,将“Correctable Error Logging”更改为 disabled。
  • 保存 BIOS 设置并退出 F2 设置

要使用 iDRAC GUI 更改 BIOS 设置,请执行以下操作:

  • 登录 iDRAC GUI
  • 在配置 -> BIOS 设置下,展开内存设置部分
  • 将“Correctable Error Logging”(可纠正的错误日志记录)设置更改为disabled(已禁用)
  • 单击应用按钮以保存内存设置
  • 不要忘记选择 应用并重新启动 按钮(立即重新启动)或下次 重新启动时 按钮 以应用 BIOS 更改。


与内存相关的现有知识库文章和白皮书将进行更新,以反映此建议的更改。

说明:经批准的面向客户的宣传信息作为文件附加到本文 —“管理可纠正的错误通知 2021 年 12 月 v1.pdf”。

本文将在有新信息可用时更新。

Article Properties


Affected Product
AX-6515, AX-7525, Dell EMC vSAN C6420 Ready Node, Dell EMC vSAN MX740c Ready Node, Dell EMC vSAN R440 Ready Node, Dell EMC vSAN R640 Ready Node, Dell EMC vSAN R650 Ready Node, Dell EMC vSAN R6515 Ready Node, Dell EMC vSAN R740 Ready Node , Dell EMC vSAN R740xd Ready Node ...
Product
Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R340, OEMR R440 , PowerEdge XR2, OEMR R540, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R6515, OEMR R6525, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R7515, OEMR R7525, OEMR R840, OEMR R940, OEMR R940xa, OEMR T440, OEMR T550, OEMR T640, OEMR XL T640, OEMR XL R340, PowerEdge C6420, PowerEdge C6525, PowerEdge MX740C, PowerEdge MX840C, PowerEdge R340, PowerEdge R540, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R6515, PowerEdge R6525, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R7515, PowerEdge R7525, PowerEdge R840, PowerEdge R940, PowerEdge R940xa, PowerEdge T440, PowerEdge T550, PowerEdge T640, PowerFlex appliance R650, PowerFlex appliance R6525, Powerflex appliance R750, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R750, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R7515 Ready Node, Dell EMC vSAN R840 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, Dell EMC XC Core XC7525 ...
Last Published Date

10 Feb 2022

Version

2

Article Type

Solution