Servidores PowerEdge 14G Intel y 15G: Administración de eventos de umbral de error corregibles

摘要: En este artículo, se proporcionan recomendaciones actualizadas para administrar eventos de umbral de error corregibles (MEM0802 o MEM5104) en RDIMM o LRDIMM DDR4 instalados en servidores PowerEdge 14G y 15G basados en Intel y servidores PowerEdge 15G basados en AMD. ...

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

症状

Nota: Este artículo no se aplica a los servidores PowerEdge basados en AMD 14G, como las plataformas 64x5 o 74x5, ya que no tienen esta funcionalidad de reinstalación automática de reparación posterior al paquete, a pesar de que el propio DIMM la admite.

A través de la evolución de las características de confiabilidad, accesibilidad y facilidad de reparación (RAS) en toda la memoria de clase empresarial, Dell adoptó un enfoque conservador para proporcionar transparencia a nuestros clientes. A medida que esta evolución continúa, también lo hace el enfoque de Dell para la generación de informes de errores, lo que permite centrarse en los avisos que requieren una respuesta más urgente en comparación con los avisos que son principalmente de naturaleza informativa.

A medida que las geometrías de memoria basadas en DRAM continúan reduciéndose, lo que proporciona a los clientes el mayor rendimiento que exigen, se espera una cantidad cada vez mayor de errores corregibles como parte natural del escalamiento uniforme.

原因

Dentro de la industria global de servidores, existe una comprensión cada vez más aceptada, compartida por Dell, de que algunos errores corregibles por DIMM son inevitables y no justifican inherentemente un reemplazo del módulo de memoria o incluso un reinicio inmediato para iniciar la reinstalación automática.

解决方案

Continuar operando un sistema que informa errores corregibles sin un reinicio para autorrepararse no aumenta el riesgo de experimentar errores incorregibles que pueden provocar un tiempo de inactividad no planificado. Otros en la industria han comunicado públicamente que su manejo de memoria no informa errores corregibles.

En la versión 2.5.4 y posteriores del BIOS Intel PowerEdge 14G y posteriores, se agregó una configuración del BIOS denominada "Registro de errores corregibles" para permitir a los clientes la opción de deshabilitar la generación de informes de errores corregibles si así lo desean, y muchos lo han hecho. El BIOS continúa programando la reinstalación automática para eventos de umbral corregibles, incluso sin el registro. Esta reinstalación automática programada se produce automáticamente durante el reinicio posterior del sistema.

Para estar más en línea con la industria y los comentarios continuos de los clientes, a partir de marzo de 2022, las actualizaciones del BIOS de Dell PowerEdge cambian la configuración del BIOS "Registro de errores corregibles" para que se deshabilite de manera predeterminada. Esta opción del BIOS se puede volver a habilitar para los clientes que deseen seguir viendo eventos de umbral de memoria corregibles. Las versiones del BIOS con este cambio de configuración del BIOS incluido son las siguientes:

  • Plataformas Intel 14G: versiones del BIOS 2.13.3 o más recientes
  • Plataformas AMD 15G: versiones del BIOS 2.6.5 o más recientes
  • Plataformas Intel 15G: versiones del BIOS 1.5.5 o posteriores.

Los beneficios de la autorreparación de DIMM DDR4 mediante un reinicio del sistema son los siguientes:

  • Permite la reparación de un DIMM DDR4 sin quitarlo del sistema; todos los DIMM DDR4 de Dell admiten la función de autorreparación de memoria.
 
Nota: Los servidores AMD PowerEdge 14G no tienen esta funcionalidad de reinstalación automática.
 
  • Utiliza filas de repuesto disponibles diseñadas en la DRAM donde una fila defectuosa se reemplaza permanentemente por una fila en buen estado por un fusible eléctrico.
  • El reentrenamiento de memoria subsiguiente optimiza los "ojos de datos" mediante la recalibración de los puntos centrales para garantizar que el bus de memoria funcione en el nivel más alto de integridad de señalización.

En el caso de los eventos de umbral corregibles con el ajuste del BIOS "Registro de errores corregible" Activado, si se producen eventos de umbral de memoria, Dell Technologies recomienda reiniciar según el programa de mantenimiento regular del cliente para permitir la reinstalación o autocorrección automáticas de la memoria programadas. Después del reinicio, se registrarán eventos de reinstalación automática correcta o incorrecta para los módulos DIMM asociados.

Con la configuración Di del BIOS "Registro de errores corregible" habilitada, Dell Technologies recomienda reiniciar según el programa de mantenimiento regular del cliente. Tras el reinicio, todas las operaciones de reinstalación automática programadas se ejecutan automáticamente. El sistema registra un evento (eventos de tipo MEM0805 o MEM7114) si la operación de reinstalación automática o autocorrección no se realizó correctamente y recomienda reemplazar físicamente el DIMM afectado.

Recomendación:
El equipo de ingeniería de memoria de Dell recomienda que los clientes del servidor PowerEdge con versiones anteriores del BIOS (versiones anteriores al bloque de marzo de 2022) adopten la modificación del ajuste del BIOS "Registro de errores corregible" a Deshabilitado. Esto elimina los eventos esporádicos de umbral de memoria corregible (como los eventos de tipo MEM0802 o MEM5104) en toda la infraestructura del servidor que recomiendan reinicios del servidor para permitir la reinstalación automática o la autocorrección. Como se mencionó anteriormente, todas las operaciones de reinstalación o autocorrección automáticas programadas se ejecutan automáticamente cuando se reinicia el servidor y se informan todas las fallas.

La configuración del BIOS "Registro de errores corregible" se puede cambiar reiniciando el servidor con la configuración F2 o utilizando la interfaz de usuario web de iDRAC.

Para cambiar la configuración del BIOS desde F2 Configuración del sistema:

  • Reinicie los servidores deteniéndose en la configuración de F2
  • En la selección BIOS Settings>Memory Settings , cambie Correctable Error Logging a Disabled.
  • Guarde la configuración del BIOS y salga de la configuración de F2

Para cambiar la configuración del BIOS mediante la interfaz de usuario web de iDRAC:

  • Inicio de sesión en la interfaz de usuario web de iDRAC
  • En Ajustes de configuración >del BIOS, expanda la sección Ajustes de memoria
  • Cambie la configuración Registro de errores corregibles a Deshabilitado
  • Haga clic en el botón Aplicar para guardar la configuración de la memoria
  • No olvide seleccionar el botón Aplicar y reiniciar (para reiniciar inmediatamente) o el botón En el siguiente reinicio para aplicar los cambios en el BIOS.

Los artículos y la documentación técnica relacionados con la memoria existentes se actualizan para reflejar este cambio recomendado.
 

Nota: La mensajería orientada al cliente aprobada se adjunta como un archivo a este artículo: "Managing Correctable Error Notices Dec 2021 v1.pdf”.


Este artículo se actualiza a medida que hay nueva información disponible.

受影响的产品

Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, PowerEdge XR2, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R840, OEMR R940, OEMR R940xa, Poweredge C4140, PowerEdge C6420, PowerEdge C6520 , PowerEdge C6525, PowerEdge MX740C, PowerEdge MX750c, PowerEdge MX840C, PowerEdge R350, PowerEdge R440, PowerEdge R450, PowerEdge R540, PowerEdge R550, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R6515, PowerEdge R6525, PowerEdge R740, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R7515, PowerEdge R7525, PowerEdge R840, PowerEdge R940, PowerEdge R940xa, PowerEdge T340, PowerEdge T350, PowerEdge T360, PowerEdge T440, PowerEdge T550, PowerEdge T560, PowerEdge T640, PowerEdge XE2420, PowerEdge XE7420, PowerEdge XE7440, PowerEdge XE8545, PowerEdge XR11, PowerEdge XR12, PowerEdge XR4510c, PowerEdge XR4520c, VxFlex Ready Node R740xd, Dell EMC vSAN R740 Ready Node, Dell EMC vSAN R740xd Ready Node, Dell EMC vSAN R840 Ready Node, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840 ...

产品

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R340, OEMR R440 , PowerEdge XR2, OEMR R540, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R6515, OEMR R6525, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R7515, OEMR R7525, OEMR R840, OEMR R940, OEMR R940xa, OEMR T440, OEMR T550, OEMR T640, OEMR XL T640, OEMR XL R340, PowerEdge C6420, PowerEdge C6525, PowerEdge MX740C, PowerEdge MX840C, PowerEdge R340, PowerEdge R540, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R6515, PowerEdge R6525, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R7515, PowerEdge R7525, PowerEdge R840, PowerEdge R940, PowerEdge R940xa, PowerEdge T440, PowerEdge T550, PowerEdge T640, PowerFlex appliance R650, PowerFlex appliance R6525, Powerflex appliance R750, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R750, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R7515 Ready Node, Dell EMC vSAN R840 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, Dell EMC XC Core XC7525 ...
文章属性
文章编号: 000194574
文章类型: Solution
上次修改时间: 07 11月 2025
版本:  5
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。