PowerEdge: Qué es la autorreparación de DDR4 con procesadores escalables Intel Xeon

Summary: Errores de memoria corregibles y no corregibles en el servidor PowerEdge con DDR4 y cambios en los pasos de solución de problemas

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

¿Qué es la “autorreparación” de DDR4 en servidores Dell PowerEdge con procesadores escalables Intel Xeon (primera o segunda generación) con BIOS versión 2.1.x o superior?

¿Cómo cambian estas funcionalidades de “autorreparación” de DDR4 (mejoras del BIOS) las acciones recomendadas de soporte técnico y del cliente cuando se detectan errores de memoria en un servidor?

¿Cuáles son las mejoras de “autorreparación” en las versiones más recientes del BIOS?

Cause

Hay mejoras continuas en el BIOS de Dell PowerEdge para mejorar la mensajería de eventos de memoria, el manejo de errores y la “autorreparación” que se producen tras el reinicio del servidor. Esto evita la necesidad de un período de mantenimiento programado o la presencia en el sitio para reemplazar un DIMM de memoria DDR4 que estaba registrando eventos de error.

Resolution

Hay dos mejoras principales del BIOS de “autorreparación” relacionadas con la memoria que se implementaron para los servidores PowerEdge con DDR4 que ejecutan la versión 2.1.x del BIOS y posteriores. Estas mejoras realizan cambios en los pasos o acciones recomendados que se deben tomar si se producen eventos de memoria y se registran en el registro de LifeCycle.

Nota:
  • Si se hallan errores de memoria con DDR4 en BIOS 2.0 o una versión anterior, actualice el BIOS a la revisión más reciente que incluye muchas funcionalidades de autorreparación de memoria y mejoras continuas. Siempre recomendamos a los clientes que realicen la actualización a la versión más reciente disponible del BIOS (y el firmware de iDRAC) para que puedan aprovechar las mejoras de autorreparación más recientes.
  • Los pasos anteriores de solución de problemas de la memoria incluían el traslado de los módulos DIMM que fallan a una ranura diferente para confirmar si los errores se encuentran o no en el módulo DIMM o se mantienen en la ranura DIMM. Con el BIOS 2.1.x o una versión posterior, el primer paso recomendado es reiniciar (sin mover los módulos DIMM a una ranura diferente). Esto permite que se ejecuten las nuevas mejoras del BIOS, lo que podría resolver (autorreparar) los errores de módulos DIMM sin programar sus reemplazos.
  1. Mejoras en el reentrenamiento de memoria

El reentrenamiento de memoria, que se produce durante el arranque (al principio de los pasos de configuración de memoria), optimiza la temporización y el establecimiento de márgenes de la señal para cada módulo DIMM o ranura a fin de obtener el mejor acceso. Las características de temporización y establecimiento de márgenes de la señal de memoria de un DIMM pueden cambiar con el tiempo por varias razones diferentes:

  • Cambios en la configuración de la memoria del servidor
  • Cambios en el BIOS (código de referencia de memoria: MRC)
  • Diferentes temperaturas de funcionamiento del servidor o del módulo DIMM
  • La antigüedad general del módulo DIMM

Anteriormente, las actualizaciones del BIOS o los cambios de configuración de la memoria que se detectaran habrían provocado un reentrenamiento de la memoria durante el arranque posterior. A partir del BIOS 2.1.x, se agregaron “activadores” de errores de memoria que se pueden corregir y que no se pueden corregir para el reentrenamiento programado:

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

Si se registra cualquiera de estos errores en los registros de SEL o Lifecycle, se programa una readaptación de la memoria para el próximo reinicio (en caliente o en frío). El BIOS forzará automáticamente un reinicio en frío independientemente de lo que se inicie.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."

 

Este error de bits múltiples puede provocar que el servidor se reinicie debido a un error irrecuperable si el sistema operativo no puede manejar ese error. El reentrenamiento de la memoria se produce automáticamente durante ese arranque. Si el error de bits múltiples se produce en una ubicación de memoria no crítica que ese sistema operativo puede manejar, se debe programar un reinicio.

La readaptación de la memoria durante la POST puede “autorreparar” el DIMM defectuoso y la ranura asociada mediante la optimización de la temporización y establecimiento de márgenes de la señal. No es necesario sustituir el módulo DIMM por estos errores, a menos que el reentrenamiento de la memoria falle (UEFI0106) durante el arranque o que se sigan produciendo estos mismos errores.
 

  1. Reparación Post-Package (PPR)

La segunda mejora de la memoria de “autorreparación” es la PPR. La PPR repara una ubicación de memoria que falla mediante la desactivación de la ubicación o dirección en la capa de hardware, lo que permite utilizar una fila de memoria de reserva en su lugar. La cantidad exacta de filas de memoria de reserva disponible depende del dispositivo DRAM y del tamaño del módulo DIMM.

Anteriormente, esta funcionalidad se limitaba al proceso de fabricación. Al igual que con las mejoras de reentrenamiento de memoria mencionadas anteriormente, hay algunos errores de memoria que se pueden corregir, lo que provocará que la PPR se programe en una ranura DIMM específica para el próximo reinicio (reinicio flexible o en frío). El BIOS forzará automáticamente un reinicio en frío independientemente de lo que se inicie. Dado que la operación de PPR se programa en una ranura DIMM específica, NO cambie las ubicaciones de las ranuras DIMM hasta que se haya ejecutado la operación de PPR. Los siguientes son algunos ejemplos de los errores:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

Cualquiera de estos eventos en los registros hace que se programe la PPR para el próximo reinicio (en caliente o en frío) al principio de la fase de configuración de la memoria

Nota: Un ID de mensaje MEM8000 (registro de errores de memoria corregibles deshabilitado para un dispositivo de memoria en la ubicación DIMM_XX), sin un MEM0005/MEM0701/MEM0702 correspondiente en la misma ubicación de DIMM, no da como resultado una PPR programada para el próximo reinicio.

Consulte la actualización del 10 de julio del 2020 para conocer los cambios en el evento MEM8000 y la versión 1.1 actualizada y la documentación técnica más reciente.

Después del reinicio, compruebe que la operación de la PPR se haya ejecutado correctamente. Un ejemplo de una operación de la PPR exitosa será similar a lo siguiente:

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."


No es necesario un reemplazo del módulo DIMM para estos errores de memoria corregibles, a menos que la operación de la PPR. Un ejemplo de un mensaje de PPR fallida crítico es el siguiente:

UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."

 

Ahora se encuentra disponible una documentación técnica (versión 1.0) recientemente publicada que describe las características de confiabilidad, disponibilidad y facilidad de reparación (RAS) de servidores Dell PowerEdge, en la que se describen las diversas características y funcionalidades de RAS disponibles en los servidores PowerEdge: Errores de memoria y funciones RAS de memoria de servidor Dell PowerEdge YX4X.

 

Actualizado el 24 de abril de 2020

Dell continúa mejorando y expandiendo sus funcionalidades de “autorreparación”. En la siguiente sección, se enumeran las actualizaciones y mejoras asociadas con las diferentes versiones del BIOS.

BIOS 2.1.x: publicación inicial del artículo de las funcionalidades de “autorreparación” disponibles a partir del BIOS 2.1.6 y versiones posteriores, incluidos ejemplos de mensajes de error y acciones recomendadas.

BIOS 2.4.x y cambios más recientes (diciembre de 219)

  • MEM0702 (se superó la tasa de errores corregibles): mensaje actualizado de crítico a precaución. Con las acciones recomendadas actualizadas para reiniciar el servidor y permitir que se produzca la “autorreparación”, es decir, reparación Post-Package.
    • Requiere que esté instalada la versión de diciembre del 2019 o una más reciente de iDRAC para obtener el mensaje actualizado
    • Acción recomendada: Reinicie el servidor para permitir que se ejecute PPR
  • MEM9060: se actualizó la descripción del mensaje para indicar que la "autorreparación" se completó con éxito

BIOS 2.5.x y cambios más recientes (febrero del 2020)

  • Se agregó una opción de BIOS "Registro de errores corregibles" para permitir que los clientes deshabiliten todos los registros de Lifecycle o SEL relacionados con errores corregibles. Todas las características de "autorreparación" continúan funcionando; por ejemplo, PPR y el reentrenamiento de la memoria aún están programados y se ejecutan durante el próximo reinicio (al principio del proceso de configuración de la memoria).
  • Adición de errores MEM08xx para RDIMM y LRDIMM que reemplazan los mensajes de error y las acciones existentes. Los mensajes de error existentes se siguen utilizando para plataformas que no soportan las funcionalidades de "autorreparación".
    • Se requiere la versión de febrero del 2020 o más reciente de iDRAC para que se registren los nuevos mensajes.
Nota: Sin la iDRAC actualizada, los nuevos mensajes del BIOS son "desconocidos" en los registros de SEL o Lifecycle.
  • MEM0802: reemplazó a MEM0702, se superó la tasa de errores corregibles.
    • Acción recomendada: Reinicie el servidor para permitir la ejecución de PPR. Confirme que la PPR se haya realizado con éxito (MEM0802).
  • MEM0804: reemplazó a MEM9060 que indica que la PPR fue exitosa. Ahora incluye las ubicaciones de las ranuras DIMM que ejecutaron la PPR.
    • Acción recomendada: Ninguna, este evento indica que se produjo una "autorreparación", no se necesita un reemplazo de DIMM.
  • MEM0805: reemplazó a UEFI0278 indicando que la PPR falló
    • Acción recomendada: Reemplazar el DIMM que falla

Actualizado el 10 de julio del 2020

El BIOS 2.7.x y los cambios más recientes (julio de 2020 bloquea el BIOS, prevista para su publicación web a mediados de julio)

  • MEM8000 (registro de errores corregible deshabilitado): a partir de BIOS ~2.0.x, el equipo de ingeniería de Dell realizó un cambio en el BIOS para mejorar la tasa de detección de errores corregibles que pueden afectar el rendimiento. Este cambio dio como resultado un aumento en los eventos de MEM8000 que no se respaldaron por los resultados del análisis de fallas del DIMM. A partir del BIOS 2.7.x, hay dos cambios relacionados con MEM8000. El primero es que la señalización del evento MEM8000 se modificó. En segundo lugar, el BIOS programa la autorreparación (PPR) para el próximo reinicio. Los mensajes de iDRAC aún no se actualizan para reflejar las nuevas acciones.
    • Acción recomendada: Reinicie el servidor para permitir la ejecución de la autorreparación/PPR. Confirme que PPR se haya realizado con éxito (MEM0804).
  • MEM0001 (error incorregible): da como resultado una autorreparación (PPR) que se programará para el próximo reinicio. Los mensajes de iDRAC aún no se actualizan para reflejar las nuevas acciones.
    • Acción recomendada: No se necesita ninguna si MEM0001 está asociado a una página crítica que el sistema operativo no puede recuperar; sigue siendo un error irrecuperable que provoca un reinicio. Si MEM0001 está asociado a una página no crítica desde la que el sistema operativo puede recuperarse, se debe programar un reinicio para que se produzcan todas las autorreparaciones (PPR). Confirme que PPR se haya realizado con éxito (MEM0804).

ACTUALIZADO el 13 de enero del 2021

BIOS 2.8.2 y cambios más recientes (septiembre de 2020 bloquea el BIOS)

  • MEM9072 (error no corregible identificado por el proceso de limpieza patrol de memoria: la página no está en uso): da como resultado una autorreparación (PPR) que se programará para el próximo reinicio. Los mensajes de iDRAC aún no se actualizan para reflejar las nuevas acciones.
    • Acción recomendada: Programe un reinicio pronto. Retrasar el reinicio podría provocar que se consuma la página, lo que podría provocar un error de MEM0001 que podría provocar un reinicio. La autorreparación de memoria (PPR) se ejecuta durante ese reinicio. Confirme que PPR se haya realizado con éxito (MEM0804).
Nota: La versión más reciente de la documentación técnica de ingeniería (versión 1.3, fecha de publicación: 20 de noviembre de 2020) se encuentra en:  https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdf
Para obtener contenido de Intel Xeon E y AMD EPYC, siga consultando la documentación técnica original de ingeniería (versión 1.0), que se encuentra en: Documentación técnica de la memoria del servidor RAS PowerEdge YX4X v1.0 (dell.com)

Existen mejoras adicionales de características de RAS que se están evaluando para su inclusión en futuras actualizaciones del BIOS.

 
Nota: Para obtener una descripción detallada y las acciones recomendadas para mensajes de código de error específicos, consulte el siguiente enlace: Buscar (dell.com). Dado que los códigos de error (como MEM0001) se aplican a varias generaciones de servidores y plataformas, es posible que las acciones recomendadas no estén actualizadas para la versión específica del BIOS. Los nuevos códigos de error agregados (por ejemplo, MEM0802, MEM0804, MEM0805, etc.) solo se aplican a los servidores con procesadores escalables Intel Xeon (primera o segunda generación).

 

Este artículo se actualiza a medida que hay nueva información disponible.


Controladores y descargas: Controladores y descargas

Affected Products

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R240, OEMR R250 , OEMR XE R250, OEMR R260, OEMR XE R260, OEMR R340, OEMR R350, OEMR XE R350, OEMR R360, OEMR XE R360, OEMR R440, PowerEdge XR2, OEMR R450, OEMR R540, OEMR R550, OEMR R5500, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R660, OEMR XL R660, OEMR R660xs, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R760, OEMR R760xa, OEMR R760XD2, OEMR XL R760, OEMR R760xs, OEMR R840, OEMR R860, OEMR R940, OEMR R940xa, OEMR R960, OEMR T140, OEMR T150, OEMR T340, OEMR T350, OEMR T360, OEMR T440, OEMR T550, OEMR T560, OEMR T640, OEMR XL T640, OEMR XL R240, OEMR XL R340, OEMR XL R660xs, OEMR XR11, OEMR XR12, OEMR XR4000r, OEMR XR4000w, OEMR XR4510c, OEMR XR4520c, OEMR XR5610, OEMR XR7620, OEMR XR8610t, OEMR XR8620t, Poweredge C4140, PowerEdge C6420, PowerEdge C6520, PowerEdge C6525, PowerEdge C6615, PowerEdge C6620, PowerEdge FC640, PowerEdge HS5610, PowerEdge HS5620, PowerEdge M640, PowerEdge MX740C, PowerEdge MX750c, PowerEdge MX760c, PowerEdge MX840C, PowerEdge R240, PowerEdge R250, PowerEdge R260, PowerEdge R340, PowerEdge R350, PowerEdge R360, PowerEdge R440, PowerEdge R450, PowerEdge R540, PowerEdge R550, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R660, PowerEdge R660xs, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R760, PowerEdge R760XA, PowerEdge R760xd2, PowerEdge R760xs, PowerEdge R840, PowerEdge R860, PowerEdge R940, PowerEdge R940xa, PowerEdge R960, PowerEdge T140, PowerEdge T150, PowerEdge T160, PowerEdge T340, PowerEdge T350, PowerEdge T360, PowerEdge T440, PowerEdge T550, PowerEdge T560, PowerEdge T640, PowerEdge XE2420, PowerEdge XE7100, PowerEdge XE7420, PowerEdge XE7440, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680, PowerEdge XE9680L, PowerEdge XR11, PowerEdge XR12, PowerEdge XR4000r, PowerEdge XR4000w, PowerEdge XR4510c, PowerEdge XR4520c, PowerEdge XR5610, PowerEdge XR7620, PowerEdge XR8610t, PowerEdge XR8620t, PowerFlex appliance R650, PowerFlex appliance R660, Powerflex appliance R750, PowerFlex appliance R760, PowerFlex custom node R650, PowerFlex custom node R660, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R860, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN C6420 Ready Node, Dell EMC vSAN MX740c Ready Node, Dell EMC vSAN MX750c Ready Node, Dell vSAN Ready Node MX760c, Dell EMC vSAN R440 Ready Node, Dell EMC vSAN R640 Ready Node, Dell EMC vSAN R650 Ready Node, vSAN Ready Node R660, Dell EMC vSAN R740 Ready Node, Dell EMC vSAN R740xd Ready Node, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R760 Ready Node, Dell EMC vSAN R840 Ready Node, Dell EMC vSAN T350 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...

Products

PowerFlex rack, VxFlex Ready Nodes, PowerFlex Appliance, PowerFlex custom node, ScaleIO, PowerFlex appliance Intelligent Catalog Software, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex custom node, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R660, PowerFlex custom node R6625, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R7625, PowerFlex rack connectivity, PowerFlex rack HW, PowerFlex rack RCM Software, PowerFlex Software, VxFlex Ready Node, VxFlex Ready Node R640, VxFlex Ready Node R740xd, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...
Article Properties
Article Number: 000053203
Article Type: Solution
Last Modified: 25 Nov 2025
Version:  26
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.