PowerEdge: Autorreparación de DDR4 en servidores Dell PowerEdge con procesadores AMD Rome y Milan

Resumen: Una explicación de los errores de memoria corregibles en los servidores AMD PowerEdge con memoria DDR4 y cambios en los pasos de solución de problemas

Este artículo se aplica a Este artículo no se aplica a Este artículo no está vinculado a ningún producto específico. No se identifican todas las versiones del producto en este artículo.

Síntomas

¿Qué es la "autorreparación" de DDR4 en los servidores PowerEdge basados en procesadores AMD Rome y Milan (R65xx, R75xx y C65xx)?

¿Los servidores PowerEdge basados en AMD de la generación anterior con procesadores AMD EPYC (R64xx y R74xx) admiten estas mismas funcionalidades de "autorreparación"?

¿Cómo cambian estas funcionalidades de "autorreparación" de DDR4 (mejoras del BIOS) las acciones recomendadas para el cliente y el soporte técnico cuando se producen errores de memoria en un servidor?

Causa

Hay mejoras continuas en el BIOS de PowerEdge de Dell Technologies para mejorar la mensajería de eventos de error de memoria, el manejo de errores y la "autorreparación" después de un reinicio del servidor, lo que evita la necesidad de una ventana de mantenimiento programada y la presencia en el sitio para reemplazar un DIMM de memoria DDR4 que estaba registrando eventos de error.

Resolución

Hay dos mejoras principales del BIOS de "autorreparación" relacionadas con la memoria que se incluyen con los servidores PowerEdge basados en procesadores AMD (65xx y 75xx) con memoria DDR4 disponibles en el lanzamiento del producto. Estas mejoras cambian los pasos y las acciones recomendadas que se deben realizar si se producen errores de memoria y se registran en el registro de Lifecycle.
 

Nota: Las mejoras de "autorreparación" analizadas en este artículo no se aplican a la generación anterior de servidores PowerEdge basados en AMD con procesadores AMD EPYC. Los servidores AMD PowerEdge 64xx y 74xx no contienen ninguna de las mejoras de "autorreparación" descritas en este artículo. La readaptación de la memoria solo se produce cuando se detectan cambios en la configuración de la memoria del servidor. En la versión 1.0 de la documentación técnica de ingeniería, se describen algunas de las características de RAS disponibles para los procesadores AMD EPYC: Documentación técnica sobre RAS de memoria del servidor PowerEdge YX4X v1.0 (dell.com)

 

Nota: Los pasos actuales de solución de problemas de memoria incorporan el traslado de los DIMM defectuosos a una ranura diferente para confirmar si los errores siguen al DIMM o permanecen en la ranura DIMM.

En el caso de los servidores PowerEdge basados en Rome y Milan de AMD, el primer paso recomendado es reiniciar (sin mover los módulos DIMM a una ranura diferente). Permitir que se ejecuten las nuevas mejoras del BIOS, lo que podría resolver (autorreparar) los errores de DIMM sin necesidad de reemplazarlos.

Siempre recomendamos a los clientes que realicen la actualización a la versión más reciente disponible del BIOS (y el firmware de iDRAC) para que puedan aprovechar las mejoras de autorreparación más recientes.


1. Mejoras en la readaptación de la memoria: la readaptación de la memoria, que se produce durante el arranque, optimiza la sincronización de la señal o el establecimiento de márgenes para cada DIMM y ranura para obtener el mejor acceso. Las características de tiempo de un DIMM pueden cambiar por varios motivos diferentes:

  • Cambios en la configuración de la memoria del servidor
  • Cambios en el BIOS
  • Diferentes temperaturas de funcionamiento del servidor o del módulo DIMM
  • La antigüedad general del módulo DIMM

Los servidores PowerEdge actuales basados en Rome y Milan (65xx y 75xx) realizan el reentrenamiento de memoria en cada arranque. Esto difiere de la implementación actual del servidor PowerEdge basado en Intel.

Si alguno de los siguientes errores se registra en los registros de SEL o Lifecycle, la recomendación del equipo de ingeniería de Dell Technologies es reiniciar el servidor para permitir el reentrenamiento de la memoria.

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location(s) DIMM_XX.

Con cualquiera de estos errores de memoria corregibles o incorregibles (bits múltiples), el reentrenamiento de memoria resultante durante el reinicio puede "autorreparar" el DIMM defectuoso mediante la optimización de la sincronización de la señal y los márgenes para cada DIMM y ranura. No es necesario reemplazar el DIMM para estos errores , a menos que falle la readaptación de la memoria (UEFI0106) durante el arranque o que estos mismos errores continúen ocurriendo.
 

2. Reparación posterior al empaque (PPR): la segunda mejora de la memoria de "autorreparación" permite reparar una ubicación de memoria defectuosa en un DIMM mediante la deshabilitación de la ubicación o la dirección en la capa de hardware, lo que permite utilizar una fila de memoria de repuesto en su lugar. La cantidad exacta de filas de memoria de reserva disponible depende del dispositivo DRAM y del tamaño del módulo DIMM.
 

Anteriormente, esta funcionalidad se limitaba al proceso de fabricación. Al igual que con las mejoras de reentrenamiento de memoria mencionadas anteriormente, hay ciertos errores de memoria corregibles e incorregibles que provocan que la PPR se programe en una ranura DIMM específica para el próximo reinicio (en caliente o en frío). El BIOS forzará automáticamente un reinicio en frío independientemente de lo que se inicie. Dado que la operación de PPR se programa en una ranura DIMM específica, NO cambie las ubicaciones de las ranuras DIMM hasta que se haya ejecutado la operación de PPR. Los siguientes son algunos ejemplos de los errores:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."
Critical - MEM9072 - "The system memory has faced an uncorrectable multi-bit memory errors in the non-execution path of a memory device at the location arg1."

Si se registra alguno de estos errores en el registro de SEL/Lifecycle, se programará la PPR para el próximo reinicio (en caliente o en frío).

Nota: Un ID de mensaje MEM8000 (registro de errores de memoria corregibles deshabilitado para un dispositivo de memoria en la ubicación DIMM_XX). Sin un MEM0005 o MEM0701 o MEM0702 correspondiente en la misma ubicación de DIMM, no se programa una PPR para el próximo reinicio. Después del reinicio, compruebe que la operación de la PPR se haya ejecutado correctamente.

Un ejemplo de una operación PPR correcta es similar a:

  • Message ID MEM9060 - "The PostPackage Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."

No es necesario un reemplazo del módulo DIMM para estos errores de memoria corregibles, a menos que falle la operación de la PPR después del reinicio. Un ejemplo de un mensaje de PPR fallida es el siguiente:

  • Critical - Message ID UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."


Actualizado el 24 de abril de 2020

Dell Technologies continúa mejorando y expandiendo sus funcionalidades de "autorreparación". En la siguiente sección, se documentan las actualizaciones/mejoras y en qué versión del BIOS se implementaron los cambios.

BIOS 1.0.x : publicación inicial del artículo de las funcionalidades de "autorreparación" disponibles a partir del BIOS 1.0.x y versiones posteriores, incluidos ejemplos de mensajes de error y acciones recomendadas.

BIOS 1.1.x y cambios más recientes (diciembre de 2019)

  • MEM0702 (se superó la tasa de errores corregibles [...]): se actualizó el mensaje de un evento crítico a advertencia y se actualizaron las acciones recomendadas para reiniciar el servidor y permitir que se produzca la "autorreparación" (reparación posterior al empaque (PPR)).
    • Requiere que esté instalada la versión de diciembre del 2019 o una más reciente de iDRAC para obtener el mensaje actualizado
    • Acción recomendada: Reinicie el servidor para permitir que se ejecute PPR
  • MEM9060: se actualizó la descripción del mensaje para indicar que la "autorreparación" se completó con éxito

BIOS 1.2.x y cambios más recientes (febrero de 2020)

  • Se agregó una opción de BIOS "Registro de errores corregibles" para permitir que los clientes deshabiliten todos los registros de Lifecycle y SEL relacionados con errores corregibles. Todas las características de "autorreparación" (PPR) siguen funcionando y el reentrenamiento de la memoria aún está programado y se ejecuta durante el próximo reinicio.
  • Adición de errores MEM08xx para RDIMM y LRDIMM que reemplazan los mensajes de error y las acciones existentes. Los mensajes de error existentes se siguen utilizando para plataformas que no soportan las funcionalidades de "autorreparación".
    • Requiere Febrero del 2020 o más reciente de iDRAC para que se registren los mensajes 

 

Nota: Sin iDRAC actualizado, los nuevos mensajes del BIOS son "desconocidos" en los registros SEL y LC.

 

  • MEM0802:reemplazó a MEM0702; se superó la tasa de errores corregibles
    • Acción recomendada: Reinicie el servidor para permitir que se ejecute PPR
  • MEM0804: reemplazó a MEM9060 que indica que la PPR fue exitosa. Ahora incluye ubicaciones de ranuras DIMM que ejecutaron PPR
    • Acción recomendada: Ninguno, indica que se produjo una "autorreparación", no es necesario reemplazar el DIMM.
  • MEM0805: reemplazó a UEFI0278 indicando que la PPR falló
    • Acción recomendada: Reemplazo de DIMM defectuoso

Actualizado el 25 de enero de 2021

BIOS 1.7.x y cambios más recientes (diciembre de 2020)
 

  • MEM8000 (registro de errores corregibles deshabilitado): al principio del BIOS, Dell Technologies Engineering realizó un cambio en el BIOS para mejorar la tasa de detección de errores corregibles que pueden afectar el rendimiento. Este cambio dio como resultado un aumento en los eventos de MEM8000 que no fueron respaldados por los resultados del análisis de fallas de componentes de memoria. A partir de BIOS1.7.x, hay dos cambios relacionados con MEM8000. El primero es que la señalización del evento MEM8000 se modificó. En segundo lugar, el BIOS programa la autorreparación (PPR) para el próximo reinicio. Los mensajes de iDRAC aún no se actualizan para reflejar las nuevas acciones
    • Acción recomendada: Reinicie el servidor para permitir la ejecución de la autorreparación/PPR. Confirme que PPR se haya realizado con éxito (MEM0804).



Hay mejoras adicionales de la característica RAS que se están evaluando para su inclusión en futuras actualizaciones del BIOS.

Se planifica una documentación técnica en la que se describen las características de confiabilidad, disponibilidad y facilidad de reparación (RAS) relacionadas con la memoria para servidores Dell Technologies PowerEdge (procesadores basados en AMD Rome y Milan).

Este artículo se actualiza a medida que hay nueva información disponible.

Productos afectados

OEMR R6515, OEMR R6525, OEMR R7515, OEMR R7525, PowerEdge R6515, PowerEdge R6525, PowerEdge R7515, PowerEdge R7525, PowerFlex appliance R6525, PowerFlex custom node R6525, Dell EMC vSAN R6515 Ready Node, Dell EMC vSAN R7515 Ready Node , PowerFlex appliance R7525 ...
Propiedades del artículo
Número del artículo: 000062034
Tipo de artículo: Solution
Última modificación: 13 ago 2025
Versión:  11
Encuentre respuestas a sus preguntas de otros usuarios de Dell
Servicios de soporte
Compruebe si el dispositivo está cubierto por los servicios de soporte.