Servidores PowerEdge 14G Intel y 15G: Administración de eventos de umbral de error corregibles
摘要: En este artículo, se proporcionan recomendaciones actualizadas para administrar eventos de umbral de error corregibles (MEM0802 o MEM5104) en RDIMM o LRDIMM DDR4 instalados en servidores PowerEdge 14G y 15G basados en Intel y servidores PowerEdge 15G basados en AMD. ...
症状
A través de la evolución de las características de confiabilidad, accesibilidad y facilidad de reparación (RAS) en toda la memoria de clase empresarial, Dell adoptó un enfoque conservador para proporcionar transparencia a nuestros clientes. A medida que esta evolución continúa, también lo hace el enfoque de Dell para la generación de informes de errores, lo que permite centrarse en los avisos que requieren una respuesta más urgente en comparación con los avisos que son principalmente de naturaleza informativa.
A medida que las geometrías de memoria basadas en DRAM continúan reduciéndose, lo que proporciona a los clientes el mayor rendimiento que exigen, se espera una cantidad cada vez mayor de errores corregibles como parte natural del escalamiento uniforme.
原因
解决方案
Continuar operando un sistema que informa errores corregibles sin un reinicio para autorrepararse no aumenta el riesgo de experimentar errores incorregibles que pueden provocar un tiempo de inactividad no planificado. Otros en la industria han comunicado públicamente que su manejo de memoria no informa errores corregibles.
En la versión 2.5.4 y posteriores del BIOS Intel PowerEdge 14G y posteriores, se agregó una configuración del BIOS denominada "Registro de errores corregibles" para permitir a los clientes la opción de deshabilitar la generación de informes de errores corregibles si así lo desean, y muchos lo han hecho. El BIOS continúa programando la reinstalación automática para eventos de umbral corregibles, incluso sin el registro. Esta reinstalación automática programada se produce automáticamente durante el reinicio posterior del sistema.
Para estar más en línea con la industria y los comentarios continuos de los clientes, a partir de marzo de 2022, las actualizaciones del BIOS de Dell PowerEdge cambian la configuración del BIOS "Registro de errores corregibles" para que se deshabilite de manera predeterminada. Esta opción del BIOS se puede volver a habilitar para los clientes que deseen seguir viendo eventos de umbral de memoria corregibles. Las versiones del BIOS con este cambio de configuración del BIOS incluido son las siguientes:
- Plataformas Intel 14G: versiones del BIOS 2.13.3 o más recientes
- Plataformas AMD 15G: versiones del BIOS 2.6.5 o más recientes
- Plataformas Intel 15G: versiones del BIOS 1.5.5 o posteriores.
Los beneficios de la autorreparación de DIMM DDR4 mediante un reinicio del sistema son los siguientes:
- Permite la reparación de un DIMM DDR4 sin quitarlo del sistema; todos los DIMM DDR4 de Dell admiten la función de autorreparación de memoria.
- Utiliza filas de repuesto disponibles diseñadas en la DRAM donde una fila defectuosa se reemplaza permanentemente por una fila en buen estado por un fusible eléctrico.
- El reentrenamiento de memoria subsiguiente optimiza los "ojos de datos" mediante la recalibración de los puntos centrales para garantizar que el bus de memoria funcione en el nivel más alto de integridad de señalización.
En el caso de los eventos de umbral corregibles con el ajuste del BIOS "Registro de errores corregible" Activado, si se producen eventos de umbral de memoria, Dell Technologies recomienda reiniciar según el programa de mantenimiento regular del cliente para permitir la reinstalación o autocorrección automáticas de la memoria programadas. Después del reinicio, se registrarán eventos de reinstalación automática correcta o incorrecta para los módulos DIMM asociados.
Con la configuración Di del BIOS "Registro de errores corregible" habilitada, Dell Technologies recomienda reiniciar según el programa de mantenimiento regular del cliente. Tras el reinicio, todas las operaciones de reinstalación automática programadas se ejecutan automáticamente. El sistema registra un evento (eventos de tipo MEM0805 o MEM7114) si la operación de reinstalación automática o autocorrección no se realizó correctamente y recomienda reemplazar físicamente el DIMM afectado.
Recomendación:
El equipo de ingeniería de memoria de Dell recomienda que los clientes del servidor PowerEdge con versiones anteriores del BIOS (versiones anteriores al bloque de marzo de 2022) adopten la modificación del ajuste del BIOS "Registro de errores corregible" a Deshabilitado. Esto elimina los eventos esporádicos de umbral de memoria corregible (como los eventos de tipo MEM0802 o MEM5104) en toda la infraestructura del servidor que recomiendan reinicios del servidor para permitir la reinstalación automática o la autocorrección. Como se mencionó anteriormente, todas las operaciones de reinstalación o autocorrección automáticas programadas se ejecutan automáticamente cuando se reinicia el servidor y se informan todas las fallas.
La configuración del BIOS "Registro de errores corregible" se puede cambiar reiniciando el servidor con la configuración F2 o utilizando la interfaz de usuario web de iDRAC.
Para cambiar la configuración del BIOS desde F2 Configuración del sistema:
-
Reinicie los servidores deteniéndose en la configuración de F2
-
En la selección BIOS Settings>Memory Settings , cambie Correctable Error Logging a Disabled.
-
Guarde la configuración del BIOS y salga de la configuración de F2
Para cambiar la configuración del BIOS mediante la interfaz de usuario web de iDRAC:
- Inicio de sesión en la interfaz de usuario web de iDRAC
- En Ajustes de configuración >del BIOS, expanda la sección Ajustes de memoria
- Cambie la configuración Registro de errores corregibles a Deshabilitado
- Haga clic en el botón Aplicar para guardar la configuración de la memoria
- No olvide seleccionar el botón Aplicar y reiniciar (para reiniciar inmediatamente) o el botón En el siguiente reinicio para aplicar los cambios en el BIOS.
Los artículos y la documentación técnica relacionados con la memoria existentes se actualizan para reflejar este cambio recomendado.
Managing Correctable Error Notices Dec 2021 v1.pdf”.
Este artículo se actualiza a medida que hay nueva información disponible.