PowerEdge: Pautas para la solución de problemas de memoria
Summary: En este artículo, se proporcionan los pasos recomendados para ayudar a solucionar problemas de eventos relacionados con la memoria en los servidores Dell PowerEdge.
Instructions
Códigos de eventos comunes de memoria
El servidor puede informar eventos de memoria como (entre otros):
- MEM0802
- MEM6102
- MEM6101
- MEM5100
- MEM5104
- UEFI0103 Error de inicialización de memoria en la ranura:
- MEM6101: precaución de diagnóstico en el dispositivo de memoria en Comprobar la configuración del dispositivo y del sistema. (ID extendido: ).
- MEM0001 - Evento incorregible consumido; puede provocar el reinicio del servidor si el SO no se puede recuperar.
- MEM9072 - La limpieza de patrulla encontró un error incorregible (no consumido); no hay impacto a menos que el sistema operativo utilice la memoria.
- MEM6104 - Error incorregible; Los bytes extendidos muestran si la limpieza de patrullaje consumió o identificó la dirección.
Pasos iniciales para la solución de problemas
La mayoría de los problemas anteriores se resuelven o diagnostican con precisión mediante la actualización del firmware de componentes específicos. Las actualizaciones de firmware contienen correcciones para problemas conocidos y mejoras, lo que las convierte en un primer paso crítico hacia la resolución.
- Actualice el firmware de los siguientes componentes:
- CPLD
- iDRAC
- BIOS
Nota: Si el firmware de CPLD no está disponible para el modelo de servidor, no es un problema; continúe con el resto de las actualizacionesCómo: Siga los pasos que se indican en PowerEdge: Cómo realizar actualizaciones de firmware para cada componente importante - Borre el registro de eventos del sistema (SEL) siguiendo los pasos que se indican en el siguiente artículo.
- Realice dos reinicios completos del servidor.
- Recopile un registro de soporte (TSR) y compruebe si se informa algún evento de memoria (PowerEdge: Exportar una recopilación de SupportAssist mediante un iDRAC)
Pasos para la solución de problemas avanzada
Una vez que se hayan completado los pasos iniciales, es posible que el problema se resuelva o que se requiera una solución de problemas adicional según la información en los registros de TSR, para identificar el componente defectuoso.
Tras revisar los registros de TSR, es posible que se identifiquen los siguientes mensajes de error:
- Eventos de memoria de bit único (memoria degradada) encontrados en los registros:
- Apague el sistema, desconecte la alimentación y mantenga presionado el botón de encendido durante 10 segundos para eliminar toda la electricidad residual
- Usar equipo de protección contra descargas electrostáticas (ESD)
- Quite el DIMM informado
- Cambie el DIMM a otra ranura con un DIMM en buen estado
- Ciérrelo y conéctelo nuevamente a la alimentación
- Enciéndala
- Reinícielo dos veces (reinicio del sistema operativo después > del reinicio >> del sistema > operativo>)
- Recopile un nuevo TSR y vuelva a comprobar si hay eventos de memoria
- Se encontraron eventos de varios bits en la memoria (fallas en la memoria) en los registros:
- Apague el sistema, desconecte la alimentación y mantenga presionado el botón de encendido durante 10 segundos para eliminar toda la electricidad residual
- Usar equipo de protección contra descargas electrostáticas (ESD)
- Quite el DIMM informado
- Compruebe si la máquina tiene una configuración de memoria soportada; de lo contrario, quite los DIMM adicionales hasta alcanzar una configuración soportada
- Ciérrelo y conéctelo nuevamente a la alimentación
- Enciéndala
- Recopile un nuevo TSR y vuelva a comprobar si hay eventos de memoria
Según el resultado de los pasos avanzados de solución de problemas, se necesita un reemplazo de piezas para el DIMM de memoria, si el evento de memoria cambió de ranura, o para la placa base si el evento de memoria permanece en la misma ranura.