PowerEdge: Errores de comprobación de máquina de CPU
Summary: En este artículo, se proporciona información sobre los errores de comprobación de máquina de CPU y sus causas comunes, así como sobre el manejo adecuado cuando se observan errores.
Symptoms
¿Qué son los errores de comprobación de máquina de CPU?
En los servidores PowerEdge y aprovechando las soluciones que utilizan el BIOS estándar y el firmware de iDRAC, las comprobaciones de máquinas se capturan en el registro de eventos del sistema (SEL).
Estas entradas también se reflejan en el registro de Lifecycle Controller (LCL) en varios códigos de eventos de iniciativa de mensajes de error mejorados (EEMI).
| Código del evento | Mensaje del evento |
|---|---|
CPU0011 |
Uncorrectable machine check exception detected on CPU # |
CPU0012 |
Correctable machine check exception detected on CPU # |
CPU0704 |
CPU # machine check detected |
UEFI0076 |
One or more corrected machine check errors have occurred |
UEFI0078 |
One or more machine check errors occurred in the previous boot |
Ejemplos de registro:
2022-10-22 22:12:35 506 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:34 505 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:33 504 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:31 503 CPU0704 CPU 2 machine check error detected. 2022-10-22 22:12:31 502 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2025-05-21 03:42:32 320 CPU9000 An OEM diagnostic event occurred. 2025-05-21 03:42:30 319 CPU0704 CPU 1 machine check error detected. 2025-05-21 03:42:29 318 PST0090 A problem was detected related to the previous server boot. 2025-05-21 03:42:29 317 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18 712 UEFI0078 One or more Machine Check errors occurred in the previous boot. 2021-09-02 16:02:18 711 CPU0000 Internal error has occurred check for additional logs.
Cause
Comprender las causas de los errores de comprobación de la máquina de la CPU
Los errores de comprobación de máquina (MCE) de la CPU tienen varias causas posibles, que van desde activadores de hardware hasta de software. Estos errores se pueden atribuir a varios factores, entre ellos:
- Microcódigo de la CPU o el firmware del BIOS
- Firmware de CPLD de la placa base
- Errores de memoria
- Errores irrecuperables del bus de PCIE
- Bloqueo del sistema operativo o fallas de software y controlador (BSOD, PSOD o kernel panics)
- Fallas de CPU
Los registros de hardware se pueden utilizar para ayudar a identificar las posibles causas mediante la comprobación de si otros errores de componentes acompañan a los errores de comprobación de máquina de la CPU.
Ejemplo de MCE de CPU activados a partir de un error de memoria:

Ejemplo de MCE de CPU activado a partir de un error de bus irrecuperable:
Ejemplo de MCE de CPU activado a partir de una falla del SO:
Resolution
Orientación general
Siempre es útil hacer estas preguntas:
- ¿Ha habido cambios recientes en el sistema, como actualizaciones o cambios en el hardware o la configuración?
- ¿Hay otros errores en los registros cercanos que puedan ser más informativos que la propia comprobación de la máquina?
- ¿Con qué frecuencia se realiza la revisión de la máquina? ¿Fue algo puntual? ¿Se puede reproducir fácilmente?
- ¿Hay factores ambientales involucrados, como cargas de trabajo específicas o escenarios térmicos y de alimentación?
Firmware y controladores
El firmware y los controladores obsoletos o incompatibles se encuentran entre los culpables más comunes de las comprobaciones de máquinas, ya que trabajan juntos para implementar y controlar el comportamiento del dispositivo. Por lo tanto, es esencial revisar las versiones que se utilizan como parte de la evaluación de cualquier investigación de comprobación de máquinas.
Entre los firmware, las actualizaciones del BIOS son fundamentales:
- La mayoría de las versiones del BIOS incorporan actualizaciones proporcionadas por el proveedor del procesador respectivo, muchas de las cuales incluyen correcciones explícitas para las comprobaciones del equipo.
- Estas actualizaciones de UEFI para servidores incluyen microcódigo, código de referencia y otras actualizaciones de módulos que controlan la funcionalidad, incluidas todas las características de confiabilidad, disponibilidad y facilidad de reparación (RAS), entre otras.
- Al mismo tiempo, no pase por alto otro firmware en el sistema.
- Prácticamente cualquier dispositivo del sistema puede ser el culpable, incluido, en raras ocasiones, el iDRAC.
Identificación y resolución de errores de comprobación de máquina de CPU
Para identificar errores de comprobación de máquina de CPU, comience por verificar el ciclo de vida útil (LC) de los registros de hardware o el registro de eventos del sistema (SEL) directamente desde IDRAC o recopile un TSR o una recopilación de SupportAssist para revisar los registros.
- PowerEdge: Exportar una recopilación de SupportAssist mediante iDRAC
- PowerEdge: Cómo ver o borrar el registro de eventos del sistema
- Guía del usuario de IDRAC9: visualización del registro de Lifecycle desde la interfaz web
Observe si los errores de MCE de la CPU están precedidos por algún otro error y si son Enfoque en la solución de problemas en esos componentes.
Pasos para la solución de problemas
- Actualice todo el firmware disponible y monitoree los resultados para detectar cualquier cambio en el comportamiento de los errores.
- Si solo una CPU muestra errores, intercambie las CPU para determinar si el error sigue a la CPU al otro conector.
- Si la MCE se activa a partir de un error de otro componente, centre la solución de problemas en ese componente.
- Compruebe qué componentes controla la CPU con el MCE.
- Por ejemplo: Si se trata de un MCE de CPU1, compruebe todos los soportes verticales y las ranuras PCIE controlados por CPU1 y cualquier dispositivo instalado en esas ranuras, así como la memoria en el lado de la CPU1. Compruebe todos los A-DIMM en busca de errores.
- Para verificar qué CPU controla cada soporte vertical o ranura, consulte el Manual de instalación y servicio de los servidores y busque en Instalación y extracción de componentes> del sistema Tarjetas de expansión y tarjetas elevadoras para tarjetas de> expansión : Pautas para la instalación de tarjetas de expansión.
- Para obtener más información acerca de cómo identificar qué CPU controla las tarjetas elevadoras o las ranuras, consulte: PowerEdge: Solución de problemas de detección de dispositivos PCIe
- Para descartar activaciones de MCE relacionadas con el SO, pruebe fuera del SO para ver si los errores aún se activan fuera del SO.
- Ejecute los diagnósticos de ePSA para ver si se activan errores durante las pruebas.
- Inicie el soporte Support Live Image (SLI) para probar si se generan errores en ese entorno de SO.
Ejecutar pruebas de estrés en Support Live Image
Duración: 00:02:38 (hh:mm:ss)
Cuando esté disponible, se puede elegir la configuración de idioma de los subtítulos cerrados (subtítulos) mediante el ícono CC en este reproductor de video.