PowerEdge: Errores de comprobación de máquina de CPU

Summary: En este artículo, se proporciona información sobre los errores de comprobación de máquina de CPU y sus causas comunes, así como sobre el manejo adecuado cuando se observan errores.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

¿Qué son los errores de comprobación de máquina de CPU?

En los servidores PowerEdge y aprovechando las soluciones que utilizan el BIOS estándar y el firmware de iDRAC, las comprobaciones de máquinas se capturan en el registro de eventos del sistema (SEL).
Estas entradas también se reflejan en el registro de Lifecycle Controller (LCL) en varios códigos de eventos de iniciativa de mensajes de error mejorados (EEMI).

Código del evento Mensaje del evento
CPU0011 Uncorrectable machine check exception detected on CPU #
CPU0012 Correctable machine check exception detected on CPU #
CPU0704 CPU # machine check detected
UEFI0076 One or more corrected machine check errors have occurred
UEFI0078 One or more machine check errors occurred in the previous boot

 

 

 

Ejemplos de registro:

2022-10-22 22:12:35    506    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:34    505    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:33    504    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:31    503    CPU0704    CPU 2 machine check error detected.
2022-10-22 22:12:31    502    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2025-05-21 03:42:32    320    CPU9000    An OEM diagnostic event occurred.
2025-05-21 03:42:30    319    CPU0704    CPU 1 machine check error detected.
2025-05-21 03:42:29    318    PST0090    A problem was detected related to the previous server boot.
2025-05-21 03:42:29    317    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2021-09-02 16:02:18    712    UEFI0078   One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18    711    CPU0000    Internal error has occurred check for additional logs.

 


Cause

 

Comprender las causas de los errores de comprobación de la máquina de la CPU

Los errores de comprobación de máquina (MCE) de la CPU tienen varias causas posibles, que van desde activadores de hardware hasta de software. Estos errores se pueden atribuir a varios factores, entre ellos:

  • Microcódigo de la CPU o el firmware del BIOS
  • Firmware de CPLD de la placa base
  • Errores de memoria
  • Errores irrecuperables del bus de PCIE
  • Bloqueo del sistema operativo o fallas de software y controlador (BSOD, PSOD o kernel panics)
  • Fallas de CPU

Los registros de hardware se pueden utilizar para ayudar a identificar las posibles causas mediante la comprobación de si otros errores de componentes acompañan a los errores de comprobación de máquina de la CPU.

 

Ejemplo de MCE de CPU activados a partir de un error de memoria:
Error de MCE de CPU causado por un error de DIMM

 

Error de MCE de CPU con DIMM en servidores más recientes

 

Ejemplo de MCE de CPU activado a partir de un error de bus irrecuperable:
La MCE de la CPU se observa con un error irrecuperable de BUS

 

Ejemplo de MCE de CPU activado a partir de una falla del SO:
MCE de CPU con error de bloqueo del sistema operativo

 


Resolution

 

Orientación general

Siempre es útil hacer estas preguntas:

  • ¿Ha habido cambios recientes en el sistema, como actualizaciones o cambios en el hardware o la configuración?
  • ¿Hay otros errores en los registros cercanos que puedan ser más informativos que la propia comprobación de la máquina?
  • ¿Con qué frecuencia se realiza la revisión de la máquina? ¿Fue algo puntual? ¿Se puede reproducir fácilmente?
  • ¿Hay factores ambientales involucrados, como cargas de trabajo específicas o escenarios térmicos y de alimentación?

 

Firmware y controladores

El firmware y los controladores obsoletos o incompatibles se encuentran entre los culpables más comunes de las comprobaciones de máquinas, ya que trabajan juntos para implementar y controlar el comportamiento del dispositivo. Por lo tanto, es esencial revisar las versiones que se utilizan como parte de la evaluación de cualquier investigación de comprobación de máquinas.

 

Entre los firmware, las actualizaciones del BIOS son fundamentales:

  • La mayoría de las versiones del BIOS incorporan actualizaciones proporcionadas por el proveedor del procesador respectivo, muchas de las cuales incluyen correcciones explícitas para las comprobaciones del equipo.
  • Estas actualizaciones de UEFI para servidores incluyen microcódigo, código de referencia y otras actualizaciones de módulos que controlan la funcionalidad, incluidas todas las características de confiabilidad, disponibilidad y facilidad de reparación (RAS), entre otras.
  • Al mismo tiempo, no pase por alto otro firmware en el sistema.
  • Prácticamente cualquier dispositivo del sistema puede ser el culpable, incluido, en raras ocasiones, el iDRAC. 

 

Identificación y resolución de errores de comprobación de máquina de CPU

Para identificar errores de comprobación de máquina de CPU, comience por verificar el ciclo de vida útil (LC) de los registros de hardware o el registro de eventos del sistema (SEL) directamente desde IDRAC o recopile un TSR o una recopilación de SupportAssist para revisar los registros.

Observe si los errores de MCE de la CPU están precedidos por algún otro error y si son Enfoque en la solución de problemas en esos componentes.

 

Pasos para la solución de problemas

  • Actualice todo el firmware disponible y monitoree los resultados para detectar cualquier cambio en el comportamiento de los errores.
  • Si solo una CPU muestra errores, intercambie las CPU para determinar si el error sigue a la CPU al otro conector.
  • Si la MCE se activa a partir de un error de otro componente, centre la solución de problemas en ese componente.
    • Compruebe qué componentes controla la CPU con el MCE.
    • Por ejemplo: Si se trata de un MCE de CPU1, compruebe todos los soportes verticales y las ranuras PCIE controlados por CPU1 y cualquier dispositivo instalado en esas ranuras, así como la memoria en el lado de la CPU1. Compruebe todos los A-DIMM en busca de errores.
    • Para verificar qué CPU controla cada soporte vertical o ranura, consulte el Manual de instalación y servicio de los servidores y busque en Instalación y extracción de componentes> del sistema Tarjetas de expansión y tarjetas elevadoras para tarjetas de> expansión : Pautas para la instalación de tarjetas de expansión.
    • Para obtener más información acerca de cómo identificar qué CPU controla las tarjetas elevadoras o las ranuras, consulte: PowerEdge: Solución de problemas de detección de dispositivos PCIe
  • Para descartar activaciones de MCE relacionadas con el SO, pruebe fuera del SO para ver si los errores aún se activan fuera del SO.

    Ejecutar pruebas de estrés en Support Live Image

    Duración: 00:02:38 (hh:mm:ss)
    Cuando esté disponible, se puede elegir la configuración de idioma de los subtítulos cerrados (subtítulos) mediante el ícono CC en este reproductor de video.

 

Affected Products

PowerFlex rack, C Series, HS Series, Modular Infrastructure, Rack Servers, Tower Servers, XE Servers, XR Servers, OEM Server Solutions, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R860, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Article Properties
Article Number: 000349127
Article Type: Solution
Last Modified: 25 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.