PowerEdge: Erros de verificação da máquina da CPU

Summary: Este artigo apresenta informações sobre os erros de verificação de máquina da CPU e causas comuns e o manuseio adequado quando os erros são vistos.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

O que são erros de verificação da máquina da CPU?

Nos servidores PowerEdge e aproveitando soluções que usam firmware padrão do BIOS e do iDRAC, as verificações de máquina são capturadas no registro de eventos do sistema (SEL).
Essas entradas também são refletidas no log do Lifecycle Controller (LCL) em vários códigos de evento da Enhanced Error Message Initiative (EEMI).

Código do evento Mensagem do evento
CPU0011 Uncorrectable machine check exception detected on CPU #
CPU0012 Correctable machine check exception detected on CPU #
CPU0704 CPU # machine check detected
UEFI0076 One or more corrected machine check errors have occurred
UEFI0078 One or more machine check errors occurred in the previous boot

 

 

 

Exemplos de registro:

2022-10-22 22:12:35    506    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:34    505    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:33    504    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:31    503    CPU0704    CPU 2 machine check error detected.
2022-10-22 22:12:31    502    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2025-05-21 03:42:32    320    CPU9000    An OEM diagnostic event occurred.
2025-05-21 03:42:30    319    CPU0704    CPU 1 machine check error detected.
2025-05-21 03:42:29    318    PST0090    A problem was detected related to the previous server boot.
2025-05-21 03:42:29    317    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2021-09-02 16:02:18    712    UEFI0078   One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18    711    CPU0000    Internal error has occurred check for additional logs.

 


Cause

 

Noções básicas sobre as causas dos erros de verificação da máquina da CPU

Os Erros de Verificação de Máquina da CPU (MCEs) têm várias causas possíveis, desde gatilhos de hardware até de software. Esses erros podem ser atribuídos a vários fatores, incluindo:

  • Microcódigo da CPU ou firmware do BIOS
  • Firmware CPLD da placa-mãe
  • Erros de memória
  • Erros fatais de barramento PCIE
  • Falha do sistema operacional ou falhas de software e driver (BSOD, PSOD ou panes no kernel)
  • Falhas da CPU

Os logs de hardware podem ser usados para ajudar a identificar possíveis causas, verificando se outros erros de componente acompanham os erros de verificação da máquina da CPU.

 

Exemplo de MCEs de CPU acionados a partir de um erro de memória:
Erro de MCE da CPU causado por erro de DIMM

 

CPU MCE com erro de DIMM em servidores mais recentes

 

Exemplo de MCE da CPU acionado a partir de um erro fatal de barramento:
MCE da CPU visto com um erro fatal de BUS

 

Exemplo de CPU MCE acionada após uma falha no sistema operacional:
MCE da CPU com erro de falha do SO

 


Resolution

 

Orientações gerais

É sempre útil fazer estas perguntas:

  • Houve alterações recentes no sistema, como atualizações ou alterações no hardware ou na configuração?
  • Existem outros erros nos logs próximos que podem ser mais informativos do que a própria verificação da máquina?
  • Com que frequência a verificação da máquina acontece? Foi pontual? Pode ser facilmente reproduzido?
  • Há fatores ambientais envolvidos, como cargas de trabalho específicas ou cenários térmicos e de energia?

 

Firmware e drivers

Firmware e drivers desatualizados ou incompatíveis estão entre os culpados mais comuns de verificação de máquina, pois trabalham juntos para implementar e controlar o comportamento do dispositivo. Portanto, é essencial revisar as versões que estão sendo usadas como parte da avaliação de qualquer investigação de verificação de máquina.

 

Entre os firmwares, as atualizações do BIOS são essenciais:

  • A maioria das versões do BIOS incorpora atualizações fornecidas pelo respectivo fornecedor do processador, muitas das quais incluem correções explícitas para verificações de máquina.
  • Essas atualizações de UEFI para servidores incluem microcódigo, código de referência e outras atualizações de módulo que controlam a funcionalidade, incluindo todos os recursos de confiabilidade, disponibilidade e facilidade de manutenção (RAS), entre outros.
  • Simultaneamente, não negligencie outros firmwares no sistema.
  • Praticamente qualquer dispositivo no sistema pode ser o culpado, incluindo, em raras ocasiões, o iDRAC. 

 

Identificando e resolvendo erros de verificação da máquina da CPU

Para identificar erros de verificação da máquina da CPU, comece verificando o ciclo de vida (LC) dos logs de hardware ou o registro de eventos do sistema (SEL) diretamente do iDRAC ou colete um TSR ou uma coleta do SupportAssist para analisar os logs.

Verifique se os erros de MCE da CPU são precedidos por outros erros e se eles concentram a solução de problemas nesses componentes.

 

Etapas para a solução de problemas

  • Atualize todos os firmwares disponíveis e monitore os resultados em busca de alterações no comportamento do erro.
  • Se apenas uma CPU estiver mostrando erros, troque as CPUs para determinar se o erro segue a CPU para o outro soquete.
  • Se o MCE for acionado a partir de um erro de outro componente, concentre a solução de problemas nesse componente.
    • Verifique quais componentes são controlados pela CPU com o MCE.
    • Por exemplo: Se for uma CPU1 MCE, verifique todos os risers e slots PCIE que são controlados pela CPU1 e todos os dispositivos instalados nesses slots, bem como a memória no lado da CPU1, verifique todos os A-DIMMs em busca de erros.
    • Para verificar qual CPU controla cada riser ou slot, consulte o Manual de instalação e serviço de servidores e procure em Como instalar e remover componentes> do sistema , placas de expansão e risers> de placa de expansão , diretrizes de instalação da placa de expansão.
    • Para obter mais informações sobre como identificar qual CPU controla as risers ou slots, consulte: PowerEdge: Solução de problemas de detecção de dispositivos PCIe
  • Para descartar os gatilhos de MCE relacionados ao sistema operacional, teste fora do sistema operacional para ver se os erros ainda são acionados fora dele.

    Execução de testes de estresse no Support Live Image

    Duração: 00:02:38 (hh:mm:ss)
    Quando disponíveis, as configurações de idioma de legendas podem ser escolhidas usando o ícone CC neste player de vídeo.

 

Affected Products

PowerFlex rack, C Series, HS Series, Modular Infrastructure, Rack Servers, Tower Servers, XE Servers, XR Servers, OEM Server Solutions, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R860, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Article Properties
Article Number: 000349127
Article Type: Solution
Last Modified: 25 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.