PowerEdge: Erros de verificação da máquina da CPU
Summary: Este artigo apresenta informações sobre os erros de verificação de máquina da CPU e causas comuns e o manuseio adequado quando os erros são vistos.
Symptoms
O que são erros de verificação da máquina da CPU?
Nos servidores PowerEdge e aproveitando soluções que usam firmware padrão do BIOS e do iDRAC, as verificações de máquina são capturadas no registro de eventos do sistema (SEL).
Essas entradas também são refletidas no log do Lifecycle Controller (LCL) em vários códigos de evento da Enhanced Error Message Initiative (EEMI).
| Código do evento | Mensagem do evento |
|---|---|
CPU0011 |
Uncorrectable machine check exception detected on CPU # |
CPU0012 |
Correctable machine check exception detected on CPU # |
CPU0704 |
CPU # machine check detected |
UEFI0076 |
One or more corrected machine check errors have occurred |
UEFI0078 |
One or more machine check errors occurred in the previous boot |
Exemplos de registro:
2022-10-22 22:12:35 506 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:34 505 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:33 504 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:31 503 CPU0704 CPU 2 machine check error detected. 2022-10-22 22:12:31 502 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2025-05-21 03:42:32 320 CPU9000 An OEM diagnostic event occurred. 2025-05-21 03:42:30 319 CPU0704 CPU 1 machine check error detected. 2025-05-21 03:42:29 318 PST0090 A problem was detected related to the previous server boot. 2025-05-21 03:42:29 317 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18 712 UEFI0078 One or more Machine Check errors occurred in the previous boot. 2021-09-02 16:02:18 711 CPU0000 Internal error has occurred check for additional logs.
Cause
Noções básicas sobre as causas dos erros de verificação da máquina da CPU
Os Erros de Verificação de Máquina da CPU (MCEs) têm várias causas possíveis, desde gatilhos de hardware até de software. Esses erros podem ser atribuídos a vários fatores, incluindo:
- Microcódigo da CPU ou firmware do BIOS
- Firmware CPLD da placa-mãe
- Erros de memória
- Erros fatais de barramento PCIE
- Falha do sistema operacional ou falhas de software e driver (BSOD, PSOD ou panes no kernel)
- Falhas da CPU
Os logs de hardware podem ser usados para ajudar a identificar possíveis causas, verificando se outros erros de componente acompanham os erros de verificação da máquina da CPU.
Exemplo de MCEs de CPU acionados a partir de um erro de memória:

Exemplo de MCE da CPU acionado a partir de um erro fatal de barramento:
Exemplo de CPU MCE acionada após uma falha no sistema operacional:
Resolution
Orientações gerais
É sempre útil fazer estas perguntas:
- Houve alterações recentes no sistema, como atualizações ou alterações no hardware ou na configuração?
- Existem outros erros nos logs próximos que podem ser mais informativos do que a própria verificação da máquina?
- Com que frequência a verificação da máquina acontece? Foi pontual? Pode ser facilmente reproduzido?
- Há fatores ambientais envolvidos, como cargas de trabalho específicas ou cenários térmicos e de energia?
Firmware e drivers
Firmware e drivers desatualizados ou incompatíveis estão entre os culpados mais comuns de verificação de máquina, pois trabalham juntos para implementar e controlar o comportamento do dispositivo. Portanto, é essencial revisar as versões que estão sendo usadas como parte da avaliação de qualquer investigação de verificação de máquina.
Entre os firmwares, as atualizações do BIOS são essenciais:
- A maioria das versões do BIOS incorpora atualizações fornecidas pelo respectivo fornecedor do processador, muitas das quais incluem correções explícitas para verificações de máquina.
- Essas atualizações de UEFI para servidores incluem microcódigo, código de referência e outras atualizações de módulo que controlam a funcionalidade, incluindo todos os recursos de confiabilidade, disponibilidade e facilidade de manutenção (RAS), entre outros.
- Simultaneamente, não negligencie outros firmwares no sistema.
- Praticamente qualquer dispositivo no sistema pode ser o culpado, incluindo, em raras ocasiões, o iDRAC.
Identificando e resolvendo erros de verificação da máquina da CPU
Para identificar erros de verificação da máquina da CPU, comece verificando o ciclo de vida (LC) dos logs de hardware ou o registro de eventos do sistema (SEL) diretamente do iDRAC ou colete um TSR ou uma coleta do SupportAssist para analisar os logs.
- PowerEdge: Exportar uma coleta do SupportAssist usando um iDRAC
- PowerEdge: Como visualizar ou limpar o log de eventos do sistema
- Guia do usuário do iDRAC9 - Visualizando o log do Lifecycle a partir da interface Web
Verifique se os erros de MCE da CPU são precedidos por outros erros e se eles concentram a solução de problemas nesses componentes.
Etapas para a solução de problemas
- Atualize todos os firmwares disponíveis e monitore os resultados em busca de alterações no comportamento do erro.
- Se apenas uma CPU estiver mostrando erros, troque as CPUs para determinar se o erro segue a CPU para o outro soquete.
- Se o MCE for acionado a partir de um erro de outro componente, concentre a solução de problemas nesse componente.
- Verifique quais componentes são controlados pela CPU com o MCE.
- Por exemplo: Se for uma CPU1 MCE, verifique todos os risers e slots PCIE que são controlados pela CPU1 e todos os dispositivos instalados nesses slots, bem como a memória no lado da CPU1, verifique todos os A-DIMMs em busca de erros.
- Para verificar qual CPU controla cada riser ou slot, consulte o Manual de instalação e serviço de servidores e procure em Como instalar e remover componentes> do sistema , placas de expansão e risers> de placa de expansão , diretrizes de instalação da placa de expansão.
- Para obter mais informações sobre como identificar qual CPU controla as risers ou slots, consulte: PowerEdge: Solução de problemas de detecção de dispositivos PCIe
- Para descartar os gatilhos de MCE relacionados ao sistema operacional, teste fora do sistema operacional para ver se os erros ainda são acionados fora dele.
- Execute o diagnóstico ePSA para ver se algum erro é acionado durante os testes.
- Inicialize a mídia Support Live Image (SLI) para testar se erros são gerados nesse ambiente do sistema operacional.
Execução de testes de estresse no Support Live Image
Duração: 00:02:38 (hh:mm:ss)
Quando disponíveis, as configurações de idioma de legendas podem ser escolhidas usando o ícone CC neste player de vídeo.