PowerEdge: Errori di controllo del computer CPU

Summary: Questo articolo fornisce informazioni sugli errori di controllo del computer CPU e sulle cause più comuni, nonché sulla corretta gestione in caso di errori.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Che cosa sono gli errori di controllo della macchina della CPU?

Sui server PowerEdge e sfruttando soluzioni che utilizzano il BIOS standard e il firmware iDRAC, i controlli della macchina vengono acquisiti nel registro eventi di sistema (SEL).
Queste voci si riflettono anche nel registro del Lifecycle Controller (LCL) in vari codici evento EEMI (Enhanced Error Message Initiative).

Codice evento Messaggio dell'evento
CPU0011 Uncorrectable machine check exception detected on CPU #
CPU0012 Correctable machine check exception detected on CPU #
CPU0704 CPU # machine check detected
UEFI0076 One or more corrected machine check errors have occurred
UEFI0078 One or more machine check errors occurred in the previous boot

 

 

 

Esempi di registro:

2022-10-22 22:12:35    506    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:34    505    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:33    504    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:31    503    CPU0704    CPU 2 machine check error detected.
2022-10-22 22:12:31    502    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2025-05-21 03:42:32    320    CPU9000    An OEM diagnostic event occurred.
2025-05-21 03:42:30    319    CPU0704    CPU 1 machine check error detected.
2025-05-21 03:42:29    318    PST0090    A problem was detected related to the previous server boot.
2025-05-21 03:42:29    317    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2021-09-02 16:02:18    712    UEFI0078   One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18    711    CPU0000    Internal error has occurred check for additional logs.

 


Cause

 

Informazioni sulle cause degli errori di controllo del computer CPU

Gli errori di controllo del computer della CPU (MCE) hanno diverse possibili cause, che vanno da trigger hardware a software. Questi errori possono essere attribuiti a vari fattori, tra cui:

  • Microcodice del BIOS, firmware o CPU
  • Firmware CPLD della scheda madre
  • Errori di memoria
  • Errori irreversibili del bus PCIE
  • Arresto anomalo del sistema operativo o guasti del software e dei driver (BSOD, PSOD o kernel panic)
  • Guasti della CPU

I registri hardware possono essere utilizzati per identificare le possibili cause verificando se altri errori dei componenti accompagnano gli errori di controllo del computer della CPU.

 

Esempio di CPU MCE attivate da un errore di memoria:
Errore MCE della CPU causato da un errore DIMM

 

Errore MCE della CPU con DIMM sui server più recenti

 

Esempio di CPU MCE attivata da un errore irreversibile del bus:
MCE della CPU visualizzato con un errore irreversibile del bus

 

Esempio di CPU MCE attivata da un arresto anomalo del sistema operativo:
CPU MCE con errore di arresto anomalo del sistema operativo

 


Resolution

 

Indicazioni generali

È sempre utile porsi queste domande:

  • Ci sono state modifiche recenti al sistema, come aggiornamenti o modifiche hardware o di configurazione?
  • Ci sono altri errori nei registri nelle vicinanze che potrebbero essere più informativi del controllo del computer stesso?
  • Con quale frequenza avviene il controllo della macchina? Si è trattato di un caso isolato? Può essere facilmente riprodotto?
  • Sono coinvolti fattori ambientali, come carichi di lavoro specifici o scenari di alimentazione e termici?

 

Firmware e driver

Firmware e driver obsoleti o incompatibili sono tra i responsabili più comuni dei controlli delle macchine, in quanto lavorano insieme per implementare e controllare il comportamento dei dispositivi. Pertanto, è essenziale esaminare le versioni utilizzate nell'ambito della valutazione di qualsiasi indagine di controllo della macchina.

 

Tra i firmware, gli aggiornamenti del BIOS sono critici:

  • La maggior parte delle versioni del BIOS incorpora gli aggiornamenti forniti dal rispettivo fornitore del processore, molti dei quali includono correzioni esplicite per i controlli della macchina.
  • Questi aggiornamenti UEFI per i server includono microcodice, codice di riferimento e altri aggiornamenti dei moduli che controllano la funzionalità, tra cui tutte le funzioni RAS (Reliability, Availability, Serviceability).
  • Allo stesso tempo, non trascurare altri firmware nel sistema.
  • Praticamente qualsiasi dispositivo nel sistema potrebbe essere considerato colpevole, incluso, in rari casi, l'iDRAC. 

 

Identificazione e risoluzione degli errori di controllo del computer CPU

Per identificare gli errori di controllo del computer CPU, iniziare controllando i registri hardware Lifecycle (LC) o System Event Log (SEL) direttamente dall'IDRAC oppure raccogliere una raccolta TSR o SupportAssist per esaminare i registri.

Verificare se gli errori MCE della CPU sono preceduti da altri errori e se si concentrano sulla risoluzione dei problemi relativi a tali componenti.

 

Passaggi per la risoluzione dei problemi

  • Aggiornare tutto il firmware disponibile e monitorare i risultati per rilevare eventuali modifiche nel comportamento degli errori.
  • Se solo una CPU mostra errori, scambiare le CPU per determinare se l'errore segue la CPU nell'altro socket.
  • Se MCE viene attivato da un errore di un altro componente, concentrarsi per la risoluzione dei problemi su tale componente.
    • Controllare quali componenti sono controllati dalla CPU con l'MCE.
    • Ad esempio: Se si tratta di un MCE CPU1, verificare la presenza di errori in tutte le schede riser e gli slot PCIE controllati da CPU1 e tutti i dispositivi installati in tali slot, nonché la memoria sul lato CPU1.
    • Per verificare quale CPU controlla ogni riser o slot, consultare il Manuale di installazione e manutenzione dei server e leggere la sezione Installazione e rimozione dei componenti di>sistema Schede di espansione e montaggi> delle schede di espansione , Istruzioni per l'installazione della scheda di espansione.
    • Per ulteriori informazioni sull'identificazione della CPU che controlla le riser o gli slot, vedere: PowerEdge: Risoluzione dei problemi di rilevamento dei dispositivi PCIe
  • Per escludere trigger MCE correlati al sistema operativo, eseguire un test all'esterno del sistema operativo per verificare se gli errori sono ancora attivati al di fuori del sistema operativo.

    Esecuzione di test di stress in Support Live Image

    Durata: 00:02:38 (hh:mm:ss)
    Se disponibili, è possibile scegliere le impostazioni della lingua dei sottotitoli (sottotitoli) utilizzando l'icona CC su questo lettore video.

 

Affected Products

PowerFlex rack, C Series, HS Series, Modular Infrastructure, Rack Servers, Tower Servers, XE Servers, XR Servers, OEM Server Solutions, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R860, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Article Properties
Article Number: 000349127
Article Type: Solution
Last Modified: 25 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.