PowerEdge: Errori di controllo del computer CPU
Summary: Questo articolo fornisce informazioni sugli errori di controllo del computer CPU e sulle cause più comuni, nonché sulla corretta gestione in caso di errori.
Symptoms
Che cosa sono gli errori di controllo della macchina della CPU?
Sui server PowerEdge e sfruttando soluzioni che utilizzano il BIOS standard e il firmware iDRAC, i controlli della macchina vengono acquisiti nel registro eventi di sistema (SEL).
Queste voci si riflettono anche nel registro del Lifecycle Controller (LCL) in vari codici evento EEMI (Enhanced Error Message Initiative).
| Codice evento | Messaggio dell'evento |
|---|---|
CPU0011 |
Uncorrectable machine check exception detected on CPU # |
CPU0012 |
Correctable machine check exception detected on CPU # |
CPU0704 |
CPU # machine check detected |
UEFI0076 |
One or more corrected machine check errors have occurred |
UEFI0078 |
One or more machine check errors occurred in the previous boot |
Esempi di registro:
2022-10-22 22:12:35 506 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:34 505 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:33 504 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:31 503 CPU0704 CPU 2 machine check error detected. 2022-10-22 22:12:31 502 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2025-05-21 03:42:32 320 CPU9000 An OEM diagnostic event occurred. 2025-05-21 03:42:30 319 CPU0704 CPU 1 machine check error detected. 2025-05-21 03:42:29 318 PST0090 A problem was detected related to the previous server boot. 2025-05-21 03:42:29 317 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18 712 UEFI0078 One or more Machine Check errors occurred in the previous boot. 2021-09-02 16:02:18 711 CPU0000 Internal error has occurred check for additional logs.
Cause
Informazioni sulle cause degli errori di controllo del computer CPU
Gli errori di controllo del computer della CPU (MCE) hanno diverse possibili cause, che vanno da trigger hardware a software. Questi errori possono essere attribuiti a vari fattori, tra cui:
- Microcodice del BIOS, firmware o CPU
- Firmware CPLD della scheda madre
- Errori di memoria
- Errori irreversibili del bus PCIE
- Arresto anomalo del sistema operativo o guasti del software e dei driver (BSOD, PSOD o kernel panic)
- Guasti della CPU
I registri hardware possono essere utilizzati per identificare le possibili cause verificando se altri errori dei componenti accompagnano gli errori di controllo del computer della CPU.
Esempio di CPU MCE attivate da un errore di memoria:

Esempio di CPU MCE attivata da un errore irreversibile del bus:
Esempio di CPU MCE attivata da un arresto anomalo del sistema operativo:
Resolution
Indicazioni generali
È sempre utile porsi queste domande:
- Ci sono state modifiche recenti al sistema, come aggiornamenti o modifiche hardware o di configurazione?
- Ci sono altri errori nei registri nelle vicinanze che potrebbero essere più informativi del controllo del computer stesso?
- Con quale frequenza avviene il controllo della macchina? Si è trattato di un caso isolato? Può essere facilmente riprodotto?
- Sono coinvolti fattori ambientali, come carichi di lavoro specifici o scenari di alimentazione e termici?
Firmware e driver
Firmware e driver obsoleti o incompatibili sono tra i responsabili più comuni dei controlli delle macchine, in quanto lavorano insieme per implementare e controllare il comportamento dei dispositivi. Pertanto, è essenziale esaminare le versioni utilizzate nell'ambito della valutazione di qualsiasi indagine di controllo della macchina.
Tra i firmware, gli aggiornamenti del BIOS sono critici:
- La maggior parte delle versioni del BIOS incorpora gli aggiornamenti forniti dal rispettivo fornitore del processore, molti dei quali includono correzioni esplicite per i controlli della macchina.
- Questi aggiornamenti UEFI per i server includono microcodice, codice di riferimento e altri aggiornamenti dei moduli che controllano la funzionalità, tra cui tutte le funzioni RAS (Reliability, Availability, Serviceability).
- Allo stesso tempo, non trascurare altri firmware nel sistema.
- Praticamente qualsiasi dispositivo nel sistema potrebbe essere considerato colpevole, incluso, in rari casi, l'iDRAC.
Identificazione e risoluzione degli errori di controllo del computer CPU
Per identificare gli errori di controllo del computer CPU, iniziare controllando i registri hardware Lifecycle (LC) o System Event Log (SEL) direttamente dall'IDRAC oppure raccogliere una raccolta TSR o SupportAssist per esaminare i registri.
- PowerEdge: Esportazione di una raccolta SupportAssist utilizzando un iDRAC
- PowerEdge: Come visualizzare o cancellare il registro eventi di sistema
- Guida per l'utente di IDRAC9 - Visualizzazione del registro del ciclo di vita dall'interfaccia web
Verificare se gli errori MCE della CPU sono preceduti da altri errori e se si concentrano sulla risoluzione dei problemi relativi a tali componenti.
Passaggi per la risoluzione dei problemi
- Aggiornare tutto il firmware disponibile e monitorare i risultati per rilevare eventuali modifiche nel comportamento degli errori.
- Se solo una CPU mostra errori, scambiare le CPU per determinare se l'errore segue la CPU nell'altro socket.
- Se MCE viene attivato da un errore di un altro componente, concentrarsi per la risoluzione dei problemi su tale componente.
- Controllare quali componenti sono controllati dalla CPU con l'MCE.
- Ad esempio: Se si tratta di un MCE CPU1, verificare la presenza di errori in tutte le schede riser e gli slot PCIE controllati da CPU1 e tutti i dispositivi installati in tali slot, nonché la memoria sul lato CPU1.
- Per verificare quale CPU controlla ogni riser o slot, consultare il Manuale di installazione e manutenzione dei server e leggere la sezione Installazione e rimozione dei componenti di>sistema Schede di espansione e montaggi> delle schede di espansione , Istruzioni per l'installazione della scheda di espansione.
- Per ulteriori informazioni sull'identificazione della CPU che controlla le riser o gli slot, vedere: PowerEdge: Risoluzione dei problemi di rilevamento dei dispositivi PCIe
- Per escludere trigger MCE correlati al sistema operativo, eseguire un test all'esterno del sistema operativo per verificare se gli errori sono ancora attivati al di fuori del sistema operativo.
- Eseguire la diagnostica ePSA per verificare se si verificano errori durante i test.
- Avviare il supporto SLI (Support Live Image) per verificare se vengono generati errori nell'ambiente del sistema operativo.
Esecuzione di test di stress in Support Live Image
Durata: 00:02:38 (hh:mm:ss)
Se disponibili, è possibile scegliere le impostazioni della lingua dei sottotitoli (sottotitoli) utilizzando l'icona CC su questo lettore video.