PowerEdge : Erreurs de vérification de la machine du processeur

Summary: Cet article fournit des informations sur les erreurs de vérification automatique du processeur et leurs causes courantes, ainsi que sur la manipulation appropriée lorsque des erreurs sont détectées. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Que sont les erreurs de vérification du processeur ?

Sur les serveurs PowerEdge et en utilisant des solutions qui utilisent un BIOS et un firmware iDRAC standard, les vérifications de machine sont enregistrées dans le journal des événements système (SEL).
Ces entrées sont également reflétées dans le journal Lifecycle Controller (LCL) sous divers codes d’événement EEMI (Enhanced Error Message Initiative).

Code de l’événement Message d’événement
CPU0011 Uncorrectable machine check exception detected on CPU #
CPU0012 Correctable machine check exception detected on CPU #
CPU0704 CPU # machine check detected
UEFI0076 One or more corrected machine check errors have occurred
UEFI0078 One or more machine check errors occurred in the previous boot

 

 

 

Exemples de journaux :

2022-10-22 22:12:35    506    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:34    505    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:33    504    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:31    503    CPU0704    CPU 2 machine check error detected.
2022-10-22 22:12:31    502    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2025-05-21 03:42:32    320    CPU9000    An OEM diagnostic event occurred.
2025-05-21 03:42:30    319    CPU0704    CPU 1 machine check error detected.
2025-05-21 03:42:29    318    PST0090    A problem was detected related to the previous server boot.
2025-05-21 03:42:29    317    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2021-09-02 16:02:18    712    UEFI0078   One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18    711    CPU0000    Internal error has occurred check for additional logs.

 


Cause

 

Comprendre les causes des erreurs de vérification de la machine du processeur

Les erreurs de vérification machine du processeur (MCE) ont plusieurs causes possibles, allant des déclencheurs matériels aux déclencheurs logiciels. Ces erreurs peuvent être attribuées à divers facteurs, notamment :

  • Microcode du microcode du processeur ou firmware du BIOS
  • Firmware CPLD de la carte mère
  • Erreurs de mémoire
  • Erreurs de bus fatales PCIE
  • Panne du système d’exploitation ou pannes de logiciel et de pilote (BSOD, PSOD ou panique du noyau)
  • Pannes du processeur

Les journaux du matériel peuvent être utilisés pour identifier les causes possibles en vérifiant si d’autres erreurs de composants accompagnent les erreurs de vérification de la machine du processeur.

 

Exemples de MCE de processeur déclenchées à partir d’une erreur de mémoire :
Erreur MCE du processeur causée par une erreur DIMM

 

Erreur CPU MCE avec DIMM sur les serveurs plus récents

 

Exemple de MCE de processeur déclenché à partir d’une erreur de bus fatale :
MCE du processeur détecté avec une erreur BUS fatale

 

Exemple de MCE de processeur déclenché à la suite d’une panne du système d’exploitation :
Erreur de blocage du processeur MCE avec système d’exploitation

 


Resolution

 

Généralités

Il est toujours utile de se poser les questions suivantes :

  • Des modifications récentes ont-elles été apportées au système, telles que des mises à jour, du matériel ou de la configuration ?
  • Y a-t-il d’autres erreurs dans les journaux à proximité qui peuvent être plus informatives que la vérification de la machine elle-même ?
  • À quelle fréquence la vérification de la machine a-t-elle lieu ? S’agissait-il d’un cas isolé ? Peut-il être facilement reproduit ?
  • Y a-t-il des facteurs environnementaux impliqués, tels que des charges applicatives spécifiques ou des scénarios d’alimentation et thermiques ?

 

Firmware et pilotes

Le firmware et les pilotes obsolètes ou incompatibles font partie des coupables de contrôle de machine les plus courants, car ils fonctionnent ensemble pour implémenter et contrôler le comportement de l’appareil. Il est donc essentiel d’examiner les versions utilisées dans le cadre de l’évaluation de toute enquête de contrôle de la machine.

 

Parmi les firmwares, les mises à jour du BIOS sont essentielles :

  • La plupart des versions du BIOS intègrent des mises à jour fournies par le fournisseur de processeur respectif, dont beaucoup incluent des correctifs explicites pour les contrôles de la machine.
  • Ces mises à jour UEFI pour les serveurs incluent le microcode, le code de référence et d’autres mises à jour de modules qui contrôlent les fonctionnalités, notamment toutes les fonctionnalités de fiabilité, de disponibilité et de facilité de maintenance (RAS), entre autres.
  • En même temps, ne négligez pas les autres firmwares du système.
  • Pratiquement n’importe quel appareil du système peut être en cause, y compris, dans de rares cas, l’iDRAC. 

 

Identification et résolution des erreurs de vérification de la machine du processeur

Pour identifier les erreurs de vérification de la machine du processeur, commencez par vérifier les journaux du matériel Lifecycle (LC) ou le journal des événements système (SEL) directement à partir de l’iDRAC ou collectez une collecte TSR ou SupportAssist pour passer en revue les journaux.

Vérifiez si les erreurs MCE du processeur sont précédées d’autres erreurs et si le dépannage se concentre sur ces composants.

 

Procédure de dépannage

  • Mettez à jour tous les firmwares disponibles et surveillez les résultats pour détecter tout changement dans le comportement d’erreur.
  • Si un seul processeur affiche des erreurs, permutez les processeurs pour déterminer si l’erreur provient de l’autre socket.
  • Si le MCE est déclenché à la suite d’une erreur d’un autre composant, concentrez le dépannage sur ce composant.
    • Vérifiez quels composants sont contrôlés par le processeur à l’aide de l’ECM.
    • Par exemple : S’il s’agit d’un MCE CPU1, vérifiez toutes les cartes de montage et les logements PCIE contrôlés par le processeur CPU1 et tous les appareils installés dans ces logements, ainsi que la mémoire côté CPU1, vérifiez que tous les A-DIMM ne présentent pas d’erreurs.
    • Pour savoir quel processeur contrôle chaque carte de montage ou chaque logement, reportez-vous au Manuel d’installation et de maintenance des serveurs et à la section Installation et retrait des composants> du système , Cartes d’extension et cartes de montage pour cartes> d’extension , Consignes d’installation des cartes d’extension.
    • Pour plus d’informations sur l’identification du processeur qui contrôle les cartes de montage ou les logements, consultez : PowerEdge : Dépannage des problèmes de détection des périphériques PCIe
  • Pour exclure les déclencheurs MCE liés au système d’exploitation, effectuez un test à l’extérieur du système d’exploitation pour voir si les erreurs sont toujours déclenchées en dehors du système d’exploitation.

    Exécution de tests de contrainte dans l’image Support Live Image

    Durée : 00:02:38 (hh :mm :ss)
    Lorsqu’ils sont disponibles, les paramètres de langue des sous-titres peuvent être choisis à l’aide de l’icône CC de ce lecteur vidéo.

 

Affected Products

PowerFlex rack, C Series, HS Series, Modular Infrastructure, Rack Servers, Tower Servers, XE Servers, XR Servers, OEM Server Solutions, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R860, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Article Properties
Article Number: 000349127
Article Type: Solution
Last Modified: 25 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.