PowerEdge : Erreurs de vérification de la machine du processeur
Summary: Cet article fournit des informations sur les erreurs de vérification automatique du processeur et leurs causes courantes, ainsi que sur la manipulation appropriée lorsque des erreurs sont détectées. ...
Symptoms
Que sont les erreurs de vérification du processeur ?
Sur les serveurs PowerEdge et en utilisant des solutions qui utilisent un BIOS et un firmware iDRAC standard, les vérifications de machine sont enregistrées dans le journal des événements système (SEL).
Ces entrées sont également reflétées dans le journal Lifecycle Controller (LCL) sous divers codes d’événement EEMI (Enhanced Error Message Initiative).
| Code de l’événement | Message d’événement |
|---|---|
CPU0011 |
Uncorrectable machine check exception detected on CPU # |
CPU0012 |
Correctable machine check exception detected on CPU # |
CPU0704 |
CPU # machine check detected |
UEFI0076 |
One or more corrected machine check errors have occurred |
UEFI0078 |
One or more machine check errors occurred in the previous boot |
Exemples de journaux :
2022-10-22 22:12:35 506 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:34 505 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:33 504 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:31 503 CPU0704 CPU 2 machine check error detected. 2022-10-22 22:12:31 502 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2025-05-21 03:42:32 320 CPU9000 An OEM diagnostic event occurred. 2025-05-21 03:42:30 319 CPU0704 CPU 1 machine check error detected. 2025-05-21 03:42:29 318 PST0090 A problem was detected related to the previous server boot. 2025-05-21 03:42:29 317 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18 712 UEFI0078 One or more Machine Check errors occurred in the previous boot. 2021-09-02 16:02:18 711 CPU0000 Internal error has occurred check for additional logs.
Cause
Comprendre les causes des erreurs de vérification de la machine du processeur
Les erreurs de vérification machine du processeur (MCE) ont plusieurs causes possibles, allant des déclencheurs matériels aux déclencheurs logiciels. Ces erreurs peuvent être attribuées à divers facteurs, notamment :
- Microcode du microcode du processeur ou firmware du BIOS
- Firmware CPLD de la carte mère
- Erreurs de mémoire
- Erreurs de bus fatales PCIE
- Panne du système d’exploitation ou pannes de logiciel et de pilote (BSOD, PSOD ou panique du noyau)
- Pannes du processeur
Les journaux du matériel peuvent être utilisés pour identifier les causes possibles en vérifiant si d’autres erreurs de composants accompagnent les erreurs de vérification de la machine du processeur.
Exemples de MCE de processeur déclenchées à partir d’une erreur de mémoire :

Exemple de MCE de processeur déclenché à partir d’une erreur de bus fatale :
Exemple de MCE de processeur déclenché à la suite d’une panne du système d’exploitation :
Resolution
Généralités
Il est toujours utile de se poser les questions suivantes :
- Des modifications récentes ont-elles été apportées au système, telles que des mises à jour, du matériel ou de la configuration ?
- Y a-t-il d’autres erreurs dans les journaux à proximité qui peuvent être plus informatives que la vérification de la machine elle-même ?
- À quelle fréquence la vérification de la machine a-t-elle lieu ? S’agissait-il d’un cas isolé ? Peut-il être facilement reproduit ?
- Y a-t-il des facteurs environnementaux impliqués, tels que des charges applicatives spécifiques ou des scénarios d’alimentation et thermiques ?
Firmware et pilotes
Le firmware et les pilotes obsolètes ou incompatibles font partie des coupables de contrôle de machine les plus courants, car ils fonctionnent ensemble pour implémenter et contrôler le comportement de l’appareil. Il est donc essentiel d’examiner les versions utilisées dans le cadre de l’évaluation de toute enquête de contrôle de la machine.
Parmi les firmwares, les mises à jour du BIOS sont essentielles :
- La plupart des versions du BIOS intègrent des mises à jour fournies par le fournisseur de processeur respectif, dont beaucoup incluent des correctifs explicites pour les contrôles de la machine.
- Ces mises à jour UEFI pour les serveurs incluent le microcode, le code de référence et d’autres mises à jour de modules qui contrôlent les fonctionnalités, notamment toutes les fonctionnalités de fiabilité, de disponibilité et de facilité de maintenance (RAS), entre autres.
- En même temps, ne négligez pas les autres firmwares du système.
- Pratiquement n’importe quel appareil du système peut être en cause, y compris, dans de rares cas, l’iDRAC.
Identification et résolution des erreurs de vérification de la machine du processeur
Pour identifier les erreurs de vérification de la machine du processeur, commencez par vérifier les journaux du matériel Lifecycle (LC) ou le journal des événements système (SEL) directement à partir de l’iDRAC ou collectez une collecte TSR ou SupportAssist pour passer en revue les journaux.
- PowerEdge : Exportation d’une collecte SupportAssist à l’aide d’un iDRAC
- PowerEdge : Affichage ou effacement du journal des événements système
- Guide de l’utilisateur de l’iDRAC9 : affichage du journal Lifecycle à partir de l’interface Web
Vérifiez si les erreurs MCE du processeur sont précédées d’autres erreurs et si le dépannage se concentre sur ces composants.
Procédure de dépannage
- Mettez à jour tous les firmwares disponibles et surveillez les résultats pour détecter tout changement dans le comportement d’erreur.
- Si un seul processeur affiche des erreurs, permutez les processeurs pour déterminer si l’erreur provient de l’autre socket.
- Si le MCE est déclenché à la suite d’une erreur d’un autre composant, concentrez le dépannage sur ce composant.
- Vérifiez quels composants sont contrôlés par le processeur à l’aide de l’ECM.
- Par exemple : S’il s’agit d’un MCE CPU1, vérifiez toutes les cartes de montage et les logements PCIE contrôlés par le processeur CPU1 et tous les appareils installés dans ces logements, ainsi que la mémoire côté CPU1, vérifiez que tous les A-DIMM ne présentent pas d’erreurs.
- Pour savoir quel processeur contrôle chaque carte de montage ou chaque logement, reportez-vous au Manuel d’installation et de maintenance des serveurs et à la section Installation et retrait des composants> du système , Cartes d’extension et cartes de montage pour cartes> d’extension , Consignes d’installation des cartes d’extension.
- Pour plus d’informations sur l’identification du processeur qui contrôle les cartes de montage ou les logements, consultez : PowerEdge : Dépannage des problèmes de détection des périphériques PCIe
- Pour exclure les déclencheurs MCE liés au système d’exploitation, effectuez un test à l’extérieur du système d’exploitation pour voir si les erreurs sont toujours déclenchées en dehors du système d’exploitation.
- Exécutez les diagnostics ePSA pour voir si des erreurs sont déclenchées lors des tests.
- Démarrez le support SLI (Support Live Image) pour tester si des erreurs sont générées dans l’environnement de ce système d’exploitation.
Exécution de tests de contrainte dans l’image Support Live Image
Durée : 00:02:38 (hh :mm :ss)
Lorsqu’ils sont disponibles, les paramètres de langue des sous-titres peuvent être choisis à l’aide de l’icône CC de ce lecteur vidéo.