PowerEdge: Помилки перевірки процесорного апарату

Summary: Ця стаття містить інформацію про помилки перевірки процесора та поширені причини, а також правильне поводження з ними, коли бачать помилки.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Що таке помилки перевірки процесорного апарату?

На серверах PowerEdge і в рішеннях, що використовують стандартні мікропрограми BIOS та iDRAC, перевірки машини реєструються в журналі системних подій (SEL).
Ці записи також відображаються в журналі контролера життєвого циклу (LCL) під різними кодами подій Enhanced Error Message Initiative (EEMI).

Код події Повідомлення про подію
CPU0011 Uncorrectable machine check exception detected on CPU #
CPU0012 Correctable machine check exception detected on CPU #
CPU0704 CPU # machine check detected
UEFI0076 One or more corrected machine check errors have occurred
UEFI0078 One or more machine check errors occurred in the previous boot

 

 

 

Приклади журналів:

2022-10-22 22:12:35    506    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:34    505    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:33    504    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:31    503    CPU0704    CPU 2 machine check error detected.
2022-10-22 22:12:31    502    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2025-05-21 03:42:32    320    CPU9000    An OEM diagnostic event occurred.
2025-05-21 03:42:30    319    CPU0704    CPU 1 machine check error detected.
2025-05-21 03:42:29    318    PST0090    A problem was detected related to the previous server boot.
2025-05-21 03:42:29    317    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2021-09-02 16:02:18    712    UEFI0078   One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18    711    CPU0000    Internal error has occurred check for additional logs.

 


Cause

 

Розуміння причин помилок перевірки процесора

Помилки перевірки процесорних машин (MCE) мають кілька можливих причин, починаючи від апаратних і закінчуючи програмними тригерами. Ці помилки можна пояснити різними факторами, серед яких:

  • Прошивка BIOS або мікрокод процесора
  • Прошивка CPLD материнської плати
  • Помилки пам'яті
  • Фатальні помилки шини PCIE
  • Збій ОС або несправності програмного забезпечення та драйверів (BSOD, PSOD або паніка ядра)
  • Несправності процесора

Журнали апаратного забезпечення можуть використовуватися для виявлення можливих причин, перевіряючи, чи не супроводжують помилки інших компонентів помилки перевірки процесорного апарату.

 

Приклади MCE процесора, спрацьованих через помилку пам'яті:
Помилка MCE процесора, спричинена помилкою DIMM

 

CPU MCE з помилкою DIMM на нових серверах

 

Приклад процесорного MCE, спрацьованого через фатальну помилку шини:
Видно CPU MCE з фатальною помилкою BUS

 

Приклад CPU MCE, що спрацьовує від збою ОС:
CPU MCE з помилкою збою ОС

 


Resolution

 

Загальні вказівки

Завжди корисно задати такі питання:

  • Чи відбулися нещодавні зміни в системі, як-от оновлення або зміни в апаратному забезпеченні чи конфігурації?
  • Чи є поруч інші помилки в журналах, які можуть бути більш інформативними, ніж сам чек машини?
  • Як часто відбувається перевірка машини? Чи це був одноразовий випадок? Чи можна його легко відтворити?
  • Чи задіяні фактори навколишнього середовища, такі як конкретні робочі навантаження або сценарії потужності та тепла?

 

Прошивка і драйвери

Застарілі або несумісні прошивки та драйвери є одними з найпоширеніших винуватців перевірки машин, оскільки вони працюють разом для реалізації та контролю поведінки пристрою. Тому важливо переглянути версії, які використовуються в рамках оцінки будь-якого розслідування перевірки машини.

 

Серед прошивок критично важливими є оновлення BIOS:

  • Більшість випусків BIOS містять оновлення, надані відповідним постачальником процесорів, багато з яких містять явні виправлення для перевірки машини.
  • Ці оновлення UEFI для серверів включають мікрокод, довідковий код та інші оновлення модулів, які контролюють функціональність, включаючи всі функції надійності, доступності та справності (RAS) тощо.
  • При цьому не варто випускати з уваги інші прошивки в системі.
  • Винуватцем може виявитися практично будь-який пристрій в системі, в тому числі в рідкісних випадках і iDRAC. 

 

Виявлення та усунення помилок перевірки процесорного апарату

Щоб виявити помилки перевірки процесорного апарату, почніть із перевірки журналів життєвого циклу обладнання (LC) або журналу системних подій (SEL) безпосередньо в IDRAC або зберіть колекцію TSR чи SupportAssist для перегляду журналів.

Подивіться, чи не передують помилкам процесора MCE якісь інші помилки і чи зосереджені вони на усуненні неполадок цих компонентів.

 

Кроки з усунення несправностей

  • Оновіть усі доступні прошивки та стежте за результатами на предмет будь-яких змін у поведінці помилок.
  • Якщо лише один процесор показує помилки, поміняйте процесори місцями, щоб визначити, чи помилка слідує за центральним процесором до іншого сокета.
  • Якщо MCE викликається помилкою іншого компонента, зосередьте усунення неполадок на цьому компоненті.
    • Перевірте, які компоненти керуються центральним процесором за допомогою MCE.
    • Наприклад: Якщо це CPU1 MCE, перевірте всі райзери та слоти PCIE, які керуються CPU1, і всі пристрої, встановлені в цих слотах, а також пам'ять на стороні CPU1, перевірте всі A-DIMM на наявність помилок.
    • Щоб перевірити, який процесор керує кожним райзером або слотом, зверніться до Посібника з інсталяції та обслуговування серверів, а також перегляньте розділ Встановлення та видалення системних компонентів>, Плати розширення та райзери> плати розширення , Інструкції з інсталяції плати розширення.
    • Для отримання додаткової інформації про те, який процесор керує стояками або слотами, дивіться: PowerEdge: Усунення проблем із виявленням пристрою PCIe
  • Щоб виключити тригери MCE, пов'язані з ОС, перевірте за межами ОС, щоб побачити, чи помилки все ще спрацьовують за межами ОС.

    Запустіть стрес-тести в підтримці Live Image

    Тривалість: 00:02:38 (гг:хх:сс)
    Якщо доступно, налаштування мови прихованих субтитрів (субтитрів) можна вибрати за допомогою піктограми CC на цьому відеоплеєрі.

 

Affected Products

PowerFlex rack, C Series, HS Series, Modular Infrastructure, Rack Servers, Tower Servers, XE Servers, XR Servers, OEM Server Solutions, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R860, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Article Properties
Article Number: 000349127
Article Type: Solution
Last Modified: 25 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.