PowerEdge: Помилки перевірки процесорної машини

Summary: Ця стаття містить інформацію про помилки CPU Machine Check, поширені причини, а також про правильне оброблення помилок, коли вони помічаються.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Які помилки при перевірці процесора?

На серверах PowerEdge та на рішеннях, що використовують стандартне BIOS та iDRAC прошивки, машинні перевірки фіксуються у журнал подій системи (SEL
).Ці записи також відображаються в журналі контролера життєвого циклу (LCL) у різних кодах подій Enhanced Error Message Initiative (EEMI).

Код заходу Повідомлення заходу
CPU0011 Uncorrectable machine check exception detected on CPU #
CPU0012 Correctable machine check exception detected on CPU #
CPU0704 CPU # machine check detected
UEFI0076 One or more corrected machine check errors have occurred
UEFI0078 One or more machine check errors occurred in the previous boot

 

 

 

Приклади логів:

2022-10-22 22:12:35    506    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:34    505    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:33    504    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:31    503    CPU0704    CPU 2 machine check error detected.
2022-10-22 22:12:31    502    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2025-05-21 03:42:32    320    CPU9000    An OEM diagnostic event occurred.
2025-05-21 03:42:30    319    CPU0704    CPU 1 machine check error detected.
2025-05-21 03:42:29    318    PST0090    A problem was detected related to the previous server boot.
2025-05-21 03:42:29    317    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2021-09-02 16:02:18    712    UEFI0078   One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18    711    CPU0000    Internal error has occurred check for additional logs.

 


Cause

 

Розуміння причин помилок перевірки процесора

Помилки перевірки машини процесора (MCE) мають кілька можливих причин — від апаратних до програмних тригерів. Ці помилки можна пояснити різними факторами, зокрема:

  • Мікрокод BIOS або мікрокод процесора
  • CPLD-прошивка материнської плати
  • Помилки пам'яті
  • Фатальні помилки шини PCIE
  • Збій ОС або помилки програмного забезпечення та драйверів (BSOD, PSOD або паніка ядра)
  • Несправності процесора

Апаратні журнали можна використовувати для виявлення можливих причин, перевіряючи, чи супроводжують помилки інших компонентів CPU Machine Check Errors.

 

Приклади процесорних MCE, що запускаються через помилку пам'яті:
Помилка процесора MCE, спричинена помилкою DIMM

 

CPU MCE з помилкою DIMM на новіших серверах

 

Приклад MCE процесора, що запускається через фатальну помилку шини:
CPU MCE показано з фатальною помилкою BUS

 

Приклад MCE процесора, спричиненого збою ОС:
CPU MCE з помилкою збою ОС

 


Resolution

 

Загальні рекомендації

Завжди корисно ставити такі питання:

  • Чи були нещодавні зміни в системі, наприклад, оновлення або зміни в апаратному забезпеченні чи конфігурації?
  • Чи є інші помилки в журналах поруч, які можуть бути більш інформативними, ніж сама перевірка машини?
  • Як часто відбувається перевірка машини? Це був одноразовий випадок? Чи можна його легко відтворити?
  • Чи є фактори навколишнього середовища, такі як конкретні навантаження або сценарії енергоспоживання та тепла?

 

Прошивка та драйвери

Застаріла або несумісна прошивка та драйвери є одними з найпоширеніших причин перевірки машин, оскільки вони працюють разом для реалізації та контролю поведінки пристрою. Тому важливо переглянути версії, які використовуються для оцінки будь-якого перевірки машин.

 

Серед прошивки критично важливими є оновлення BIOS:

  • Більшість релізів BIOS містять оновлення, які надає відповідний виробник процесорів, багато з яких містять явні виправлення для перевірок машини.
  • Ці оновлення UEFI для серверів включають мікрокод, довідковий код та інші оновлення модулів, які контролюють функціональність, включаючи всі функції надійності, доступності та сервісної доступності (RAS) серед інших.
  • Водночас не ігноруйте іншу прошивку в системі.
  • Практично будь-який пристрій у системі може бути винуватцем, включно з рідкісними випадками iDRAC. 

 

Виявлення та усунення помилок перевірки процесорних машин

Щоб виявити помилки Check Machine Error, почніть з перевірки апаратних журналів життєвого циклу (LC) або журналу подій системи (SEL) безпосередньо з IDRAC або зберіть колекцію TSR або SupportAssist для перегляду журналів.

Перевірте, чи помилки CPU MCE передують якісь інші помилки і чи зосереджені вони на діагностиці цих компонентів.

 

Кроки усунення несправностей

  • Оновіть усі доступні прошивки та відстежуйте результати на наявність змін у поведінці помилок.
  • Якщо MCE запускається через помилку іншого компонента, зосередьте усунення несправностей саме на цьому компоненті.
    • Перевірте, які компоненти контролює процесор за допомогою MCE.
    • Наприклад: Якщо це CPU1 MCE, перевірте всі райзери та PCIE-слоти, які керуються CPU1 та будь-якими пристроями, встановленими в цих слотах, а також пам'ять на стороні CPU1, перевірте всі A-DIMM на помилки.
    • Щоб перевірити, який процесор керує кожним райзером або слотом, дивіться Інструкцію з встановлення та обслуговування серверів і подивіться у розділі Встановлення та видалення компонентів>системи, Карти розширення та розширювальні карти,>Рекомендації щодо встановлення карт розширення.
    • Для детальнішої інформації про те, який процесор керує підйомниками або слотами, дивіться: PowerEdge: Вирішення проблем із виявленням пристроїв PCIe
  • Щоб виключити тригери MCE, пов'язані з ОС, протестуйте поза межами ОС, щоб з'ясувати, чи залишаються помилки поза нею.

    Запустіть стрес-тести в підтримці Live Image

    Тривалість: 00:02:38 (hh:mm:ss)
    Коли доступно, мовні налаштування субтитрів (субтитри) можна вибрати за допомогою іконки CC на цьому відеоплеєрі.

 

Affected Products

PowerFlex rack, C Series, HS Series, Modular Infrastructure, Rack Servers, Tower Servers, XE Servers, XR Servers, OEM Server Solutions, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R860, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Article Properties
Article Number: 000349127
Article Type: Solution
Last Modified: 27 مارس 2026
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.