PowerEdge: Помилки перевірки процесорної машини

Summary: Ця стаття містить інформацію про помилки CPU Machine Check, поширені причини, а також про правильне оброблення помилок, коли вони помічаються.

Ez a cikk a következő(k)re vonatkozik: Ez a cikk nem vonatkozik a következő(k)re: Ez a cikk nem kapcsolódik egyetlen konkrét termékhez sem. Ez a cikk nem azonosítja az összes termékverziót.

Symptoms

Які помилки при перевірці процесора?

На серверах PowerEdge та на рішеннях, що використовують стандартне BIOS та iDRAC прошивки, машинні перевірки фіксуються у журнал подій системи (SEL
).Ці записи також відображаються в журналі контролера життєвого циклу (LCL) у різних кодах подій Enhanced Error Message Initiative (EEMI).

Код заходу Повідомлення заходу
CPU0011 Uncorrectable machine check exception detected on CPU #
CPU0012 Correctable machine check exception detected on CPU #
CPU0704 CPU # machine check detected
UEFI0076 One or more corrected machine check errors have occurred
UEFI0078 One or more machine check errors occurred in the previous boot

 

 

 

Приклади логів:

2022-10-22 22:12:35    506    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:34    505    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:33    504    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:31    503    CPU0704    CPU 2 machine check error detected.
2022-10-22 22:12:31    502    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2025-05-21 03:42:32    320    CPU9000    An OEM diagnostic event occurred.
2025-05-21 03:42:30    319    CPU0704    CPU 1 machine check error detected.
2025-05-21 03:42:29    318    PST0090    A problem was detected related to the previous server boot.
2025-05-21 03:42:29    317    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2021-09-02 16:02:18    712    UEFI0078   One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18    711    CPU0000    Internal error has occurred check for additional logs.

 


Cause

 

Розуміння причин помилок перевірки процесора

Помилки перевірки машини процесора (MCE) мають кілька можливих причин — від апаратних до програмних тригерів. Ці помилки можна пояснити різними факторами, зокрема:

  • Мікрокод BIOS або мікрокод процесора
  • CPLD-прошивка материнської плати
  • Помилки пам'яті
  • Фатальні помилки шини PCIE
  • Збій ОС або помилки програмного забезпечення та драйверів (BSOD, PSOD або паніка ядра)
  • Несправності процесора

Апаратні журнали можна використовувати для виявлення можливих причин, перевіряючи, чи супроводжують помилки інших компонентів CPU Machine Check Errors.

 

Приклади процесорних MCE, що запускаються через помилку пам'яті:
Помилка процесора MCE, спричинена помилкою DIMM

 

CPU MCE з помилкою DIMM на новіших серверах

 

Приклад MCE процесора, що запускається через фатальну помилку шини:
CPU MCE показано з фатальною помилкою BUS

 

Приклад MCE процесора, спричиненого збою ОС:
CPU MCE з помилкою збою ОС

 


Resolution

 

Загальні рекомендації

Завжди корисно ставити такі питання:

  • Чи були нещодавні зміни в системі, наприклад, оновлення або зміни в апаратному забезпеченні чи конфігурації?
  • Чи є інші помилки в журналах поруч, які можуть бути більш інформативними, ніж сама перевірка машини?
  • Як часто відбувається перевірка машини? Це був одноразовий випадок? Чи можна його легко відтворити?
  • Чи є фактори навколишнього середовища, такі як конкретні навантаження або сценарії енергоспоживання та тепла?

 

Прошивка та драйвери

Застаріла або несумісна прошивка та драйвери є одними з найпоширеніших причин перевірки машин, оскільки вони працюють разом для реалізації та контролю поведінки пристрою. Тому важливо переглянути версії, які використовуються для оцінки будь-якого перевірки машин.

 

Серед прошивки критично важливими є оновлення BIOS:

  • Більшість релізів BIOS містять оновлення, які надає відповідний виробник процесорів, багато з яких містять явні виправлення для перевірок машини.
  • Ці оновлення UEFI для серверів включають мікрокод, довідковий код та інші оновлення модулів, які контролюють функціональність, включаючи всі функції надійності, доступності та сервісної доступності (RAS) серед інших.
  • Водночас не ігноруйте іншу прошивку в системі.
  • Практично будь-який пристрій у системі може бути винуватцем, включно з рідкісними випадками iDRAC. 

 

Виявлення та усунення помилок перевірки процесорних машин

Щоб виявити помилки Check Machine Error, почніть з перевірки апаратних журналів життєвого циклу (LC) або журналу подій системи (SEL) безпосередньо з IDRAC або зберіть колекцію TSR або SupportAssist для перегляду журналів.

Перевірте, чи помилки CPU MCE передують якісь інші помилки і чи зосереджені вони на діагностиці цих компонентів.

 

Кроки усунення несправностей

  • Оновіть усі доступні прошивки та відстежуйте результати на наявність змін у поведінці помилок.
  • Якщо MCE запускається через помилку іншого компонента, зосередьте усунення несправностей саме на цьому компоненті.
    • Перевірте, які компоненти контролює процесор за допомогою MCE.
    • Наприклад: Якщо це CPU1 MCE, перевірте всі райзери та PCIE-слоти, які керуються CPU1 та будь-якими пристроями, встановленими в цих слотах, а також пам'ять на стороні CPU1, перевірте всі A-DIMM на помилки.
    • Щоб перевірити, який процесор керує кожним райзером або слотом, дивіться Інструкцію з встановлення та обслуговування серверів і подивіться у розділі Встановлення та видалення компонентів>системи, Карти розширення та розширювальні карти,>Рекомендації щодо встановлення карт розширення.
    • Для детальнішої інформації про те, який процесор керує підйомниками або слотами, дивіться: PowerEdge: Вирішення проблем із виявленням пристроїв PCIe
  • Щоб виключити тригери MCE, пов'язані з ОС, протестуйте поза межами ОС, щоб з'ясувати, чи залишаються помилки поза нею.

    Запустіть стрес-тести в підтримці Live Image

    Тривалість: 00:02:38 (hh:mm:ss)
    Коли доступно, мовні налаштування субтитрів (субтитри) можна вибрати за допомогою іконки CC на цьому відеоплеєрі.

 

Érintett termékek

PowerFlex rack, C Series, HS Series, Modular Infrastructure, Rack Servers, Tower Servers, XE Servers, XR Servers, OEM Server Solutions, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R860, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Termék tulajdonságai
Article Number: 000349127
Article Type: Solution
Utoljára módosítva: 27 márc. 2026
Version:  5
Választ kaphat kérdéseire más Dell-felhasználóktól
Támogatási szolgáltatások
Ellenőrizze, hogy a készüléke rendelkezik-e támogatási szolgáltatással.