PowerEdge: Помилки перевірки процесорної машини
Summary: Ця стаття містить інформацію про помилки CPU Machine Check, поширені причини, а також про правильне оброблення помилок, коли вони помічаються.
Symptoms
Які помилки при перевірці процесора?
На серверах PowerEdge та на рішеннях, що використовують стандартне BIOS та iDRAC прошивки, машинні перевірки фіксуються у журнал подій системи (SEL
).Ці записи також відображаються в журналі контролера життєвого циклу (LCL) у різних кодах подій Enhanced Error Message Initiative (EEMI).
| Код заходу | Повідомлення заходу |
|---|---|
CPU0011 |
Uncorrectable machine check exception detected on CPU # |
CPU0012 |
Correctable machine check exception detected on CPU # |
CPU0704 |
CPU # machine check detected |
UEFI0076 |
One or more corrected machine check errors have occurred |
UEFI0078 |
One or more machine check errors occurred in the previous boot |
Приклади логів:
2022-10-22 22:12:35 506 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:34 505 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:33 504 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:31 503 CPU0704 CPU 2 machine check error detected. 2022-10-22 22:12:31 502 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2025-05-21 03:42:32 320 CPU9000 An OEM diagnostic event occurred. 2025-05-21 03:42:30 319 CPU0704 CPU 1 machine check error detected. 2025-05-21 03:42:29 318 PST0090 A problem was detected related to the previous server boot. 2025-05-21 03:42:29 317 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18 712 UEFI0078 One or more Machine Check errors occurred in the previous boot. 2021-09-02 16:02:18 711 CPU0000 Internal error has occurred check for additional logs.
Cause
Розуміння причин помилок перевірки процесора
Помилки перевірки машини процесора (MCE) мають кілька можливих причин — від апаратних до програмних тригерів. Ці помилки можна пояснити різними факторами, зокрема:
- Мікрокод BIOS або мікрокод процесора
- CPLD-прошивка материнської плати
- Помилки пам'яті
- Фатальні помилки шини PCIE
- Збій ОС або помилки програмного забезпечення та драйверів (BSOD, PSOD або паніка ядра)
- Несправності процесора
Апаратні журнали можна використовувати для виявлення можливих причин, перевіряючи, чи супроводжують помилки інших компонентів CPU Machine Check Errors.
Приклади процесорних MCE, що запускаються через помилку пам'яті:


Приклад MCE процесора, що запускається через фатальну помилку шини:

Приклад MCE процесора, спричиненого збою ОС:

Resolution
Загальні рекомендації
Завжди корисно ставити такі питання:
- Чи були нещодавні зміни в системі, наприклад, оновлення або зміни в апаратному забезпеченні чи конфігурації?
- Чи є інші помилки в журналах поруч, які можуть бути більш інформативними, ніж сама перевірка машини?
- Як часто відбувається перевірка машини? Це був одноразовий випадок? Чи можна його легко відтворити?
- Чи є фактори навколишнього середовища, такі як конкретні навантаження або сценарії енергоспоживання та тепла?
Прошивка та драйвери
Застаріла або несумісна прошивка та драйвери є одними з найпоширеніших причин перевірки машин, оскільки вони працюють разом для реалізації та контролю поведінки пристрою. Тому важливо переглянути версії, які використовуються для оцінки будь-якого перевірки машин.
Серед прошивки критично важливими є оновлення BIOS:
- Більшість релізів BIOS містять оновлення, які надає відповідний виробник процесорів, багато з яких містять явні виправлення для перевірок машини.
- Ці оновлення UEFI для серверів включають мікрокод, довідковий код та інші оновлення модулів, які контролюють функціональність, включаючи всі функції надійності, доступності та сервісної доступності (RAS) серед інших.
- Водночас не ігноруйте іншу прошивку в системі.
- Практично будь-який пристрій у системі може бути винуватцем, включно з рідкісними випадками iDRAC.
Виявлення та усунення помилок перевірки процесорних машин
Щоб виявити помилки Check Machine Error, почніть з перевірки апаратних журналів життєвого циклу (LC) або журналу подій системи (SEL) безпосередньо з IDRAC або зберіть колекцію TSR або SupportAssist для перегляду журналів.
- PowerEdge: Експорт колекції SupportAssist за допомогою iDRAC
- PowerEdge: Як переглянути або очистити журнал подій системи
- Керівництво користувача IDRAC9 — перегляд журналу життєвого циклу з веб-інтерфейсу
Перевірте, чи помилки CPU MCE передують якісь інші помилки і чи зосереджені вони на діагностиці цих компонентів.
Кроки усунення несправностей
- Оновіть усі доступні прошивки та відстежуйте результати на наявність змін у поведінці помилок.
- Якщо MCE запускається через помилку іншого компонента, зосередьте усунення несправностей саме на цьому компоненті.
- Перевірте, які компоненти контролює процесор за допомогою MCE.
- Наприклад: Якщо це CPU1 MCE, перевірте всі райзери та PCIE-слоти, які керуються CPU1 та будь-якими пристроями, встановленими в цих слотах, а також пам'ять на стороні CPU1, перевірте всі A-DIMM на помилки.
- Щоб перевірити, який процесор керує кожним райзером або слотом, дивіться Інструкцію з встановлення та обслуговування серверів і подивіться у розділі Встановлення та видалення компонентів>системи, Карти розширення та розширювальні карти,>Рекомендації щодо встановлення карт розширення.
- Для детальнішої інформації про те, який процесор керує підйомниками або слотами, дивіться: PowerEdge: Вирішення проблем із виявленням пристроїв PCIe
- Щоб виключити тригери MCE, пов'язані з ОС, протестуйте поза межами ОС, щоб з'ясувати, чи залишаються помилки поза нею.
- Запустіть діагностику ePSA, щоб перевірити, чи виникають помилки під час тестів.
- Завантажте носій Support Live Image (SLI), щоб перевірити, чи виникають помилки в цьому середовищі ОС.
Запустіть стрес-тести в підтримці Live Image
Тривалість: 00:02:38 (hh:mm:ss)
Коли доступно, мовні налаштування субтитрів (субтитри) можна вибрати за допомогою іконки CC на цьому відеоплеєрі.