PowerEdge: Помилки перевірки процесорного апарату
Summary: Ця стаття містить інформацію про помилки перевірки процесора та поширені причини, а також правильне поводження з ними, коли бачать помилки.
Symptoms
Що таке помилки перевірки процесорного апарату?
На серверах PowerEdge і в рішеннях, що використовують стандартні мікропрограми BIOS та iDRAC, перевірки машини реєструються в журналі системних подій (SEL).
Ці записи також відображаються в журналі контролера життєвого циклу (LCL) під різними кодами подій Enhanced Error Message Initiative (EEMI).
| Код події | Повідомлення про подію |
|---|---|
CPU0011 |
Uncorrectable machine check exception detected on CPU # |
CPU0012 |
Correctable machine check exception detected on CPU # |
CPU0704 |
CPU # machine check detected |
UEFI0076 |
One or more corrected machine check errors have occurred |
UEFI0078 |
One or more machine check errors occurred in the previous boot |
Приклади журналів:
2022-10-22 22:12:35 506 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:34 505 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:33 504 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:31 503 CPU0704 CPU 2 machine check error detected. 2022-10-22 22:12:31 502 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2025-05-21 03:42:32 320 CPU9000 An OEM diagnostic event occurred. 2025-05-21 03:42:30 319 CPU0704 CPU 1 machine check error detected. 2025-05-21 03:42:29 318 PST0090 A problem was detected related to the previous server boot. 2025-05-21 03:42:29 317 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18 712 UEFI0078 One or more Machine Check errors occurred in the previous boot. 2021-09-02 16:02:18 711 CPU0000 Internal error has occurred check for additional logs.
Cause
Розуміння причин помилок перевірки процесора
Помилки перевірки процесорних машин (MCE) мають кілька можливих причин, починаючи від апаратних і закінчуючи програмними тригерами. Ці помилки можна пояснити різними факторами, серед яких:
- Прошивка BIOS або мікрокод процесора
- Прошивка CPLD материнської плати
- Помилки пам'яті
- Фатальні помилки шини PCIE
- Збій ОС або несправності програмного забезпечення та драйверів (BSOD, PSOD або паніка ядра)
- Несправності процесора
Журнали апаратного забезпечення можуть використовуватися для виявлення можливих причин, перевіряючи, чи не супроводжують помилки інших компонентів помилки перевірки процесорного апарату.
Приклади MCE процесора, спрацьованих через помилку пам'яті:

Приклад процесорного MCE, спрацьованого через фатальну помилку шини:
Приклад CPU MCE, що спрацьовує від збою ОС:
Resolution
Загальні вказівки
Завжди корисно задати такі питання:
- Чи відбулися нещодавні зміни в системі, як-от оновлення або зміни в апаратному забезпеченні чи конфігурації?
- Чи є поруч інші помилки в журналах, які можуть бути більш інформативними, ніж сам чек машини?
- Як часто відбувається перевірка машини? Чи це був одноразовий випадок? Чи можна його легко відтворити?
- Чи задіяні фактори навколишнього середовища, такі як конкретні робочі навантаження або сценарії потужності та тепла?
Прошивка і драйвери
Застарілі або несумісні прошивки та драйвери є одними з найпоширеніших винуватців перевірки машин, оскільки вони працюють разом для реалізації та контролю поведінки пристрою. Тому важливо переглянути версії, які використовуються в рамках оцінки будь-якого розслідування перевірки машини.
Серед прошивок критично важливими є оновлення BIOS:
- Більшість випусків BIOS містять оновлення, надані відповідним постачальником процесорів, багато з яких містять явні виправлення для перевірки машини.
- Ці оновлення UEFI для серверів включають мікрокод, довідковий код та інші оновлення модулів, які контролюють функціональність, включаючи всі функції надійності, доступності та справності (RAS) тощо.
- При цьому не варто випускати з уваги інші прошивки в системі.
- Винуватцем може виявитися практично будь-який пристрій в системі, в тому числі в рідкісних випадках і iDRAC.
Виявлення та усунення помилок перевірки процесорного апарату
Щоб виявити помилки перевірки процесорного апарату, почніть із перевірки журналів життєвого циклу обладнання (LC) або журналу системних подій (SEL) безпосередньо в IDRAC або зберіть колекцію TSR чи SupportAssist для перегляду журналів.
- PowerEdge: Експорт колекції SupportAssist за допомогою iDRAC
- PowerEdge: Як переглянути або очистити журнал системних подій
- Посібник користувача IDRAC9 - Перегляд журналу життєвого циклу з веб-інтерфейсу
Подивіться, чи не передують помилкам процесора MCE якісь інші помилки і чи зосереджені вони на усуненні неполадок цих компонентів.
Кроки з усунення несправностей
- Оновіть усі доступні прошивки та стежте за результатами на предмет будь-яких змін у поведінці помилок.
- Якщо лише один процесор показує помилки, поміняйте процесори місцями, щоб визначити, чи помилка слідує за центральним процесором до іншого сокета.
- Якщо MCE викликається помилкою іншого компонента, зосередьте усунення неполадок на цьому компоненті.
- Перевірте, які компоненти керуються центральним процесором за допомогою MCE.
- Наприклад: Якщо це CPU1 MCE, перевірте всі райзери та слоти PCIE, які керуються CPU1, і всі пристрої, встановлені в цих слотах, а також пам'ять на стороні CPU1, перевірте всі A-DIMM на наявність помилок.
- Щоб перевірити, який процесор керує кожним райзером або слотом, зверніться до Посібника з інсталяції та обслуговування серверів, а також перегляньте розділ Встановлення та видалення системних компонентів>, Плати розширення та райзери> плати розширення , Інструкції з інсталяції плати розширення.
- Для отримання додаткової інформації про те, який процесор керує стояками або слотами, дивіться: PowerEdge: Усунення проблем із виявленням пристрою PCIe
- Щоб виключити тригери MCE, пов'язані з ОС, перевірте за межами ОС, щоб побачити, чи помилки все ще спрацьовують за межами ОС.
- Запустіть діагностику ePSA, щоб побачити, чи не спрацьовують якісь помилки під час тестів.
- Завантажте носій Support Live Image (SLI), щоб перевірити, чи не генеруються помилки в цьому середовищі ОС.
Запустіть стрес-тести в підтримці Live Image
Тривалість: 00:02:38 (гг:хх:сс)
Якщо доступно, налаштування мови прихованих субтитрів (субтитрів) можна вибрати за допомогою піктограми CC на цьому відеоплеєрі.