PowerEdge: Помилки перевірки процесорного апарату

Summary: Ця стаття містить інформацію про помилки перевірки процесора та поширені причини, а також правильне поводження з ними, коли бачать помилки.

Ez a cikk a következő(k)re vonatkozik: Ez a cikk nem vonatkozik a következő(k)re: Ez a cikk nem kapcsolódik egyetlen konkrét termékhez sem. Ez a cikk nem azonosítja az összes termékverziót.

Symptoms

Що таке помилки перевірки процесорного апарату?

На серверах PowerEdge і в рішеннях, що використовують стандартні мікропрограми BIOS та iDRAC, перевірки машини реєструються в журналі системних подій (SEL).
Ці записи також відображаються в журналі контролера життєвого циклу (LCL) під різними кодами подій Enhanced Error Message Initiative (EEMI).

Код події Повідомлення про подію
CPU0011 Uncorrectable machine check exception detected on CPU #
CPU0012 Correctable machine check exception detected on CPU #
CPU0704 CPU # machine check detected
UEFI0076 One or more corrected machine check errors have occurred
UEFI0078 One or more machine check errors occurred in the previous boot

 

 

 

Приклади журналів:

2022-10-22 22:12:35    506    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:34    505    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:33    504    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:31    503    CPU0704    CPU 2 machine check error detected.
2022-10-22 22:12:31    502    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2025-05-21 03:42:32    320    CPU9000    An OEM diagnostic event occurred.
2025-05-21 03:42:30    319    CPU0704    CPU 1 machine check error detected.
2025-05-21 03:42:29    318    PST0090    A problem was detected related to the previous server boot.
2025-05-21 03:42:29    317    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2021-09-02 16:02:18    712    UEFI0078   One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18    711    CPU0000    Internal error has occurred check for additional logs.

 


Cause

 

Розуміння причин помилок перевірки процесора

Помилки перевірки процесорних машин (MCE) мають кілька можливих причин, починаючи від апаратних і закінчуючи програмними тригерами. Ці помилки можна пояснити різними факторами, серед яких:

  • Прошивка BIOS або мікрокод процесора
  • Прошивка CPLD материнської плати
  • Помилки пам'яті
  • Фатальні помилки шини PCIE
  • Збій ОС або несправності програмного забезпечення та драйверів (BSOD, PSOD або паніка ядра)
  • Несправності процесора

Журнали апаратного забезпечення можуть використовуватися для виявлення можливих причин, перевіряючи, чи не супроводжують помилки інших компонентів помилки перевірки процесорного апарату.

 

Приклади MCE процесора, спрацьованих через помилку пам'яті:
Помилка MCE процесора, спричинена помилкою DIMM

 

CPU MCE з помилкою DIMM на нових серверах

 

Приклад процесорного MCE, спрацьованого через фатальну помилку шини:
Видно CPU MCE з фатальною помилкою BUS

 

Приклад CPU MCE, що спрацьовує від збою ОС:
CPU MCE з помилкою збою ОС

 


Resolution

 

Загальні вказівки

Завжди корисно задати такі питання:

  • Чи відбулися нещодавні зміни в системі, як-от оновлення або зміни в апаратному забезпеченні чи конфігурації?
  • Чи є поруч інші помилки в журналах, які можуть бути більш інформативними, ніж сам чек машини?
  • Як часто відбувається перевірка машини? Чи це був одноразовий випадок? Чи можна його легко відтворити?
  • Чи задіяні фактори навколишнього середовища, такі як конкретні робочі навантаження або сценарії потужності та тепла?

 

Прошивка і драйвери

Застарілі або несумісні прошивки та драйвери є одними з найпоширеніших винуватців перевірки машин, оскільки вони працюють разом для реалізації та контролю поведінки пристрою. Тому важливо переглянути версії, які використовуються в рамках оцінки будь-якого розслідування перевірки машини.

 

Серед прошивок критично важливими є оновлення BIOS:

  • Більшість випусків BIOS містять оновлення, надані відповідним постачальником процесорів, багато з яких містять явні виправлення для перевірки машини.
  • Ці оновлення UEFI для серверів включають мікрокод, довідковий код та інші оновлення модулів, які контролюють функціональність, включаючи всі функції надійності, доступності та справності (RAS) тощо.
  • При цьому не варто випускати з уваги інші прошивки в системі.
  • Винуватцем може виявитися практично будь-який пристрій в системі, в тому числі в рідкісних випадках і iDRAC. 

 

Виявлення та усунення помилок перевірки процесорного апарату

Щоб виявити помилки перевірки процесорного апарату, почніть із перевірки журналів життєвого циклу обладнання (LC) або журналу системних подій (SEL) безпосередньо в IDRAC або зберіть колекцію TSR чи SupportAssist для перегляду журналів.

Подивіться, чи не передують помилкам процесора MCE якісь інші помилки і чи зосереджені вони на усуненні неполадок цих компонентів.

 

Кроки з усунення несправностей

  • Оновіть усі доступні прошивки та стежте за результатами на предмет будь-яких змін у поведінці помилок.
  • Якщо лише один процесор показує помилки, поміняйте процесори місцями, щоб визначити, чи помилка слідує за центральним процесором до іншого сокета.
  • Якщо MCE викликається помилкою іншого компонента, зосередьте усунення неполадок на цьому компоненті.
    • Перевірте, які компоненти керуються центральним процесором за допомогою MCE.
    • Наприклад: Якщо це CPU1 MCE, перевірте всі райзери та слоти PCIE, які керуються CPU1, і всі пристрої, встановлені в цих слотах, а також пам'ять на стороні CPU1, перевірте всі A-DIMM на наявність помилок.
    • Щоб перевірити, який процесор керує кожним райзером або слотом, зверніться до Посібника з інсталяції та обслуговування серверів, а також перегляньте розділ Встановлення та видалення системних компонентів>, Плати розширення та райзери> плати розширення , Інструкції з інсталяції плати розширення.
    • Для отримання додаткової інформації про те, який процесор керує стояками або слотами, дивіться: PowerEdge: Усунення проблем із виявленням пристрою PCIe
  • Щоб виключити тригери MCE, пов'язані з ОС, перевірте за межами ОС, щоб побачити, чи помилки все ще спрацьовують за межами ОС.

    Запустіть стрес-тести в підтримці Live Image

    Тривалість: 00:02:38 (гг:хх:сс)
    Якщо доступно, налаштування мови прихованих субтитрів (субтитрів) можна вибрати за допомогою піктограми CC на цьому відеоплеєрі.

 

Érintett termékek

PowerFlex rack, C Series, HS Series, Modular Infrastructure, Rack Servers, Tower Servers, XE Servers, XR Servers, OEM Server Solutions, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R860, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Termék tulajdonságai
Article Number: 000349127
Article Type: Solution
Utoljára módosítva: 25 júl. 2025
Version:  4
Választ kaphat kérdéseire más Dell-felhasználóktól
Támogatási szolgáltatások
Ellenőrizze, hogy a készüléke rendelkezik-e támogatási szolgáltatással.