PowerEdge. Ошибки машинного контроля ЦП

Summary: В этой статье представлена информация об ошибках CPU Machine Check, распространенных причинах и правильной обработке ошибок.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Что такое ошибки CPU Machine Check?

На серверах PowerEdge и решениях, использующих стандартные версии BIOS и микропрограммы iDRAC, проверки компьютеров записываются в журнал системных событий (SEL).
Эти записи также отражаются в журнале контроллера жизненного цикла (LCL) под различными кодами событий Enhanced Error Message Initiative (EEMI).

Код события Сообщение о событии
CPU0011 Uncorrectable machine check exception detected on CPU #
CPU0012 Correctable machine check exception detected on CPU #
CPU0704 CPU # machine check detected
UEFI0076 One or more corrected machine check errors have occurred
UEFI0078 One or more machine check errors occurred in the previous boot

 

 

 

Примеры журналов:

2022-10-22 22:12:35    506    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:34    505    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:33    504    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:31    503    CPU0704    CPU 2 machine check error detected.
2022-10-22 22:12:31    502    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2025-05-21 03:42:32    320    CPU9000    An OEM diagnostic event occurred.
2025-05-21 03:42:30    319    CPU0704    CPU 1 machine check error detected.
2025-05-21 03:42:29    318    PST0090    A problem was detected related to the previous server boot.
2025-05-21 03:42:29    317    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2021-09-02 16:02:18    712    UEFI0078   One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18    711    CPU0000    Internal error has occurred check for additional logs.

 


Cause

 

Общие сведения о причинах ошибок машинной проверки ЦП

Ошибки машинного контроля ЦП (MCE) могут быть вызваны различными причинами, начиная от аппаратных и заканчивая программными триггерами. Эти ошибки могут быть связаны с различными факторами, в том числе:

  • Микрокод микропрограммы BIOS или ЦП
  • Микропрограмма CPLD системной платы
  • Ошибки памяти
  • Неустранимые ошибки шины PCIe
  • Сбой ОС или сбои программного обеспечения и драйвера (BSOD, PSOD или сбой ядра)
  • Сбои ЦП

Журналы оборудования можно использовать для определения возможных причин, проверяя, сопровождаются ли ошибки других компонентов, сопровождающие ошибки машинного контроля ЦП.

 

Пример MCE ЦП, вызванных ошибкой памяти:
Ошибка MCE процессора, вызванная ошибкой DIMM

 

Ошибка CPU MCE с DIMM на более новых серверах

 

Пример CPU MCE, вызванной неустранимой ошибкой шины:
В MCE ЦП отображается неустранимая ошибка шины

 

Пример MCE ЦП, вызванной сбоем ОС:
Ошибка CPU MCE с аварийным завершением работы ОС

 


Resolution

 

Общие рекомендации

Всегда полезно задать себе следующие вопросы:

  • Происходили ли в системе недавние изменения, например обновления оборудования, изменения конфигурации?
  • Есть ли другие ошибки в журналах поблизости, которые могут быть более информативными, чем сама проверка машины?
  • Как часто происходит проверка машины? Был ли это единичный случай? Можно ли его легко воспроизвести?
  • Существуют ли какие-либо факторы среды, такие как конкретные рабочие нагрузки или сценарии, связанные с питанием и охлаждением?

 

Микропрограмма и драйверы

Устаревшие или несовместимые микропрограммы и драйверы являются одними из самых распространенных виновников машинных проверок, поскольку они работают вместе для реализации и управления поведением устройства. Поэтому очень важно рассмотреть версии, используемые в рамках оценки любого расследования проверки машины.

 

Среди микропрограмм критически важными являются обновления BIOS:

  • Большинство выпусков BIOS включают обновления, предоставляемые соответствующим поставщиком процессора, многие из которых содержат явные исправления для машинных проверок.
  • Эти обновления UEFI для серверов включают обновления микрокода, ссылочного кода и других модулей, которые управляют функциональностью, включая все функции надежности, доступности и удобства обслуживания (RAS).
  • В то же время не забывайте о других микропрограммах в системе.
  • Виновником может быть практически любое устройство в системе, в том числе в редких случаях iDRAC. 

 

Выявление и устранение ошибок машинной проверки ЦП

Чтобы выявить ошибки проверки компьютера ЦП, начните с проверки журналов жизненного цикла оборудования (LC) или журнала системных событий (SEL) непосредственно из iDRAC или соберите TSR или коллекцию SupportAssist для просмотра журналов.

Проверьте, не предшествуют ли ошибкам MCE ЦП другие ошибки, и направлены ли они на поиск и устранение неисправностей этих компонентов.

 

Действия по устранению неисправностей

  • Обновляйте все доступные микропрограммы и отслеживайте результаты на предмет любых изменений в поведении при ошибках.
  • Если ошибки отображаются только в одном ЦП, поменяйте местами ЦП, чтобы определить, следует ли ошибка за ЦП в другой разъем.
  • Если MCE вызвана ошибкой другого компонента, сосредоточьте поиск и устранение неисправностей на этом компоненте.
    • Проверьте, какие компоненты управляются ЦП с помощью MCE.
    • Пример. Если это MCE CPU1, проверьте все переходники и слоты PCIe, которые управляются CPU1, и все устройства, установленные в этих слотах, а также память на стороне CPU1, проверьте все A-DIMM на наличие ошибок.
    • Чтобы узнать, какой процессор управляет каждым переходником или разъемом, см. Руководство по установке и обслуживанию серверов в разделе Установка и извлечение компонентов> системы Платы расширения и переходники> плат расширения Инструкции по установке плат расширения.
    • Дополнительные сведения о том, как определить, какой процессор управляет переходниками или разъемами, см. в разделе: PowerEdge. Поиск и устранение неисправностей при обнаружении устройств PCIe
  • Чтобы исключить триггеры MCE, связанные с ОС, выполните проверку вне ОС, чтобы определить, по-прежнему ли ошибки запускаются за пределами ОС.

    Запуск стресс-тестов в службе поддержки Live Image

    Продолжительность: 00:02:38 (чч:мм:сс)При
    наличии языковых настроек субтитров можно выбрать с помощью значка CC в этом видеопроигрывателе.

 

Affected Products

PowerFlex rack, C Series, HS Series, Modular Infrastructure, Rack Servers, Tower Servers, XE Servers, XR Servers, OEM Server Solutions, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R860, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Article Properties
Article Number: 000349127
Article Type: Solution
Last Modified: 25 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.