PowerEdge. Ошибки машинного контроля ЦП

Resumen: В этой статье представлена информация об ошибках CPU Machine Check, распространенных причинах и правильной обработке ошибок.

Este artículo se aplica a Este artículo no se aplica a Este artículo no está vinculado a ningún producto específico. No se identifican todas las versiones del producto en este artículo.

Síntomas

Что такое ошибки CPU Machine Check?

На серверах PowerEdge и решениях, использующих стандартные версии BIOS и микропрограммы iDRAC, проверки компьютеров записываются в журнал системных событий (SEL).
Эти записи также отражаются в журнале контроллера жизненного цикла (LCL) под различными кодами событий Enhanced Error Message Initiative (EEMI).

Код события Сообщение о событии
CPU0011 Uncorrectable machine check exception detected on CPU #
CPU0012 Correctable machine check exception detected on CPU #
CPU0704 CPU # machine check detected
UEFI0076 One or more corrected machine check errors have occurred
UEFI0078 One or more machine check errors occurred in the previous boot

 

 

 

Примеры журналов:

2022-10-22 22:12:35    506    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:34    505    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:33    504    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:31    503    CPU0704    CPU 2 machine check error detected.
2022-10-22 22:12:31    502    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2025-05-21 03:42:32    320    CPU9000    An OEM diagnostic event occurred.
2025-05-21 03:42:30    319    CPU0704    CPU 1 machine check error detected.
2025-05-21 03:42:29    318    PST0090    A problem was detected related to the previous server boot.
2025-05-21 03:42:29    317    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2021-09-02 16:02:18    712    UEFI0078   One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18    711    CPU0000    Internal error has occurred check for additional logs.

 


Causa

 

Общие сведения о причинах ошибок машинной проверки ЦП

Ошибки машинного контроля ЦП (MCE) могут быть вызваны различными причинами, начиная от аппаратных и заканчивая программными триггерами. Эти ошибки могут быть связаны с различными факторами, в том числе:

  • Микрокод микропрограммы BIOS или ЦП
  • Микропрограмма CPLD системной платы
  • Ошибки памяти
  • Неустранимые ошибки шины PCIe
  • Сбой ОС или сбои программного обеспечения и драйвера (BSOD, PSOD или сбой ядра)
  • Сбои ЦП

Журналы оборудования можно использовать для определения возможных причин, проверяя, сопровождаются ли ошибки других компонентов, сопровождающие ошибки машинного контроля ЦП.

 

Пример MCE ЦП, вызванных ошибкой памяти:
Ошибка MCE процессора, вызванная ошибкой DIMM

 

Ошибка CPU MCE с DIMM на более новых серверах

 

Пример CPU MCE, вызванной неустранимой ошибкой шины:
В MCE ЦП отображается неустранимая ошибка шины

 

Пример MCE ЦП, вызванной сбоем ОС:
Ошибка CPU MCE с аварийным завершением работы ОС

 


Resolución

 

Общие рекомендации

Всегда полезно задать себе следующие вопросы:

  • Происходили ли в системе недавние изменения, например обновления оборудования, изменения конфигурации?
  • Есть ли другие ошибки в журналах поблизости, которые могут быть более информативными, чем сама проверка машины?
  • Как часто происходит проверка машины? Был ли это единичный случай? Можно ли его легко воспроизвести?
  • Существуют ли какие-либо факторы среды, такие как конкретные рабочие нагрузки или сценарии, связанные с питанием и охлаждением?

 

Микропрограмма и драйверы

Устаревшие или несовместимые микропрограммы и драйверы являются одними из самых распространенных виновников машинных проверок, поскольку они работают вместе для реализации и управления поведением устройства. Поэтому очень важно рассмотреть версии, используемые в рамках оценки любого расследования проверки машины.

 

Среди микропрограмм критически важными являются обновления BIOS:

  • Большинство выпусков BIOS включают обновления, предоставляемые соответствующим поставщиком процессора, многие из которых содержат явные исправления для машинных проверок.
  • Эти обновления UEFI для серверов включают обновления микрокода, ссылочного кода и других модулей, которые управляют функциональностью, включая все функции надежности, доступности и удобства обслуживания (RAS).
  • В то же время не забывайте о других микропрограммах в системе.
  • Виновником может быть практически любое устройство в системе, в том числе в редких случаях iDRAC. 

 

Выявление и устранение ошибок машинной проверки ЦП

Чтобы выявить ошибки проверки компьютера ЦП, начните с проверки журналов жизненного цикла оборудования (LC) или журнала системных событий (SEL) непосредственно из iDRAC или соберите TSR или коллекцию SupportAssist для просмотра журналов.

Проверьте, не предшествуют ли ошибкам MCE ЦП другие ошибки, и направлены ли они на поиск и устранение неисправностей этих компонентов.

 

Действия по устранению неисправностей

  • Обновляйте все доступные микропрограммы и отслеживайте результаты на предмет любых изменений в поведении при ошибках.
  • Если ошибки отображаются только в одном ЦП, поменяйте местами ЦП, чтобы определить, следует ли ошибка за ЦП в другой разъем.
  • Если MCE вызвана ошибкой другого компонента, сосредоточьте поиск и устранение неисправностей на этом компоненте.
    • Проверьте, какие компоненты управляются ЦП с помощью MCE.
    • Пример. Если это MCE CPU1, проверьте все переходники и слоты PCIe, которые управляются CPU1, и все устройства, установленные в этих слотах, а также память на стороне CPU1, проверьте все A-DIMM на наличие ошибок.
    • Чтобы узнать, какой процессор управляет каждым переходником или разъемом, см. Руководство по установке и обслуживанию серверов в разделе Установка и извлечение компонентов> системы Платы расширения и переходники> плат расширения Инструкции по установке плат расширения.
    • Дополнительные сведения о том, как определить, какой процессор управляет переходниками или разъемами, см. в разделе: PowerEdge. Поиск и устранение неисправностей при обнаружении устройств PCIe
  • Чтобы исключить триггеры MCE, связанные с ОС, выполните проверку вне ОС, чтобы определить, по-прежнему ли ошибки запускаются за пределами ОС.

    Запуск стресс-тестов в службе поддержки Live Image

    Продолжительность: 00:02:38 (чч:мм:сс)При
    наличии языковых настроек субтитров можно выбрать с помощью значка CC в этом видеопроигрывателе.

 

Productos afectados

PowerFlex rack, C Series, HS Series, Modular Infrastructure, Rack Servers, Tower Servers, XE Servers, XR Servers, OEM Server Solutions, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R860, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Propiedades del artículo
Número del artículo: 000349127
Tipo de artículo: Solution
Última modificación: 25 Jul 2025
Versión:  4
Encuentre respuestas a sus preguntas de otros usuarios de Dell
Servicios de soporte
Compruebe si el dispositivo está cubierto por los servicios de soporte.