PowerEdge. Ошибки машинного контроля ЦП
Summary: В этой статье представлена информация об ошибках CPU Machine Check, распространенных причинах и правильной обработке ошибок.
Symptoms
Что такое ошибки CPU Machine Check?
На серверах PowerEdge и решениях, использующих стандартные версии BIOS и микропрограммы iDRAC, проверки компьютеров записываются в журнал системных событий (SEL).
Эти записи также отражаются в журнале контроллера жизненного цикла (LCL) под различными кодами событий Enhanced Error Message Initiative (EEMI).
| Код события | Сообщение о событии |
|---|---|
CPU0011 |
Uncorrectable machine check exception detected on CPU # |
CPU0012 |
Correctable machine check exception detected on CPU # |
CPU0704 |
CPU # machine check detected |
UEFI0076 |
One or more corrected machine check errors have occurred |
UEFI0078 |
One or more machine check errors occurred in the previous boot |
Примеры журналов:
2022-10-22 22:12:35 506 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:34 505 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:33 504 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:31 503 CPU0704 CPU 2 machine check error detected. 2022-10-22 22:12:31 502 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2025-05-21 03:42:32 320 CPU9000 An OEM diagnostic event occurred. 2025-05-21 03:42:30 319 CPU0704 CPU 1 machine check error detected. 2025-05-21 03:42:29 318 PST0090 A problem was detected related to the previous server boot. 2025-05-21 03:42:29 317 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18 712 UEFI0078 One or more Machine Check errors occurred in the previous boot. 2021-09-02 16:02:18 711 CPU0000 Internal error has occurred check for additional logs.
Cause
Общие сведения о причинах ошибок машинной проверки ЦП
Ошибки машинного контроля ЦП (MCE) могут быть вызваны различными причинами, начиная от аппаратных и заканчивая программными триггерами. Эти ошибки могут быть связаны с различными факторами, в том числе:
- Микрокод микропрограммы BIOS или ЦП
- Микропрограмма CPLD системной платы
- Ошибки памяти
- Неустранимые ошибки шины PCIe
- Сбой ОС или сбои программного обеспечения и драйвера (BSOD, PSOD или сбой ядра)
- Сбои ЦП
Журналы оборудования можно использовать для определения возможных причин, проверяя, сопровождаются ли ошибки других компонентов, сопровождающие ошибки машинного контроля ЦП.
Пример MCE ЦП, вызванных ошибкой памяти:

Пример CPU MCE, вызванной неустранимой ошибкой шины:
Пример MCE ЦП, вызванной сбоем ОС:
Resolution
Общие рекомендации
Всегда полезно задать себе следующие вопросы:
- Происходили ли в системе недавние изменения, например обновления оборудования, изменения конфигурации?
- Есть ли другие ошибки в журналах поблизости, которые могут быть более информативными, чем сама проверка машины?
- Как часто происходит проверка машины? Был ли это единичный случай? Можно ли его легко воспроизвести?
- Существуют ли какие-либо факторы среды, такие как конкретные рабочие нагрузки или сценарии, связанные с питанием и охлаждением?
Микропрограмма и драйверы
Устаревшие или несовместимые микропрограммы и драйверы являются одними из самых распространенных виновников машинных проверок, поскольку они работают вместе для реализации и управления поведением устройства. Поэтому очень важно рассмотреть версии, используемые в рамках оценки любого расследования проверки машины.
Среди микропрограмм критически важными являются обновления BIOS:
- Большинство выпусков BIOS включают обновления, предоставляемые соответствующим поставщиком процессора, многие из которых содержат явные исправления для машинных проверок.
- Эти обновления UEFI для серверов включают обновления микрокода, ссылочного кода и других модулей, которые управляют функциональностью, включая все функции надежности, доступности и удобства обслуживания (RAS).
- В то же время не забывайте о других микропрограммах в системе.
- Виновником может быть практически любое устройство в системе, в том числе в редких случаях iDRAC.
Выявление и устранение ошибок машинной проверки ЦП
Чтобы выявить ошибки проверки компьютера ЦП, начните с проверки журналов жизненного цикла оборудования (LC) или журнала системных событий (SEL) непосредственно из iDRAC или соберите TSR или коллекцию SupportAssist для просмотра журналов.
- PowerEdge. Экспорт коллекции SupportAssist с помощью iDRAC
- PowerEdge. Просмотр и очистка журнала системных событий
- Руководство пользователя iDRAC9 — просмотр журнала жизненного цикла с помощью веб-интерфейса
Проверьте, не предшествуют ли ошибкам MCE ЦП другие ошибки, и направлены ли они на поиск и устранение неисправностей этих компонентов.
Действия по устранению неисправностей
- Обновляйте все доступные микропрограммы и отслеживайте результаты на предмет любых изменений в поведении при ошибках.
- Если ошибки отображаются только в одном ЦП, поменяйте местами ЦП, чтобы определить, следует ли ошибка за ЦП в другой разъем.
- Если MCE вызвана ошибкой другого компонента, сосредоточьте поиск и устранение неисправностей на этом компоненте.
- Проверьте, какие компоненты управляются ЦП с помощью MCE.
- Пример. Если это MCE CPU1, проверьте все переходники и слоты PCIe, которые управляются CPU1, и все устройства, установленные в этих слотах, а также память на стороне CPU1, проверьте все A-DIMM на наличие ошибок.
- Чтобы узнать, какой процессор управляет каждым переходником или разъемом, см. Руководство по установке и обслуживанию серверов в разделе Установка и извлечение компонентов> системы Платы расширения и переходники> плат расширения Инструкции по установке плат расширения.
- Дополнительные сведения о том, как определить, какой процессор управляет переходниками или разъемами, см. в разделе: PowerEdge. Поиск и устранение неисправностей при обнаружении устройств PCIe
- Чтобы исключить триггеры MCE, связанные с ОС, выполните проверку вне ОС, чтобы определить, по-прежнему ли ошибки запускаются за пределами ОС.
- Запустите диагностику ePSA, чтобы проверить, не возникают ли во время тестов ошибки.
- Загрузите носитель Support Live Image (SLI), чтобы проверить, не возникают ли ошибки в этой среде ОС.
Запуск стресс-тестов в службе поддержки Live Image
Продолжительность: 00:02:38 (чч:мм:сс)При
наличии языковых настроек субтитров можно выбрать с помощью значка CC в этом видеопроигрывателе.