PowerEdge: CPU 머신 검사 오류

Summary: 이 문서에서는 CPU 컴퓨터 검사 오류, 일반적인 원인 및 오류가 나타날 때 적절한 처리에 대한 정보를 제공합니다.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

CPU 머신 검사 오류란 무엇입니까?

PowerEdge 서버에서 표준 BIOS 및 iDRAC 펌웨어를 사용하는 솔루션을 활용하는 경우 시스템 검사가 SEL(System Event Log)에 캡처됩니다.
또한 이러한 항목은 LCL(Lifecycle Controller Log)의 다양한 EEMI(Enhanced Error Message Initiative) 이벤트 코드에 반영됩니다.

이벤트 코드 이벤트 메시지
CPU0011 Uncorrectable machine check exception detected on CPU #
CPU0012 Correctable machine check exception detected on CPU #
CPU0704 CPU # machine check detected
UEFI0076 One or more corrected machine check errors have occurred
UEFI0078 One or more machine check errors occurred in the previous boot

 

 

 

로그 예:

2022-10-22 22:12:35    506    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:34    505    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:33    504    CPU9000    An OEM diagnostic event occurred.
2022-10-22 22:12:31    503    CPU0704    CPU 2 machine check error detected.
2022-10-22 22:12:31    502    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2025-05-21 03:42:32    320    CPU9000    An OEM diagnostic event occurred.
2025-05-21 03:42:30    319    CPU0704    CPU 1 machine check error detected.
2025-05-21 03:42:29    318    PST0090    A problem was detected related to the previous server boot.
2025-05-21 03:42:29    317    UEFI0078   One or more Machine Check errors occurred in the previous boot.

 

2021-09-02 16:02:18    712    UEFI0078   One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18    711    CPU0000    Internal error has occurred check for additional logs.

 


Cause

 

CPU 머신 검사 오류의 원인 이해

CPU MCE(Machine Check Error)에는 하드웨어에서 소프트웨어 트리거에 이르기까지 다양한 원인이 있을 수 있습니다. 이러한 오류는 다음과 같은 다양한 요인으로 인해 발생할 수 있습니다.

  • BIOS 펌웨어 또는 CPU 마이크로코드
  • 마더보드 CPLD 펌웨어
  • 메모리 오류
  • PCIE 치명적인 버스 오류
  • OS 충돌 또는 소프트웨어 및 드라이버 장애(BSOD, PSOD 또는 커널 패닉)
  • CPU 결함

하드웨어 로그를 사용하면 CPU 시스템 검사 오류와 함께 다른 구성 요소 오류가 발생하는지 확인하여 가능한 원인을 식별할 수 있습니다.

 

메모리 오류에서 트리거된 CPU MCE의 예:
DIMM 오류로 인한 CPU MCE 오류

 

최신 서버에서 DIMM 오류가 있는 CPU MCE

 

치명적인 버스 오류에서 트리거된 CPU MCE의 예:
CPU MCE에 치명적인 BUS 오류가 표시됨

 

OS 충돌로 트리거된 CPU MCE의 예:
OS 충돌 오류가 있는 CPU MCE

 


Resolution

 

일반 지침

다음과 같은 질문을 하는 것이 항상 도움이 됩니다.

  • 하드웨어 또는 구성에 대한 업데이트, 변경 등 최근에 시스템에 변경 사항이 있었습니까?
  • 근처의 로그에 시스템 검사 자체보다 더 많은 정보를 제공할 수 있는 다른 오류가 있습니까?
  • 기계 점검은 얼마나 자주 발생합니까? 일회성이었습니까? 쉽게 재현 할 수 있습니까?
  • 특정 워크로드 또는 전력 및 열 시나리오와 같은 환경적 요인이 관련되어 있습니까?

 

펌웨어 및 드라이버

오래되었거나 호환되지 않는 펌웨어와 드라이버는 함께 작동하여 디바이스 동작을 구현하고 제어하기 때문에 가장 일반적인 머신 체크 원인 중 하나입니다. 따라서 머신 체크 조사 평가의 일환으로 사용 중인 버전을 검토하는 것이 중요합니다.

 

펌웨어 중 BIOS 업데이트가 중요합니다.

  • 대부분의 BIOS 릴리스에는 해당 프로세서 공급업체에서 제공하는 업데이트가 포함되어 있으며, 그 중 다수에는 컴퓨터 검사에 대한 명시적 수정 사항이 포함되어 있습니다.
  • 이러한 서버용 UEFI 업데이트에는 마이크로코드, 참조 코드 및 모든 RAS(신뢰성, 가용성 및 서비스 용이성) 기능을 비롯한 기능을 제어하는 기타 모듈 업데이트가 포함됩니다.
  • 동시에 시스템의 다른 펌웨어를 간과하지 마십시오.
  • 드물게 iDRAC를 포함하여 시스템의 거의 모든 디바이스가 원인일 수 있습니다. 

 

CPU 머신 검사 오류 식별 및 해결

CPU 컴퓨터 검사 오류를 식별하려면 먼저 IDRAC에서 직접 하드웨어 로그 LC(Lifecycle) 또는 SEL(System Event Log)을 확인하거나 TSR 또는 SupportAssist Collection을 수집하여 로그를 검토합니다.

CPU MCE 오류 이전에 다른 오류가 발생하는지, 이러한 오류가 해당 구성 요소에 대한 문제 해결에 중점을 두는지 확인합니다.

 

문제 해결 단계

  • 사용 가능한 모든 펌웨어를 업데이트하고 결과를 모니터링하여 오류 동작에 변화가 있는지 확인합니다.
  • 한 CPU에서만 오류가 표시되는 경우 CPU를 교체하여 오류가 CPU를 따라 다른 소켓으로 이어지는지 확인합니다.
  • MCE가 다른 구성 요소 오류에서 트리거되는 경우 해당 구성 요소에 대한 문제 해결에 중점을 둡니다.
    • MCE를 사용하여 CPU에서 제어하는 구성 요소를 확인합니다.
    • 예: CPU1 MCE인 경우 CPU1에서 제어하는 모든 라이저 및 PCIE 슬롯과 해당 슬롯에 설치된 모든 디바이스, CPU1 측 메모리를 확인하고 모든 A-DIMM에 오류가 있는지 확인합니다.
    • 각 라이저 또는 슬롯을 제어하는 CPU를 확인하려면 서버 설치 및 서비스 매뉴얼을 참조하고 시스템 구성 요소> 설치 및 제거확장 카드 및 확장 카드 라이저확장 카드 설치> 지침을 참조하십시오.
    • 라이저 또는 슬롯을 제어하는 CPU를 식별하는 방법에 대한 자세한 내용은 다음을 참조하십시오. PowerEdge: PCIe 디바이스 감지 문제 해결
  • OS 관련 MCE 트리거를 배제하려면 OS 외부에서 테스트하여 오류가 여전히 OS 외부에서 트리거되는지 확인합니다.

    Support Live Image에서 스트레스 테스트 실행

    시간: 00:02:38 (hh:mm:ss)
    사용 가능한 경우 이 비디오 플레이어의 CC 아이콘을 사용하여 선택 자막(자막) 언어 설정을 선택할 수 있습니다.

 

Affected Products

PowerFlex rack, C Series, HS Series, Modular Infrastructure, Rack Servers, Tower Servers, XE Servers, XR Servers, OEM Server Solutions, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex appliance R860, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840 ...
Article Properties
Article Number: 000349127
Article Type: Solution
Last Modified: 25 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.