PowerEdge: CPU 머신 검사 오류
Summary: 이 문서에서는 CPU 컴퓨터 검사 오류, 일반적인 원인 및 오류가 나타날 때 적절한 처리에 대한 정보를 제공합니다.
Symptoms
CPU 머신 검사 오류란 무엇입니까?
PowerEdge 서버에서 표준 BIOS 및 iDRAC 펌웨어를 사용하는 솔루션을 활용하는 경우 시스템 검사가 SEL(System Event Log)에 캡처됩니다.
또한 이러한 항목은 LCL(Lifecycle Controller Log)의 다양한 EEMI(Enhanced Error Message Initiative) 이벤트 코드에 반영됩니다.
| 이벤트 코드 | 이벤트 메시지 |
|---|---|
CPU0011 |
Uncorrectable machine check exception detected on CPU # |
CPU0012 |
Correctable machine check exception detected on CPU # |
CPU0704 |
CPU # machine check detected |
UEFI0076 |
One or more corrected machine check errors have occurred |
UEFI0078 |
One or more machine check errors occurred in the previous boot |
로그 예:
2022-10-22 22:12:35 506 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:34 505 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:33 504 CPU9000 An OEM diagnostic event occurred. 2022-10-22 22:12:31 503 CPU0704 CPU 2 machine check error detected. 2022-10-22 22:12:31 502 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2025-05-21 03:42:32 320 CPU9000 An OEM diagnostic event occurred. 2025-05-21 03:42:30 319 CPU0704 CPU 1 machine check error detected. 2025-05-21 03:42:29 318 PST0090 A problem was detected related to the previous server boot. 2025-05-21 03:42:29 317 UEFI0078 One or more Machine Check errors occurred in the previous boot.
2021-09-02 16:02:18 712 UEFI0078 One or more Machine Check errors occurred in the previous boot. 2021-09-02 16:02:18 711 CPU0000 Internal error has occurred check for additional logs.
Cause
CPU 머신 검사 오류의 원인 이해
CPU MCE(Machine Check Error)에는 하드웨어에서 소프트웨어 트리거에 이르기까지 다양한 원인이 있을 수 있습니다. 이러한 오류는 다음과 같은 다양한 요인으로 인해 발생할 수 있습니다.
- BIOS 펌웨어 또는 CPU 마이크로코드
- 마더보드 CPLD 펌웨어
- 메모리 오류
- PCIE 치명적인 버스 오류
- OS 충돌 또는 소프트웨어 및 드라이버 장애(BSOD, PSOD 또는 커널 패닉)
- CPU 결함
하드웨어 로그를 사용하면 CPU 시스템 검사 오류와 함께 다른 구성 요소 오류가 발생하는지 확인하여 가능한 원인을 식별할 수 있습니다.
메모리 오류에서 트리거된 CPU MCE의 예:

치명적인 버스 오류에서 트리거된 CPU MCE의 예:
OS 충돌로 트리거된 CPU MCE의 예:
Resolution
일반 지침
다음과 같은 질문을 하는 것이 항상 도움이 됩니다.
- 하드웨어 또는 구성에 대한 업데이트, 변경 등 최근에 시스템에 변경 사항이 있었습니까?
- 근처의 로그에 시스템 검사 자체보다 더 많은 정보를 제공할 수 있는 다른 오류가 있습니까?
- 기계 점검은 얼마나 자주 발생합니까? 일회성이었습니까? 쉽게 재현 할 수 있습니까?
- 특정 워크로드 또는 전력 및 열 시나리오와 같은 환경적 요인이 관련되어 있습니까?
펌웨어 및 드라이버
오래되었거나 호환되지 않는 펌웨어와 드라이버는 함께 작동하여 디바이스 동작을 구현하고 제어하기 때문에 가장 일반적인 머신 체크 원인 중 하나입니다. 따라서 머신 체크 조사 평가의 일환으로 사용 중인 버전을 검토하는 것이 중요합니다.
펌웨어 중 BIOS 업데이트가 중요합니다.
- 대부분의 BIOS 릴리스에는 해당 프로세서 공급업체에서 제공하는 업데이트가 포함되어 있으며, 그 중 다수에는 컴퓨터 검사에 대한 명시적 수정 사항이 포함되어 있습니다.
- 이러한 서버용 UEFI 업데이트에는 마이크로코드, 참조 코드 및 모든 RAS(신뢰성, 가용성 및 서비스 용이성) 기능을 비롯한 기능을 제어하는 기타 모듈 업데이트가 포함됩니다.
- 동시에 시스템의 다른 펌웨어를 간과하지 마십시오.
- 드물게 iDRAC를 포함하여 시스템의 거의 모든 디바이스가 원인일 수 있습니다.
CPU 머신 검사 오류 식별 및 해결
CPU 컴퓨터 검사 오류를 식별하려면 먼저 IDRAC에서 직접 하드웨어 로그 LC(Lifecycle) 또는 SEL(System Event Log)을 확인하거나 TSR 또는 SupportAssist Collection을 수집하여 로그를 검토합니다.
- PowerEdge: iDRAC를 사용하여 SupportAssist Collection 내보내기
- PowerEdge: 시스템 이벤트 로그를 보거나 지우는 방법
- iDRAC9 사용자 가이드 - 웹 인터페이스에서 수명주기 로그 보기
CPU MCE 오류 이전에 다른 오류가 발생하는지, 이러한 오류가 해당 구성 요소에 대한 문제 해결에 중점을 두는지 확인합니다.
문제 해결 단계
- 사용 가능한 모든 펌웨어를 업데이트하고 결과를 모니터링하여 오류 동작에 변화가 있는지 확인합니다.
- 한 CPU에서만 오류가 표시되는 경우 CPU를 교체하여 오류가 CPU를 따라 다른 소켓으로 이어지는지 확인합니다.
- MCE가 다른 구성 요소 오류에서 트리거되는 경우 해당 구성 요소에 대한 문제 해결에 중점을 둡니다.
- MCE를 사용하여 CPU에서 제어하는 구성 요소를 확인합니다.
- 예: CPU1 MCE인 경우 CPU1에서 제어하는 모든 라이저 및 PCIE 슬롯과 해당 슬롯에 설치된 모든 디바이스, CPU1 측 메모리를 확인하고 모든 A-DIMM에 오류가 있는지 확인합니다.
- 각 라이저 또는 슬롯을 제어하는 CPU를 확인하려면 서버 설치 및 서비스 매뉴얼을 참조하고 시스템 구성 요소> 설치 및 제거확장 카드 및 확장 카드 라이저확장 카드 설치> 지침을 참조하십시오.
- 라이저 또는 슬롯을 제어하는 CPU를 식별하는 방법에 대한 자세한 내용은 다음을 참조하십시오. PowerEdge: PCIe 디바이스 감지 문제 해결
- OS 관련 MCE 트리거를 배제하려면 OS 외부에서 테스트하여 오류가 여전히 OS 외부에서 트리거되는지 확인합니다.
- ePSA 진단을 실행하여 테스트 중에 오류가 발생하는지 확인합니다.
- SLI(Support Live Image) 미디어를 부팅하여 해당 OS 환경에서 오류가 생성되는지 테스트합니다.
Support Live Image에서 스트레스 테스트 실행
시간: 00:02:38 (hh:mm:ss)
사용 가능한 경우 이 비디오 플레이어의 CC 아이콘을 사용하여 선택 자막(자막) 언어 설정을 선택할 수 있습니다.