PowerEdge: 인텔 제온 스케일러블 프로세서를 사용한 DDR4 자가 복구란?
Summary: DDR4를 사용하는 PowerEdge 서버의 수정 가능한 메모리와 수정 불가능한 메모리 오류 및 문제 해결 단계 변경 사항
Symptoms
서버에서 메모리 오류가 발생할 경우 이러한 DDR4 "자동 복구" 기능(BIOS 개선 사항)은 권장 고객 및 기술 지원 조치를 어떻게 변경합니까?
최신 BIOS 버전에 포함된 "자동 복구" 개선 사항은 무엇입니까?
Cause
서버 재부팅 때 발생하는 메모리 이벤트 메시징, 오류 처리 및 "자동 복구" 기능을 개선하기 위해 Dell PowerEdge BIOS는 지속적으로 개선 및 향상되고 있습니다. 이렇게 하면 오류 이벤트를 기록하는 DDR4 메모리 DIMM을 교체하기 위해 예약된 유지 보수 기간 또는 현장 방문이 필요하지 않습니다.
Resolution
DDR4가 BIOS 버전 2.1.x 이상을 실행하는 PowerEdge 서버에 구현된 주요 메모리 관련 "자동 복구" BIOS 개선 사항이 두 가지 있습니다. 이러한 개선 사항은 메모리 이벤트가 발생하고 수명주기 로그에 기록되는 경우 수행할 권장 단계/조치를 변경합니다.
- BIOS 2.0 이전에서 DDR4 메모리 오류가 발생하는 경우, 메모리 자동 복구 기능과 지속적인 개선 노력을 포함하도록 BIOS를 최신 개정으로 업데이트하십시오. 고객이 최신 자동 복구 기능 개선 사항을 활용할 수 있도록 항상 최신 BIOS 릴리스(및 iDRAC 펌웨어)로 업데이트할 것을 권장합니다.
- 이전 메모리 문제 해결 단계에는 오류가 DIMM을 따라 발생하는지 DIMM 슬롯에 남아 있는지 확인하기 위해 오류가 발생한 DIMM을 다른 슬롯으로 이동하는 것이 포함됩니다. BIOS 2.1.x 이상에서 첫 번째 권장 단계는 DIMM을 다른 슬롯으로 이동하지 않고 재시작하는 것입니다. 이를 통해 새로운 BIOS 개선 사항을 실행하여 DIMM을 교체할 필요 없이 DIMM 오류를 잠재적으로 해결(자동 복구)할 수 있습니다.
- 메모리 재학습 개선 사항
부팅 중(메모리 구성 단계 초기)에 발생하는 메모리 재학습입니다. 최상의 액세스를 위해 각 DIMM/슬롯의 신호 타이밍 및 여백 설정을 최적화합니다. DIMM의 메모리 신호 타이밍 및 여백 설정 특성은 여러 가지 이유로 인해 시간이 지나면서 변경될 수 있습니다.
- 서버 메모리 구성의 변경
- BIOS 변경(Memory Reference Code - MRC)
- 서버 또는 DIMM의 다른 작동 온도
- DIMM의 일반 수명
이전에는 BIOS 업데이트 또는 메모리 구성 변경 사항이 감지될 경우 이후 부팅 중에 메모리 재학습이 발생할 수 있었습니다. BIOS 2.1.x부터 예약된 재학습에 대해 수정 가능 및 수정 불가 메모리 오류 "트리거"가 추가되었습니다.
Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
SEL 또는 수명주기 로그에 이러한 오류가 기록되면 다음 재부팅(웜 또는 콜드)에 대해 메모리 재학습이 예약됩니다. BIOS는 시작된 내용에 관계없이 자동으로 콜드 재부팅을 수행합니다.
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
이 다중 비트 오류는 운영 체제에서 해당 오류를 처리할 수 없는 경우 치명적인 오류로 인해 서버를 재부팅하게 합니다. 이로 인한 부팅 중에 메모리 재학습이 자동으로 수행됩니다. 운영 체제가 처리할 수 있는 중요하지 않은 메모리 위치에서 다중 비트 오류가 발생하면 재부팅을 예약해야 합니다.
POST 중 메모리 재학습은 신호 타이밍과 여백을 최적화하여 장애가 발생한 DIMM 및 관련 슬롯을 "자체 복구"할 수 있습니다. 부팅 중 메모리 재학습이 실패하거나(UEFI0106) 이와 동일한 오류가 계속 발생하지 않는 한 이러한 오류에 대한 DIMM 교체는 필요하지 않습니다.
- PPR(Post Package Repair)
두 번째 "자동 복구" 메모리 향상 방법으로는 PPR이 있습니다. PPR은 하드웨어 레이어에서 위치 또는 주소를 비활성화하여 오류가 발생한 메모리 위치를 복구함으로써 예비 메모리 행을 대신 사용할 수 있게 합니다. 사용 가능한 예비 메모리 행의 정확한 개수는 DRAM 디바이스 및 DIMM 크기에 따라 다릅니다.
이전에는 이 기능이 제조 프로세스로 제한되었습니다. 앞에서 설명한 메모리 재학습 개선 사항과 마찬가지로, 다음 재부팅(웜 또는 콜드)을 위해 특정 DIMM 슬롯에서 PPR이 예약되는 수정 가능한 특정 메모리 오류가 있습니다. BIOS는 시작된 내용에 관계없이 자동으로 콜드 재부팅을 수행합니다. PPR 작업은 특정 DIMM 슬롯에 예약되므로 PPR 작업이 실행될 때까지 DIMM 슬롯 위치를 변경하지 마십시오. 오류의 예는 다음과 같습니다.
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
로그에 이러한 이벤트가 있다면 메모리 구성 단계 초기에 다음 재부팅(웜 또는 콜드)을 위한 PPR이 예약됩니다.
MEM8000 이벤트 및 업데이트된 버전 1.1 이상 백서에 대한 변경 사항은 2020년 7월 10일 업데이트를 참조하십시오.
재부팅 후 PPR 작업이 성공적으로 수행되었는지 확인합니다. 성공적인 PPR 작업의 예는 다음과 유사합니다.
MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
PPR 작업이 아니라면 이러한 수정 가능한 메모리 오류에 대한 DIMM 교체는 필요하지 않습니다. 오류가 발생한 PPR 메시지의 예는 다음과 같습니다.
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
Dell PowerEdge 서버 메모리 관련 RAS(Reliability, Availability 및 Serviceability) 기능에 관해 설명하는 새로 게시된 백서(버전 1.0)를 이제 사용하실 수 있습니다. 이 백서에서는 PowerEdge 서버에서 사용할 수 있는 다양한 RAS 기능을 설명합니다. Memory 오류 및 Dell PowerEdge YX4X Server Memory RAS 기능
2020년 4월 24일 업데이트
Dell은 "자동 복구" 기능을 지속적으로 개선하고 있습니다. 다음 섹션에는 다양한 BIOS 버전과 관련된 업데이트 및 개선 사항이 나열되어 있습니다.
BIOS 2.1.x - 오류 메시지 예시 및 권장 조치를 포함하여 BIOS 2.1.6 이상부터 사용할 수 있는 "자동 복구" 기능의 초기 문서 게시.
BIOS 2.4.x 이상 변경 사항(2019년 12월)
- MEM0702 (Correctable error rate exceeded…) - 메시지가 심각에서 경고로 업데이트되었습니다. "자동 복구"가 진행되도록 서버를 재부팅하기 위한 권장 조치가 업데이트되었습니다(예: PPR(Post Package Repair)).
- 업데이트된 메시지를 받으려면 2019년 12월 버전 이상의 iDRAC도 설치해야 합니다.
- 권장 조치: PPR을 실행하려면 서버를 재부팅하십시오.
- MEM9060 - "자동 복구"가 성공적으로 완료되었다는 메시지 설명이 업데이트되었습니다.
BIOS 2.5.x 이상 변경 사항(2020년 2월)
- 고객이 수정 가능한 오류와 관련된 모든 수명주기 또는 SEL 로깅을 비활성화할 수 있도록 "수정 가능한 오류 로깅" BIOS 옵션이 추가되었습니다. 모든 "자동 복구" 기능은 계속 작동합니다. 예를 들어 PPR 및 메모리 재학습은 여전히 예약되어 다음 재부팅 중에(메모리 구성 프로세스 초기) 실행됩니다.
- RDIMM 및 LRDIMM에 대한 MEM08xx 오류가 추가되어 기존 오류 메시지 및 작업이 대체되었습니다. "자동 복구" 기능을 지원하지 않는 플랫폼에는 기존 오류 메시지가 계속 사용됩니다.
- 새 메시지가 기록되려면 2020년 2월 버전 이상의 idrac이 필요합니다.
- MEM0802 - 교체된 MEM0702 - 수정 가능한 오류율 초과
- 권장 조치: PPR을 실행하려면 서버를 재부팅하십시오. PPR이 성공했는지 확인합니다(MEM0802).
- MEM0804 - PPR이 성공했음을 나타내는 MEM9060을 교체했습니다. 이제 PPR을 실행한 DIMM 슬롯 위치가 포함됩니다.
- 권장 조치: 없습니다. 이 이벤트는 "자동 복구"가 발생했으며 DIMM을 교체할 필요가 없음을 나타냅니다.
- MEM0805 - PPR 실패를 나타내는 UEFI0278을 교체했습니다.
- 권장 조치: 오류가 발생한 DIMM 교체
2020년 7월 10일 업데이트
BIOS 2.7.x 이상 변경 사항(2020년 7월 블록 BIOS - 7월 중순 웹 게시 예정)
- MEM8000(수정 가능한 오류 로깅 비활성화) - Dell 엔지니어링 팀은 BIOS ~2.0.x부터 성능에 영향을 미칠 수 있는 수정 가능한 오류 탐지 속도를 향상하기 위해 BIOS를 변경하였습니다. 이러한 변화로 인해 DIMM 장애 분석 결과로 입증되지 않은 MEM8000 이벤트가 증가했습니다. BIOS 2.7.x부터 MEM8000과 관련된 두 가지 변경 사항이 있습니다. 첫 번째는 MEM8000 이벤트에 대한 신호가 수정되었다는 것입니다. 둘째, BIOS가 다음 재부팅을 위한 자동 복구(PPR)를 예약합니다. iDRAC 메시지는 새 작업을 반영하도록 아직 업데이트되지 않았습니다.
- 권장 조치: 자동 복구/PPR을 실행하려면 서버를 재부팅하십시오. PPR이 성공했는지 확인합니다(MEM0804).
- MEM0001(수정할 수 없는 오류) - 다음 재부팅을 위한 자동 복구(PPR)를 예약합니다. iDRAC 메시지는 새 작업을 반영하도록 아직 업데이트되지 않았습니다.
- 권장 조치: 운영 체제가 복구할 수 없는 중요 페이지와 MEM0001이 연결되어 있는 경우 필요 없음 - 여전히 심각한 오류로 인해 재부팅이 발생합니다. MEM0001이 운영 시스템에서 복구할 수 있는 중요하지 않은 페이지와 연결되어 있는 경우 자동 복구(PPR)가 모두 실행되도록 재부팅을 예약해야 합니다. PPR이 성공했는지 확인합니다(MEM0804).
2021년 1월 13일 업데이트
BIOS 2.8.2 이상 변경 사항(2020년 9월 블록 BIOS)
- MEM9072(메모리 패트롤 스크럽 프로세스로 식별되는 수정 불가능한 오류 - 페이지가 소비 중이거나 사용 중이 아님) - 다음 재부팅을 위한 자동 복구(PPR)가 예약됩니다. iDRAC 메시지는 아직 새 작업을 반영하도록 업데이트되지 않았습니다.
- 권장 조치: 곧 재부팅을 예약합니다. 재부팅을 지연하면 페이지 소모로 인해 MEM0001 오류가 발생하여 재부팅이 발생할 수 있습니다. 재부팅하는 동안 메모리 자동 복구(PPR)가 실행됩니다. PPR이 성공했는지 확인합니다(MEM0804).
인텔 제온 E 및 AMD EPYC 콘텐츠의 경우 다음 문서에서 제공하는 원본 엔지니어링 백서(버전 1.0)를 계속 참조하십시오. PowerEdge YX4X 서버 메모리 RAS 백서 v1.0(dell.com)
향후 BIOS 업데이트에 포함할 추가 RAS 기능 개선 사항을 평가하고 있습니다.
이 문서는 새로운 정보가 제공되면 업데이트됩니다.
다운로드 및 드라이버: 드라이버 및 다운로드