Dell PowerEdge BIOS에서는 메모리 이벤트 메시징, 오류 처리 및 서버 재부팅 시 발생하는 "자동 복구"를 개선하기 위한 개선 및 개선 사항이 계속 진행되고 있습니다. 따라서 오류 이벤트를 기록한 DDR4 메모리 DIMM을 교체하기 위해 예약된 유지 보수 기간이나 현장 방문이 필요하지 않습니다.
DDR4가 BIOS 버전 2.1.x 이상을 실행하는 PowerEdge 서버에 구현된 주요 메모리 관련 "자동 복구" BIOS 개선 사항이 두 가지 있습니다. 이러한 개선 사항은 메모리 이벤트가 발생하고 수명주기 로그에 기록되는 경우 수행할 권장 단계 또는 작업을 변경합니다.
부팅 중(메모리 구성 단계 초기)에 발생하는 메모리 재학습은 최상의 액세스를 위해 각 DIMM/슬롯의 신호 타이밍과 여백 설정을 최적화합니다. DIMM의 메모리 신호 타이밍 및 여백 설정 특성은 여러 가지 이유로 인해 시간이 지나면서 변경될 수 있습니다.
이전에는 BIOS 업데이트 또는 메모리 구성 변경 사항이 감지될 경우 이후 부팅 중에 메모리 재학습이 발생할 수 있었습니다. BIOS 2.1.x부터 예약된 재학습에 대해 수정 가능 및 수정 불가 메모리 오류 "트리거"가 추가되었습니다.
Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
SEL/수명주기 로그에 이러한 오류가 기록되면 다음 재부팅(웜 또는 콜드) 시 메모리 재학습이 예약됩니다. BIOS는 시작된 내용에 관계없이 자동으로 콜드 재부팅을 수행합니다.
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
이 다중 비트 오류는 운영 체제에서 해당 오류를 처리할 수 없는 경우 치명적인 오류로 인해 서버를 재부팅하게 합니다. 이로 인한 부팅 중에 메모리 재학습이 자동으로 수행됩니다. 운영 체제가 처리할 수 있는 중요하지 않은 메모리 위치에서 다중 비트 오류가 발생하면 재부팅을 예약해야 합니다.
POST 중 메모리 재학습은 신호 타이밍 및 여백 설정을 최적화하여 오류가 발생한 DIMM 및 관련 슬롯을 "자가 복구"할 수 있습니다. 부팅 중 메모리 재학습이 실패하거나(UEFI0106) 이와 동일한 오류가 계속 발생하지 않는 한 이러한 오류에 대한 DIMM 교체는 필요하지 않습니다.
두 번째 "자가 치유" 기억력 향상은 PPR입니다. PPR은 하드웨어 레이어에서 위치 또는 주소를 비활성화하여 오류가 발생한 메모리 위치를 복구함으로써 예비 메모리 행을 대신 사용할 수 있도록 합니다. 사용 가능한 예비 메모리 행의 정확한 개수는 DRAM 디바이스 및 DIMM 크기에 따라 다릅니다.
이전에는 이 기능이 제조 프로세스로 제한되었습니다. 앞에서 설명한 메모리 재학습 개선 사항과 마찬가지로, 다음 재부팅(웜 또는 콜드)을 위해 특정 DIMM 슬롯에서 PPR이 예약되는 수정 가능한 특정 메모리 오류가 있습니다. BIOS는 시작된 내용에 관계없이 자동으로 콜드 재부팅을 수행합니다. PPR 작업은 특정 DIMM 슬롯에 예약되므로 PPR 작업이 실행될 때까지 DIMM 슬롯 위치를 변경하지 마십시오. 오류의 예는 다음과 같습니다.
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
로그에서 이러한 이벤트가 발생하면 메모리 구성 단계 초기에 다음 재부팅(웜 또는 콜드)을 위한 PPR이 예약됩니다.
재부팅 후 PPR 작업이 성공적으로 수행되었는지 확인합니다. 성공적인 PPR 작업의 예는 다음과 유사합니다.
MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
Dell PowerEdge 서버 메모리 관련 RAS(Reliability, Availability, Serviceability) 기능을 설명하는 새로 게시된 백서(버전 1.0)를 이제 사용할 수 있습니다. 이 백서에서는 PowerEdge 서버에서 사용할 수 있는 다양한 RAS 기능과 메모리 오류 및 Dell EMC PowerEdge YX4X 서버 메모리 RAS 기능을 설명합니다.
수정 가능한 오류 임계값 이벤트에 대한 자세한 내용은 14G 인텔 및 15G 인텔/AMD PowerEdge 서버: DDR4 메모리: 수정 가능한 오류 임계값 이벤트 관리를 참조하십시오.2020년 4월 24일 업데이트
Dell은 "자동 복구" 기능을 지속적으로 개선하고 있습니다. 다음 섹션에는 다양한 BIOS 버전과 관련된 업데이트 및 개선 사항이 나열되어 있습니다.
BIOS 2.1.x - 오류 메시지 예시 및 권장 조치를 포함하여 BIOS 2.1.6 이상부터 사용할 수 있는 "자동 복구" 기능의 초기 문서 게시.
BIOS 2.4.x 이상 변경 사항(2019년 12월)
BIOS 2.5.x 이상 변경 사항(2020년 2월)
2020년 7월 10일 업데이트
BIOS 2.7.x 이상 변경 사항(2020년 7월 블록 BIOS - 7월 중순 웹 게시 예정)
2021년 1월 13일 업데이트
BIOS 2.8.2 이상 변경 사항(2020년 9월 블록 BIOS)
향후 BIOS 업데이트에 포함할 추가 RAS 기능 개선 사항을 평가하고 있습니다.
이 문서는 새로운 정보를 사용할 수 있게 되면 업데이트됩니다.
참조 항목: 교체 테스트를 통한 메모리 문제 해결에 대한 지침 - 교체 테스트를
통해 PowerEdge 시스템의 메모리 오류 문제 해결다운로드 및 드라이버: 드라이버 및 다운로드 | Dell 미국