PowerEdge: 인텔 제온 스케일러블 프로세서를 사용한 DDR4 자가 복구란?

Summary: DDR4를 사용하는 PowerEdge 서버의 수정 가능한 메모리와 수정 불가능한 메모리 오류 및 문제 해결 단계 변경 사항

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

DDR4 "자동 복구"란 BIOS 버전 2.1.x 이상이 설치된 인텔 제온 스케일러블 프로세서(1세대 또는 2세대)가 탑재된 Dell PowerEdge 서버에서 무엇을 뜻합니까?

서버에서 메모리 오류가 발생할 경우 이러한 DDR4 "자동 복구" 기능(BIOS 개선 사항)은 권장 고객 및 기술 지원 조치를 어떻게 변경합니까?

최신 BIOS 버전에 포함된 "자동 복구" 개선 사항은 무엇입니까?

Cause

서버 재부팅 때 발생하는 메모리 이벤트 메시징, 오류 처리 및 "자동 복구" 기능을 개선하기 위해 Dell PowerEdge BIOS는 지속적으로 개선 및 향상되고 있습니다. 이렇게 하면 오류 이벤트를 기록하는 DDR4 메모리 DIMM을 교체하기 위해 예약된 유지 보수 기간 또는 현장 방문이 필요하지 않습니다.

Resolution

DDR4가 BIOS 버전 2.1.x 이상을 실행하는 PowerEdge 서버에 구현된 주요 메모리 관련 "자동 복구" BIOS 개선 사항이 두 가지 있습니다. 이러한 개선 사항은 메모리 이벤트가 발생하고 수명주기 로그에 기록되는 경우 수행할 권장 단계/조치를 변경합니다.

참고:
  • BIOS 2.0 이전에서 DDR4 메모리 오류가 발생하는 경우, 메모리 자동 복구 기능과 지속적인 개선 노력을 포함하도록 BIOS를 최신 개정으로 업데이트하십시오. 고객이 최신 자동 복구 기능 개선 사항을 활용할 수 있도록 항상 최신 BIOS 릴리스(및 iDRAC 펌웨어)로 업데이트할 것을 권장합니다.
  • 이전 메모리 문제 해결 단계에는 오류가 DIMM을 따라 발생하는지 DIMM 슬롯에 남아 있는지 확인하기 위해 오류가 발생한 DIMM을 다른 슬롯으로 이동하는 것이 포함됩니다. BIOS 2.1.x 이상에서 첫 번째 권장 단계는 DIMM을 다른 슬롯으로 이동하지 않고 재시작하는 것입니다. 이를 통해 새로운 BIOS 개선 사항을 실행하여 DIMM을 교체할 필요 없이 DIMM 오류를 잠재적으로 해결(자동 복구)할 수 있습니다.
  1. 메모리 재학습 개선 사항

부팅 중(메모리 구성 단계 초기)에 발생하는 메모리 재학습입니다. 최상의 액세스를 위해 각 DIMM/슬롯의 신호 타이밍 및 여백 설정을 최적화합니다. DIMM의 메모리 신호 타이밍 및 여백 설정 특성은 여러 가지 이유로 인해 시간이 지나면서 변경될 수 있습니다.

  • 서버 메모리 구성의 변경
  • BIOS 변경(Memory Reference Code - MRC)
  • 서버 또는 DIMM의 다른 작동 온도
  • DIMM의 일반 수명

이전에는 BIOS 업데이트 또는 메모리 구성 변경 사항이 감지될 경우 이후 부팅 중에 메모리 재학습이 발생할 수 있었습니다. BIOS 2.1.x부터 예약된 재학습에 대해 수정 가능 및 수정 불가 메모리 오류 "트리거"가 추가되었습니다.

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

SEL 또는 수명주기 로그에 이러한 오류가 기록되면 다음 재부팅(웜 또는 콜드)에 대해 메모리 재학습이 예약됩니다. BIOS는 시작된 내용에 관계없이 자동으로 콜드 재부팅을 수행합니다.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."

 

이 다중 비트 오류는 운영 체제에서 해당 오류를 처리할 수 없는 경우 치명적인 오류로 인해 서버를 재부팅하게 합니다. 이로 인한 부팅 중에 메모리 재학습이 자동으로 수행됩니다. 운영 체제가 처리할 수 있는 중요하지 않은 메모리 위치에서 다중 비트 오류가 발생하면 재부팅을 예약해야 합니다.

POST 중 메모리 재학습은 신호 타이밍과 여백을 최적화하여 장애가 발생한 DIMM 및 관련 슬롯을 "자체 복구"할 수 있습니다. 부팅 중 메모리 재학습이 실패하거나(UEFI0106) 이와 동일한 오류가 계속 발생하지 않는 한 이러한 오류에 대한 DIMM 교체는 필요하지 않습니다.
 

  1. PPR(Post Package Repair)

두 번째 "자동 복구" 메모리 향상 방법으로는 PPR이 있습니다. PPR은 하드웨어 레이어에서 위치 또는 주소를 비활성화하여 오류가 발생한 메모리 위치를 복구함으로써 예비 메모리 행을 대신 사용할 수 있게 합니다. 사용 가능한 예비 메모리 행의 정확한 개수는 DRAM 디바이스 및 DIMM 크기에 따라 다릅니다.

이전에는 이 기능이 제조 프로세스로 제한되었습니다. 앞에서 설명한 메모리 재학습 개선 사항과 마찬가지로, 다음 재부팅(웜 또는 콜드)을 위해 특정 DIMM 슬롯에서 PPR이 예약되는 수정 가능한 특정 메모리 오류가 있습니다. BIOS는 시작된 내용에 관계없이 자동으로 콜드 재부팅을 수행합니다. PPR 작업은 특정 DIMM 슬롯에 예약되므로 PPR 작업이 실행될 때까지 DIMM 슬롯 위치를 변경하지 마십시오. 오류의 예는 다음과 같습니다.

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

로그에 이러한 이벤트가 있다면 메모리 구성 단계 초기에 다음 재부팅(웜 또는 콜드)을 위한 PPR이 예약됩니다.

참고: 메시지 ID MEM8000(DIMM_XX 위치의 메모리 디바이스에 대해 수정 가능한 메모리 오류 로깅이 비활성화됨), 동일한 DIMM 위치에 해당하는 MEM0005/MEM0701/MEM0702가 없으면 다음 재부팅을 위해 PPR이 예약되지 않습니다.

MEM8000 이벤트 및 업데이트된 버전 1.1 이상 백서에 대한 변경 사항은 2020년 7월 10일 업데이트를 참조하십시오.

재부팅 후 PPR 작업이 성공적으로 수행되었는지 확인합니다. 성공적인 PPR 작업의 예는 다음과 유사합니다.

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."


PPR 작업이 아니라면 이러한 수정 가능한 메모리 오류에 대한 DIMM 교체는 필요하지 않습니다. 오류가 발생한 PPR 메시지의 예는 다음과 같습니다.

UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."

 

Dell PowerEdge 서버 메모리 관련 RAS(Reliability, Availability 및 Serviceability) 기능에 관해 설명하는 새로 게시된 백서(버전 1.0)를 이제 사용하실 수 있습니다. 이 백서에서는 PowerEdge 서버에서 사용할 수 있는 다양한 RAS 기능을 설명합니다. Memory 오류 및 Dell PowerEdge YX4X Server Memory RAS 기능

 

2020년 4월 24일 업데이트

Dell은 "자동 복구" 기능을 지속적으로 개선하고 있습니다. 다음 섹션에는 다양한 BIOS 버전과 관련된 업데이트 및 개선 사항이 나열되어 있습니다.

BIOS 2.1.x - 오류 메시지 예시 및 권장 조치를 포함하여 BIOS 2.1.6 이상부터 사용할 수 있는 "자동 복구" 기능의 초기 문서 게시.

BIOS 2.4.x 이상 변경 사항(2019년 12월)

  • MEM0702 (Correctable error rate exceeded…) - 메시지가 심각에서 경고로 업데이트되었습니다. "자동 복구"가 진행되도록 서버를 재부팅하기 위한 권장 조치가 업데이트되었습니다(예: PPR(Post Package Repair)).
    • 업데이트된 메시지를 받으려면 2019년 12월 버전 이상의 iDRAC도 설치해야 합니다.
    • 권장 조치: PPR을 실행하려면 서버를 재부팅하십시오.
  • MEM9060 - "자동 복구"가 성공적으로 완료되었다는 메시지 설명이 업데이트되었습니다.

BIOS 2.5.x 이상 변경 사항(2020년 2월)

  • 고객이 수정 가능한 오류와 관련된 모든 수명주기 또는 SEL 로깅을 비활성화할 수 있도록 "수정 가능한 오류 로깅" BIOS 옵션이 추가되었습니다. 모든 "자동 복구" 기능은 계속 작동합니다. 예를 들어 PPR 및 메모리 재학습은 여전히 예약되어 다음 재부팅 중에(메모리 구성 프로세스 초기) 실행됩니다.
  • RDIMM 및 LRDIMM에 대한 MEM08xx 오류가 추가되어 기존 오류 메시지 및 작업이 대체되었습니다. "자동 복구" 기능을 지원하지 않는 플랫폼에는 기존 오류 메시지가 계속 사용됩니다.
    • 새 메시지가 기록되려면 2020년 2월 버전 이상의 idrac이 필요합니다.
참고: 업데이트된 iDRAC가 없으면 SEL 또는 수명주기 로그에 새 BIOS 메시지가 "unknown"으로 표시됩니다.
  • MEM0802 - 교체된 MEM0702 - 수정 가능한 오류율 초과
    • 권장 조치: PPR을 실행하려면 서버를 재부팅하십시오. PPR이 성공했는지 확인합니다(MEM0802).
  • MEM0804 - PPR이 성공했음을 나타내는 MEM9060을 교체했습니다. 이제 PPR을 실행한 DIMM 슬롯 위치가 포함됩니다.
    • 권장 조치: 없습니다. 이 이벤트는 "자동 복구"가 발생했으며 DIMM을 교체할 필요가 없음을 나타냅니다.
  • MEM0805 - PPR 실패를 나타내는 UEFI0278을 교체했습니다.
    • 권장 조치: 오류가 발생한 DIMM 교체

2020년 7월 10일 업데이트

BIOS 2.7.x 이상 변경 사항(2020년 7월 블록 BIOS - 7월 중순 웹 게시 예정)

  • MEM8000(수정 가능한 오류 로깅 비활성화) - Dell 엔지니어링 팀은 BIOS ~2.0.x부터 성능에 영향을 미칠 수 있는 수정 가능한 오류 탐지 속도를 향상하기 위해 BIOS를 변경하였습니다. 이러한 변화로 인해 DIMM 장애 분석 결과로 입증되지 않은 MEM8000 이벤트가 증가했습니다. BIOS 2.7.x부터 MEM8000과 관련된 두 가지 변경 사항이 있습니다. 첫 번째는 MEM8000 이벤트에 대한 신호가 수정되었다는 것입니다. 둘째, BIOS가 다음 재부팅을 위한 자동 복구(PPR)를 예약합니다. iDRAC 메시지는 새 작업을 반영하도록 아직 업데이트되지 않았습니다.
    • 권장 조치: 자동 복구/PPR을 실행하려면 서버를 재부팅하십시오. PPR이 성공했는지 확인합니다(MEM0804).
  • MEM0001(수정할 수 없는 오류) - 다음 재부팅을 위한 자동 복구(PPR)를 예약합니다. iDRAC 메시지는 새 작업을 반영하도록 아직 업데이트되지 않았습니다.
    • 권장 조치: 운영 체제가 복구할 수 없는 중요 페이지와 MEM0001이 연결되어 있는 경우 필요 없음 - 여전히 심각한 오류로 인해 재부팅이 발생합니다. MEM0001이 운영 시스템에서 복구할 수 있는 중요하지 않은 페이지와 연결되어 있는 경우 자동 복구(PPR)가 모두 실행되도록 재부팅을 예약해야 합니다. PPR이 성공했는지 확인합니다(MEM0804).

2021년 1월 13일 업데이트

BIOS 2.8.2 이상 변경 사항(2020년 9월 블록 BIOS)

  • MEM9072(메모리 패트롤 스크럽 프로세스로 식별되는 수정 불가능한 오류 - 페이지가 소비 중이거나 사용 중이 아님) - 다음 재부팅을 위한 자동 복구(PPR)가 예약됩니다. iDRAC 메시지는 아직 새 작업을 반영하도록 업데이트되지 않았습니다.
    • 권장 조치: 곧 재부팅을 예약합니다. 재부팅을 지연하면 페이지 소모로 인해 MEM0001 오류가 발생하여 재부팅이 발생할 수 있습니다. 재부팅하는 동안 메모리 자동 복구(PPR)가 실행됩니다. PPR이 성공했는지 확인합니다(MEM0804).
참고: 최신 버전의 엔지니어링 백서(버전 1.3 - 2020년 11월 20일 발행)는 다음에서 확인할 수 있습니다.   https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdf
인텔 제온 E 및 AMD EPYC 콘텐츠의 경우 다음 문서에서 제공하는 원본 엔지니어링 백서(버전 1.0)를 계속 참조하십시오. PowerEdge YX4X 서버 메모리 RAS 백서 v1.0(dell.com)

향후 BIOS 업데이트에 포함할 추가 RAS 기능 개선 사항을 평가하고 있습니다.

 
참고: 특정 오류 코드 메시지에 대한 자세한 설명 및 권장 조치는 다음 링크를 참조하십시오. 조회(dell.com) 오류 코드(예: MEM0001)는 여러 세대의 서버 및 플랫폼에 적용되므로 특정 BIOS 버전에 대한 권장 조치가 최신 상태가 아닐 수 있습니다. 추가된 새 오류 코드(예: MEM0802, MEM0804, MEM0805 등)는 인텔 제온 스케일러블 프로세서(1세대 또는 2세대)가 탑재된 서버에만 적용됩니다.

 

이 문서는 새로운 정보가 제공되면 업데이트됩니다.


다운로드 및 드라이버: 드라이버 및 다운로드

Affected Products

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R240, OEMR R250 , OEMR XE R250, OEMR R260, OEMR XE R260, OEMR R340, OEMR R350, OEMR XE R350, OEMR R360, OEMR XE R360, OEMR R440, PowerEdge XR2, OEMR R450, OEMR R540, OEMR R550, OEMR R5500, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R660, OEMR XL R660, OEMR R660xs, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R760, OEMR R760xa, OEMR R760XD2, OEMR XL R760, OEMR R760xs, OEMR R840, OEMR R860, OEMR R940, OEMR R940xa, OEMR R960, OEMR T140, OEMR T150, OEMR T340, OEMR T350, OEMR T360, OEMR T440, OEMR T550, OEMR T560, OEMR T640, OEMR XL T640, OEMR XL R240, OEMR XL R340, OEMR XL R660xs, OEMR XR11, OEMR XR12, OEMR XR4000r, OEMR XR4000w, OEMR XR4510c, OEMR XR4520c, OEMR XR5610, OEMR XR7620, OEMR XR8610t, OEMR XR8620t, Poweredge C4140, PowerEdge C6420, PowerEdge C6520, PowerEdge C6525, PowerEdge C6615, PowerEdge C6620, PowerEdge FC640, PowerEdge HS5610, PowerEdge HS5620, PowerEdge M640, PowerEdge MX740C, PowerEdge MX750c, PowerEdge MX760c, PowerEdge MX840C, PowerEdge R240, PowerEdge R250, PowerEdge R260, PowerEdge R340, PowerEdge R350, PowerEdge R360, PowerEdge R440, PowerEdge R450, PowerEdge R540, PowerEdge R550, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R660, PowerEdge R660xs, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R760, PowerEdge R760XA, PowerEdge R760xd2, PowerEdge R760xs, PowerEdge R840, PowerEdge R860, PowerEdge R940, PowerEdge R940xa, PowerEdge R960, PowerEdge T140, PowerEdge T150, PowerEdge T160, PowerEdge T340, PowerEdge T350, PowerEdge T360, PowerEdge T440, PowerEdge T550, PowerEdge T560, PowerEdge T640, PowerEdge XE2420, PowerEdge XE7100, PowerEdge XE7420, PowerEdge XE7440, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680, PowerEdge XE9680L, PowerEdge XR11, PowerEdge XR12, PowerEdge XR4000r, PowerEdge XR4000w, PowerEdge XR4510c, PowerEdge XR4520c, PowerEdge XR5610, PowerEdge XR7620, PowerEdge XR8610t, PowerEdge XR8620t, PowerFlex appliance R650, PowerFlex appliance R660, Powerflex appliance R750, PowerFlex appliance R760, PowerFlex custom node R650, PowerFlex custom node R660, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R860, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN C6420 Ready Node, Dell EMC vSAN MX740c Ready Node, Dell EMC vSAN MX750c Ready Node, Dell vSAN Ready Node MX760c, Dell EMC vSAN R440 Ready Node, Dell EMC vSAN R640 Ready Node, Dell EMC vSAN R650 Ready Node, vSAN Ready Node R660, Dell EMC vSAN R740 Ready Node, Dell EMC vSAN R740xd Ready Node, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R760 Ready Node, Dell EMC vSAN R840 Ready Node, Dell EMC vSAN T350 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...

Products

PowerFlex rack, VxFlex Ready Nodes, PowerFlex Appliance, PowerFlex custom node, ScaleIO, PowerFlex appliance Intelligent Catalog Software, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex custom node, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R660, PowerFlex custom node R6625, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R7625, PowerFlex rack connectivity, PowerFlex rack HW, PowerFlex rack RCM Software, PowerFlex Software, VxFlex Ready Node, VxFlex Ready Node R640, VxFlex Ready Node R740xd, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...
Article Properties
Article Number: 000053203
Article Type: Solution
Last Modified: 25 Nov 2025
Version:  26
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.