PowerEdge 14G 인텔 및 15G 서버: 수정 가능한 오류 임계값 이벤트 관리
摘要: 이 문서에서는 인텔 기반 14G 및 15G PowerEdge 서버와 AMD 기반 15G PowerEdge 서버에 설치된 DDR4 RDIMM 또는 LRDIMM의 수정 가능한 오류 임계값 이벤트(MEM0802 또는 MEM5104)를 관리하기 위한 업데이트된 권장 사항을 제공합니다.
症状
Dell은 엔터프라이즈급 메모리 전반에 걸쳐 RAS(Reliability, Accessibility, Serviceability) 기능이 발전하는 과정에서 고객에게 투명성을 제공하는 데 보수적인 접근 방식을 취해 왔습니다. 이러한 발전이 계속됨에 따라 Dell의 오류 보고 접근 방식도 발전하여 기본적으로 정보 제공을 목적으로 하는 알림에 비해 더 긴급한 응답이 필요한 알림에 집중할 수 있게 되었습니다.
DRAM 기반 메모리 형상이 계속 축소되어 고객이 요구하는 향상된 성능을 제공함에 따라 균일한 확장의 자연스러운 부분으로 수정 가능한 오류의 수가 증가할 것으로 예상됩니다.
原因
解决方案
자가 복구를 위해 재부팅하지 않고 수정 가능한 오류를 보고하는 시스템을 계속 작동해도 계획되지 않은 다운타임으로 이어질 수 있는 수정 불가능한 오류가 발생할 위험이 증가하지 않습니다. 업계의 다른 사람들은 메모리 처리가 수정 가능한 오류를 보고하지 않는다고 공개적으로 전달했습니다.
14G 인텔 PowerEdge BIOS 버전 2.5.4 이상에서는 "Correctable Error Logging"이라는 BIOS 설정이 추가되어 고객이 원하는 경우 수정 가능한 오류 보고를 비활성화할 수 있으며 많은 고객이 이를 보유하고 있습니다. BIOS는 로깅 없이 수정 가능한 임계값 이벤트에 대한 자동 재설치를 계속 예약합니다. 이 예약된 자동 재설치는 후속 시스템 재부팅 중에 자동으로 수행됩니다.
업계와 지속적인 고객 피드백에 더 부합하기 위해 2022년 3월부터 Dell PowerEdge BIOS 업데이트는 "수정 가능한 오류 로깅" BIOS 설정을 기본값으로 비활성화로 변경합니다. 수정 가능한 메모리 임계값 이벤트를 계속 확인하려는 고객을 위해 이 BIOS 옵션을 다시 활성화할 수 있습니다. 이 BIOS 설정 변경 사항이 포함된 BIOS 버전은 다음과 같습니다.
- 14G 인텔 플랫폼 - BIOS 버전 2.13.3 이상
- 15G AMD 플랫폼 - BIOS 버전 2.6.5 이상
- 15G 인텔 플랫폼 - BIOS 버전 1.5.5 이상
시스템 재부팅을 통한 DDR4 DIMM 자가 복구의 이점:
- 시스템에서 제거하지 않고 DDR4 DIMM을 복구할 수 있습니다. 모든 Dell 소스 DDR4 DIMM은 메모리 자가 복구 기능을 지원합니다.
- 전기 융합을 통해 불량 행을 알려진 양호한 행으로 영구적으로 교체하는 DRAM에 맞게 설계된 사용 가능한 예비 행을 사용합니다.
- 후속 메모리 재교육은 메모리 버스가 최고 수준의 신호 무결성에서 작동하도록 보장하기 위해 중심점을 재보정하여 "데이터 아이"를 최적화합니다.
"Correctable Error Logging" BIOS 설정이 활성화된 수정 가능한 임계값 이벤트의 경우 메모리 임계값 이벤트가 발생하면 예약된 메모리 자동 재설치 또는 자체 수정이 수행될 수 있도록 고객의 정기 유지 보수 일정에 따라 재부팅하는 것이 좋습니다. 재부팅 후 연결된 DIMM에 대해 자동 재설치 성공 또는 실패 이벤트가 기록됩니다.
"수정 가능한 오류 로깅" BIOS 설정을 활성화한 경우 Dell Technologies는 고객의 정기 유지 보수 일정에 따라 재부팅할 것을 권장합니다. 재부팅 시 예약된 자동 재설치 작업이 자동으로 실행됩니다. 자동 재설치 또는 자체 수정 작업이 실패한 경우 시스템은 이벤트(MEM0805 또는 MEM7114 유형 이벤트)를 기록하고 영향을 받는 DIMM을 물리적으로 교체할 것을 권장합니다.
권장 사항:
Dell 메모리 엔지니어링 팀은 이전 BIOS 버전(2022년 3월 블록 릴리스 이전)을 사용하는 PowerEdge 서버 고객이 "수정 가능한 오류 로깅" BIOS 설정을 비활성화로 변경할 것을 권장합니다. 이렇게 하면 서버 인프라스트럭처에서 자동 재설치 또는 자체 수정을 수행할 수 있도록 서버 재부팅을 권장하는 산발적인 수정 가능한 메모리 임계값 이벤트(예: MEM0802 또는 MEM5104 유형 이벤트)를 제거할 수 있습니다. 앞서 언급했듯이 예약된 자동 재설치 또는 자체 수정 작업은 서버가 재부팅되고 오류가 보고될 때 자동으로 실행됩니다.
"수정 가능한 오류 로깅" BIOS 설정은 서버를 F2 설정으로 재부팅하거나 iDRAC WebUI를 사용하여 변경할 수 있습니다.
F2 System Settings에서 BIOS 설정을 변경하려면 다음을 수행합니다.
-
F2 설정에서 중지하는 서버 재부팅
-
BIOS SettingsMemory>Settings 선택 항목에서 Correctable Error Logging을 Disabled로 변경합니다.
-
BIOS 설정을 저장하고 F2 설정을 종료합니다.
iDRAC WebUI를 사용하여 BIOS 설정을 변경하려면:
- iDRAC WebUI에 로그인합니다.
- Configuration >BIOS Settings에서 Memory Settings 섹션을 확장합니다.
- Correctable Error Logging(수정 가능한 오류 로깅) 설정을 Disabled(사용 안 함)로 변경합니다.
- Apply 버튼을 클릭하여 메모리 설정을 저장합니다.
- 적용 및 재부팅버튼(즉시) 또는 다음 재부팅 버튼을 선택하여 BIOS 변경 사항을 적용하십시오.
이 권장 변경 사항을 반영하기 위해 기존 메모리 관련 문서 및 백서가 업데이트됩니다.
Managing Correctable Error Notices Dec 2021 v1.pdf"로 변경되었습니다.
이 문서는 새로운 정보를 사용할 수 있게 되면 업데이트됩니다.