Serwery PowerEdge Intel czternastej i piętnastej generacji: Zarządzanie zdarzeniami progu błędów możliwych do skorygowania

摘要: Ten artykuł zawiera zaktualizowane zalecenia dotyczące zarządzania zdarzeniami progu błędów (MEM0802 lub MEM5104) z możliwością korekty na modułach DDR4 RDIMM lub LRDIMM zainstalowanych w serwerach PowerEdge 14G i 15G z procesorami Intel oraz serwerach PowerEdge 15G z procesorami AMD. ...

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

症状

Uwaga: Ten artykuł nie dotyczy serwerów PowerEdge 14G opartych na procesorach AMD, takich jak platformy 64x5 lub 74x5, ponieważ nie mają one tej funkcji automatycznej ponownej instalacji po zakończeniu naprawy, mimo że sam moduł DIMM ją obsługuje.

Wprowadzając zmiany w funkcjach niezawodności, dostępności i użyteczności (RAS) we wszystkich pamięciach klasy korporacyjnej, firma Dell przyjęła konserwatywne podejście do zapewniania klientom przejrzystości. Wraz z postępującą ewolucją zmienia się również podejście firmy Dell do raportowania błędów, które umożliwia skupienie się na powiadomieniach wymagających pilniejszej reakcji w porównaniu z powiadomieniami o charakterze głównie informacyjnym.

Ponieważ geometrie pamięci opartych na pamięci DRAM stale się kurczą, zapewniając klientom wymaganą przez nich większą wydajność, spodziewamy się rosnącej liczby błędów możliwych do naprawienia, co jest naturalną częścią jednolitego skalowania.

原因

W globalnym przemyśle serwerowym coraz częściej panuje przekonanie, podzielane przez firmę Dell, że niektóre możliwe do naprawienia błędy dotyczące każdego modułu DIMM są nieuniknione i nie wymagają wymiany modułu pamięci ani nawet natychmiastowego ponownego uruchomienia w celu zainicjowania automatycznej ponownej instalacji.

解决方案

Dalsze działanie systemu i zgłaszanie błędów możliwych do naprawienia bez ponownego uruchomienia w celu samoczynnej naprawy nie zwiększa ryzyka wystąpienia nienaprawialnych błędów, które mogą prowadzić do nieplanowanych przestojów. Inni w branży publicznie zakomunikowali, że ich obsługa pamięci nie zgłasza błędów możliwych do naprawienia.

W systemie BIOS serwera Intel PowerEdge 14G w wersji 2.5.4 i nowszych dodano ustawienie systemu BIOS o nazwie "Rejestrowanie błędów z możliwością korekty", aby umożliwić klientom wyłączenie raportowania błędów z możliwością korekty, jeśli zechcą, a wielu z nich to zrobiło. System BIOS nadal planuje automatyczną ponowną instalację w celu skorygowania zdarzeń progowych, nawet bez rejestrowania. Zaplanowana automatyczna ponowna instalacja nastąpi automatycznie podczas kolejnego ponownego uruchomienia systemu.

Aby zapewnić większą zgodność z branżą i opiniami klientów, począwszy od marca 2022 r. aktualizacje systemu BIOS serwerów Dell PowerEdge zmieniają ustawienie rejestrowania korygowalnych błędów systemu BIOS na domyślnie wyłączone. Ta opcja systemu BIOS może zostać ponownie włączona dla klientów, którzy chcą nadal widzieć zdarzenia dotyczące progu pamięci z możliwością korekty. Wersje systemu BIOS z tą zmianą ustawień systemu BIOS to:

  • Platformy Intel 14G — system BIOS w wersji 2.13.3 lub nowszej
  • Platformy AMD piętnastej generacji — system BIOS w wersji 2.6.5 lub nowszej
  • Platformy Intel piętnastej generacji — system BIOS w wersji 1.5.5 lub nowszej.

Zalety samoczynnej naprawy modułów DIMM DDR4 po ponownym uruchomieniu systemu:

  • Umożliwia naprawę modułu DIMM DDR4 bez wyjmowania go z systemu. wszystkie moduły DIMM DDR4 firmy Dell obsługują funkcję autonaprawy pamięci.
 
Uwaga: Serwery AMD PowerEdge 14G nie mają takiej możliwości automatycznej ponownej instalacji.
 
  • Wykorzystanie dostępnych zapasowych wierszy zaprojektowanych w pamięci DRAM, w których uszkodzony rząd jest trwale zastępowany znanym dobrym rzędem przez bezpiecznik elektryczny.
  • Kolejne przeszkolenie pamięci optymalizuje działanie "oczu danych" poprzez ponowną kalibrację punktów środkowych w celu zapewnienia, że magistrala pamięci działa na najwyższym poziomie integralności sygnalizacji.

W przypadku zdarzeń progowych z możliwością korekty przy włączonym ustawieniu "Correctable Error Logging" systemu BIOS w przypadku wystąpienia zdarzeń progu pamięci firma Dell Technologies zaleca ponowne uruchomienie systemu zgodnie ze standardowym harmonogramem konserwacji klienta, aby umożliwić zaplanowaną ponowną instalację pamięci lub samoczynną korektę. Po ponownym uruchomieniu zostaną zarejestrowane zdarzenia udanej lub nieudanej automatycznej instalacji dla powiązanych modułów DIMM.

Po ustawieniu D i z opcją "Correctable Error Logging" systemu BIOS firma Dell Technologies zaleca ponowne uruchomienie systemu zgodnie ze standardowym harmonogramem konserwacji klienta. Po ponownym uruchomieniu automatycznie uruchamiane są wszystkie zaplanowane operacje automatycznej instalacji. System rejestruje zdarzenie (zdarzenie typu MEM0805 lub MEM7114), jeśli operacja automatycznej ponownej instalacji lub autokorekty zakończyła się niepowodzeniem, a ponadto zaleca się fizyczną wymianę modułu DIMM, którego dotyczy problem.

Zalecenie:
dział Dell Memory Engineering zaleca, aby klienci korzystający z serwerów PowerEdge ze starszymi wersjami systemu BIOS (przed marcowymi wydaniami blokowymi w 2022 r.) przyjęli zmianę ustawienia "Rejestrowanie błędów z możliwością korekty" na ustawienie wyłączone. Eliminuje to sporadyczne zdarzenia progu pamięci z możliwością korekty (takie jak zdarzenia typu MEM0802 lub MEM5104) w całej infrastrukturze serwerów, które zalecają ponowne uruchomienie serwera w celu umożliwienia automatycznej ponownej instalacji lub autokorekty. Jak wspomniano wcześniej, wszelkie zaplanowane operacje automatycznej ponownej instalacji lub autokorekty są uruchamiane automatycznie po ponownym uruchomieniu serwera i zgłoszeniu wszelkich awarii.

Ustawienie systemu BIOS "Correctable Error Logging" można zmienić, uruchamiając serwer ponownie do ustawień F2 lub korzystając z interfejsu iDRAC WebUI.

Aby zmienić ustawienie systemu BIOS z poziomu ustawień systemowych F2:

  • Uruchom ponownie serwery, zatrzymując się na ustawieniach F2
  • W opcji BIOS Settings>Memory Settings zmień opcję rejestrowania błędów możliwych do naprawienia na Disabled.
  • Zapisz ustawienia systemu BIOS i wyjdź z menu F2

Aby zmienić ustawienia systemu BIOS za pomocą interfejsu sieciowego kontrolera iDRAC:

  • Zaloguj się do interfejsu sieciowego kontrolera iDRAC
  • W sekcji Configuration >BIOS Settings rozwiń sekcję Memory Settings
  • Zmień ustawienie rejestrowania błędów możliwych do naprawienia na wyłączone
  • Kliknij przycisk Apply , aby zapisać ustawienia pamięci
  • Należy również wybrać przycisk Zastosuj i uruchom ponownie (w celu natychmiastowego ponownego uruchomienia) lub przycisk Przy następnym uruchomieniu , aby zastosować zmiany w systemie BIOS.

Istniejące artykuły i dokumenty związane z pamięcią są aktualizowane w celu odzwierciedlenia tej zalecanej zmiany.
 

Uwaga: Zatwierdzone wiadomości dla klientów są załączone jako plik do tego artykułu — "Managing Correctable Error Notices Dec 2021 v1.pdf”.


Ten artykuł jest aktualizowany w miarę udostępniania nowych informacji.

受影响的产品

Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, PowerEdge XR2, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R840, OEMR R940, OEMR R940xa, Poweredge C4140, PowerEdge C6420, PowerEdge C6520 , PowerEdge C6525, PowerEdge MX740C, PowerEdge MX750c, PowerEdge MX840C, PowerEdge R350, PowerEdge R440, PowerEdge R450, PowerEdge R540, PowerEdge R550, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R6515, PowerEdge R6525, PowerEdge R740, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R7515, PowerEdge R7525, PowerEdge R840, PowerEdge R940, PowerEdge R940xa, PowerEdge T340, PowerEdge T350, PowerEdge T360, PowerEdge T440, PowerEdge T550, PowerEdge T560, PowerEdge T640, PowerEdge XE2420, PowerEdge XE7420, PowerEdge XE7440, PowerEdge XE8545, PowerEdge XR11, PowerEdge XR12, PowerEdge XR4510c, PowerEdge XR4520c, VxFlex Ready Node R740xd, Dell EMC vSAN R740 Ready Node, Dell EMC vSAN R740xd Ready Node, Dell EMC vSAN R840 Ready Node, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840 ...

产品

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R340, OEMR R440 , PowerEdge XR2, OEMR R540, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R6515, OEMR R6525, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R7515, OEMR R7525, OEMR R840, OEMR R940, OEMR R940xa, OEMR T440, OEMR T550, OEMR T640, OEMR XL T640, OEMR XL R340, PowerEdge C6420, PowerEdge C6525, PowerEdge MX740C, PowerEdge MX840C, PowerEdge R340, PowerEdge R540, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R6515, PowerEdge R6525, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R7515, PowerEdge R7525, PowerEdge R840, PowerEdge R940, PowerEdge R940xa, PowerEdge T440, PowerEdge T550, PowerEdge T640, PowerFlex appliance R650, PowerFlex appliance R6525, Powerflex appliance R750, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R750, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R7515 Ready Node, Dell EMC vSAN R840 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, Dell EMC XC Core XC7525 ...
文章属性
文章编号: 000194574
文章类型: Solution
上次修改时间: 07 11月 2025
版本:  5
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。