Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

Serwery PowerEdge Intel/AMD czternastej generacji i piętnastej generacji: Pamięć DDR4: zarządzanie zdarzeniami progu błędów z możliwością korekty

Summary: Zaktualizowane zalecenia dla klientów w zakresie zarządzania możliwymi do skorygowania zdarzeniami progu błędów (MEM0802 lub MEM5104) w modułach DDR4 RDIMM lub LRDIMM zainstalowanych w serwerach PowerEdge 14G i 15G z procesorami Intel oraz serwerach PowerEdge 15G z procesorami AMD. Uwaga: Ten artykuł nie dotyczy serwerów PowerEdge 14G opartych na procesorach AMD, takich jak platformy 64x5 lub 74x5, ponieważ nie mają one tej funkcji naprawy / autonaprawy po pakiecie, mimo że sam moduł DIMM ją obsługuje. ...

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

Poprzez ewolucję funkcji RAS (niezawodność, dostępność i możliwość serwisowania) w pamięci klasy Enterprise firma Dell przyjęła konserwatywne podejście do raportowania błędów, aby zapewnić przejrzystość wobec klientów. Wraz z postępującą ewolucją zmienia się również podejście firmy Dell do raportowania błędów, które umożliwia skupienie się na powiadomieniach wymagających pilniejszej reakcji, w przeciwieństwie do powiadomień o charakterze głównie informacyjnym.

Ponieważ geometrie pamięci opartych na pamięci DRAM stale się kurczą, zapewniając klientom wymaganą większą wydajność, spodziewamy się rosnącej liczby błędów możliwych do naprawienia, jako naturalnego elementu jednolitego skalowania.

Cause

W globalnej branży serwerowej coraz częściej panuje przekonanie, podzielane przez firmę Dell, że niektórych możliwych do naprawienia błędów każdego modułu DIMM nie da się uniknąć i nie wymagają one wymiany modułu pamięci ani nawet natychmiastowego ponownego uruchomienia w celu zainicjowania mechanizmu autonaprawy.

Resolution

Dalsze działanie systemu i zgłaszanie błędów możliwych do naprawienia bez ponownego uruchomienia w celu samonaprawy nie zwiększa znacząco ryzyka wystąpienia nienaprawialnych błędów, które mogą prowadzić do nieplanowanych przestojów. W rzeczywistości inni w branży publicznie informowali, że ich obsługa pamięci nie zgłasza błędów możliwych do naprawienia.

W systemie BIOS Intel PowerEdge 14G w wersji 2.5.4 i nowszych dodano ustawienie systemu BIOS o nazwie "Rejestrowanie błędów z możliwością korekty", aby umożliwić klientom wyłączenie raportowania błędów z możliwością korekty, jeśli zechcą, a wielu z nich to zrobiło.  System BIOS będzie nadal planować samoczynną naprawę w przypadku możliwych do skorygowania zdarzeń progowych, nawet bez rejestrowania. Ta zaplanowana autonaprawa nastąpi automatycznie podczas kolejnego ponownego uruchomienia systemu.

Aby lepiej dostosować się do potrzeb branży i opinii klientów, począwszy od marca 2022 r., aktualizacje systemu BIOS serwerów Dell PowerEdge zmienią ustawienie rejestrowania korygowalnych błędów systemu BIOS na domyślnie wyłączone.  Ta opcja systemu BIOS może zostać ponownie włączona dla klientów, którzy chcą nadal widzieć zdarzenia progu pamięci z możliwością korekty. Wersje systemu BIOS z tą zmianą ustawień systemu BIOS to:
  • Platformy Intel 14G — system BIOS w wersji 2.13.3 lub nowszej
  • Platformy AMD piętnastej generacji — system BIOS w wersji 2.6.5 lub nowszej
  • Platformy Intel piętnastej generacji — system BIOS w wersji 1.5.5 lub nowszej.

Zalety samonaprawy modułów DIMM DDR4 poprzez ponowne uruchomienie systemu:
  • Umożliwia naprawę modułu DIMM DDR4 bez wymontowywania go z komputera. wszystkie moduły DIMM DDR4 firmy Dell obsługują mechanizm autonaprawy pamięci. Uwaga: serwery AMD PowerEdge 14G nie mają tej funkcji autonaprawy.
  • Wykorzystanie dostępnych wolnych wierszy zaprojektowanych w pamięci DRAM, w których uszkodzony wiersz jest trwale zastępowany znanym dobrym rzędem przez bezpiecznik elektryczny.
  • Kolejne przeszkolenie pamięci optymalizuje "oczy danych" poprzez ponowną kalibrację punktów środkowych w celu zapewnienia, że magistrala pamięci działa na najwyższym poziomie integralności sygnalizacji.


W przypadku zdarzeń progowych z możliwością korekty przy włączonym ustawieniu "Correctable Error Logging" systemu BIOS w przypadku wystąpienia zdarzeń progu pamięci firma Dell zaleca ponowne uruchomienie systemu zgodnie ze standardowym harmonogramem konserwacji klienta, aby umożliwić zaplanowaną autonaprawę lub autokorektę pamięci. Po ponownym uruchomieniu zostaną zarejestrowane zdarzenia automatycznej naprawy dotyczące powiązanych modułów DIMM.

Przy włączonym ustawieniu "Correctable Error Logging" systemu BIOS firma Dell zaleca ponowne uruchomienie systemu zgodnie ze standardowym harmonogramem konserwacji klienta. Po ponownym uruchomieniu wszystkie zaplanowane operacje automatycznej naprawy zostaną uruchomione automatycznie. System zarejestruje zdarzenie (zdarzenie typu MEM0805 lub MEM7114), jeśli operacja autonaprawy/autokorekty zakończy się niepowodzeniem. Ponadto zaleci fizyczną wymianę modułu DIMM, którego dotyczy problem.

Zalecenie:
zespół Dell EMC Memory Engineering zaleca, aby użytkownicy serwerów PowerEdge ze starszymi wersjami systemu BIOS (sprzed marca 2022 r.) przyjęli zmianę ustawienia systemu BIOS "Rejestrowanie błędów z możliwością korekty" na wyłączone. Pozwoli to wyeliminować sporadyczne zdarzenia progu pamięci z możliwością korekty (takie jak zdarzenia typu MEM0802 lub MEM5104) w całej infrastrukturze serwerów, które zalecają ponowne uruchomienie serwera w celu umożliwienia autonaprawy lub autokorekty. Jak wspomniano wcześniej, wszystkie zaplanowane operacje autonaprawy lub autokorekty zostaną uruchomione automatycznie po ponownym uruchomieniu serwera, a wszelkie awarie zostaną zgłoszone.
 

Ustawienie "Correctable Error Logging" systemu BIOS można zmienić, uruchamiając serwer ponownie do ustawień F2 lub za pomocą graficznego interfejsu użytkownika kontrolera iDRAC.
 

Aby zmienić ustawienie systemu BIOS przy użyciu ustawień F2:

  • Uruchom ponownie serwery, zatrzymując się na ustawieniach F2
  • W menu BIOS Settings (Ustawienia systemu BIOS -> Ustawienia pamięci) zmień opcję "Correctable Error Logging" na wyłączoną.
  • Zapisz ustawienia systemu BIOS i wyjdź z menu F2

Aby zmienić ustawienia systemu BIOS za pomocą graficznego interfejsu użytkownika kontrolera iDRAC:

  • Zaloguj się do graficznego interfejsu użytkownika kontrolera iDRAC
  • W sekcji Configuration -> BIOS Settings rozwiń sekcję Memory Settings
  • Zmieniono ustawienie "Correctable Error Logging" na wyłączone
  • Kliknij przycisk Apply, aby zapisać ustawienia pamięci
  • Pamiętaj, aby wybrać przycisk Apply and Reboot (aby natychmiast uruchomić system) lub przycisk At Next Reboot , aby zastosować zmiany BIOS.


Istniejące artykuły bazy wiedzy i dokumenty dotyczące pamięci zostaną zaktualizowane w celu odzwierciedlenia tej zalecanej zmiany.

UWAGA: Zatwierdzone komunikaty dla klientów są załączone jako plik do tego artykułu — "Managing Correctable Error Notices Dec 2021 v1.pdf".

Ten artykuł będzie aktualizowany w miarę pojawiania się nowych informacji.

Article Properties


Affected Product
AX-6515, AX-7525, Dell EMC vSAN C6420 Ready Node, Dell EMC vSAN MX740c Ready Node, Dell EMC vSAN R440 Ready Node, Dell EMC vSAN R640 Ready Node, Dell EMC vSAN R650 Ready Node, Dell EMC vSAN R6515 Ready Node, Dell EMC vSAN R740 Ready Node , Dell EMC vSAN R740xd Ready Node ...
Product
Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R340, OEMR R440 , PowerEdge XR2, OEMR R540, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R6515, OEMR R6525, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R7515, OEMR R7525, OEMR R840, OEMR R940, OEMR R940xa, OEMR T440, OEMR T550, OEMR T640, OEMR XL T640, OEMR XL R340, PowerEdge C6420, PowerEdge C6525, PowerEdge MX740C, PowerEdge MX840C, PowerEdge R340, PowerEdge R540, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R6515, PowerEdge R6525, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R7515, PowerEdge R7525, PowerEdge R840, PowerEdge R940, PowerEdge R940xa, PowerEdge T440, PowerEdge T550, PowerEdge T640, PowerFlex appliance R650, PowerFlex appliance R6525, Powerflex appliance R750, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R750, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R7515 Ready Node, Dell EMC vSAN R840 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, Dell EMC XC Core XC7525 ...
Last Published Date

10 Feb 2022

Version

2

Article Type

Solution