Serwery PowerEdge Intel czternastej i piętnastej generacji: Zarządzanie zdarzeniami progu błędów możliwych do skorygowania
摘要: Ten artykuł zawiera zaktualizowane zalecenia dotyczące zarządzania zdarzeniami progu błędów (MEM0802 lub MEM5104) z możliwością korekty na modułach DDR4 RDIMM lub LRDIMM zainstalowanych w serwerach PowerEdge 14G i 15G z procesorami Intel oraz serwerach PowerEdge 15G z procesorami AMD. ...
症状
Wprowadzając zmiany w funkcjach niezawodności, dostępności i użyteczności (RAS) we wszystkich pamięciach klasy korporacyjnej, firma Dell przyjęła konserwatywne podejście do zapewniania klientom przejrzystości. Wraz z postępującą ewolucją zmienia się również podejście firmy Dell do raportowania błędów, które umożliwia skupienie się na powiadomieniach wymagających pilniejszej reakcji w porównaniu z powiadomieniami o charakterze głównie informacyjnym.
Ponieważ geometrie pamięci opartych na pamięci DRAM stale się kurczą, zapewniając klientom wymaganą przez nich większą wydajność, spodziewamy się rosnącej liczby błędów możliwych do naprawienia, co jest naturalną częścią jednolitego skalowania.
原因
解决方案
Dalsze działanie systemu i zgłaszanie błędów możliwych do naprawienia bez ponownego uruchomienia w celu samoczynnej naprawy nie zwiększa ryzyka wystąpienia nienaprawialnych błędów, które mogą prowadzić do nieplanowanych przestojów. Inni w branży publicznie zakomunikowali, że ich obsługa pamięci nie zgłasza błędów możliwych do naprawienia.
W systemie BIOS serwera Intel PowerEdge 14G w wersji 2.5.4 i nowszych dodano ustawienie systemu BIOS o nazwie "Rejestrowanie błędów z możliwością korekty", aby umożliwić klientom wyłączenie raportowania błędów z możliwością korekty, jeśli zechcą, a wielu z nich to zrobiło. System BIOS nadal planuje automatyczną ponowną instalację w celu skorygowania zdarzeń progowych, nawet bez rejestrowania. Zaplanowana automatyczna ponowna instalacja nastąpi automatycznie podczas kolejnego ponownego uruchomienia systemu.
Aby zapewnić większą zgodność z branżą i opiniami klientów, począwszy od marca 2022 r. aktualizacje systemu BIOS serwerów Dell PowerEdge zmieniają ustawienie rejestrowania korygowalnych błędów systemu BIOS na domyślnie wyłączone. Ta opcja systemu BIOS może zostać ponownie włączona dla klientów, którzy chcą nadal widzieć zdarzenia dotyczące progu pamięci z możliwością korekty. Wersje systemu BIOS z tą zmianą ustawień systemu BIOS to:
- Platformy Intel 14G — system BIOS w wersji 2.13.3 lub nowszej
- Platformy AMD piętnastej generacji — system BIOS w wersji 2.6.5 lub nowszej
- Platformy Intel piętnastej generacji — system BIOS w wersji 1.5.5 lub nowszej.
Zalety samoczynnej naprawy modułów DIMM DDR4 po ponownym uruchomieniu systemu:
- Umożliwia naprawę modułu DIMM DDR4 bez wyjmowania go z systemu. wszystkie moduły DIMM DDR4 firmy Dell obsługują funkcję autonaprawy pamięci.
- Wykorzystanie dostępnych zapasowych wierszy zaprojektowanych w pamięci DRAM, w których uszkodzony rząd jest trwale zastępowany znanym dobrym rzędem przez bezpiecznik elektryczny.
- Kolejne przeszkolenie pamięci optymalizuje działanie "oczu danych" poprzez ponowną kalibrację punktów środkowych w celu zapewnienia, że magistrala pamięci działa na najwyższym poziomie integralności sygnalizacji.
W przypadku zdarzeń progowych z możliwością korekty przy włączonym ustawieniu "Correctable Error Logging" systemu BIOS w przypadku wystąpienia zdarzeń progu pamięci firma Dell Technologies zaleca ponowne uruchomienie systemu zgodnie ze standardowym harmonogramem konserwacji klienta, aby umożliwić zaplanowaną ponowną instalację pamięci lub samoczynną korektę. Po ponownym uruchomieniu zostaną zarejestrowane zdarzenia udanej lub nieudanej automatycznej instalacji dla powiązanych modułów DIMM.
Po ustawieniu D i z opcją "Correctable Error Logging" systemu BIOS firma Dell Technologies zaleca ponowne uruchomienie systemu zgodnie ze standardowym harmonogramem konserwacji klienta. Po ponownym uruchomieniu automatycznie uruchamiane są wszystkie zaplanowane operacje automatycznej instalacji. System rejestruje zdarzenie (zdarzenie typu MEM0805 lub MEM7114), jeśli operacja automatycznej ponownej instalacji lub autokorekty zakończyła się niepowodzeniem, a ponadto zaleca się fizyczną wymianę modułu DIMM, którego dotyczy problem.
Zalecenie:
dział Dell Memory Engineering zaleca, aby klienci korzystający z serwerów PowerEdge ze starszymi wersjami systemu BIOS (przed marcowymi wydaniami blokowymi w 2022 r.) przyjęli zmianę ustawienia "Rejestrowanie błędów z możliwością korekty" na ustawienie wyłączone. Eliminuje to sporadyczne zdarzenia progu pamięci z możliwością korekty (takie jak zdarzenia typu MEM0802 lub MEM5104) w całej infrastrukturze serwerów, które zalecają ponowne uruchomienie serwera w celu umożliwienia automatycznej ponownej instalacji lub autokorekty. Jak wspomniano wcześniej, wszelkie zaplanowane operacje automatycznej ponownej instalacji lub autokorekty są uruchamiane automatycznie po ponownym uruchomieniu serwera i zgłoszeniu wszelkich awarii.
Ustawienie systemu BIOS "Correctable Error Logging" można zmienić, uruchamiając serwer ponownie do ustawień F2 lub korzystając z interfejsu iDRAC WebUI.
Aby zmienić ustawienie systemu BIOS z poziomu ustawień systemowych F2:
-
Uruchom ponownie serwery, zatrzymując się na ustawieniach F2
-
W opcji BIOS Settings>Memory Settings zmień opcję rejestrowania błędów możliwych do naprawienia na Disabled.
-
Zapisz ustawienia systemu BIOS i wyjdź z menu F2
Aby zmienić ustawienia systemu BIOS za pomocą interfejsu sieciowego kontrolera iDRAC:
- Zaloguj się do interfejsu sieciowego kontrolera iDRAC
- W sekcji Configuration >BIOS Settings rozwiń sekcję Memory Settings
- Zmień ustawienie rejestrowania błędów możliwych do naprawienia na wyłączone
- Kliknij przycisk Apply , aby zapisać ustawienia pamięci
- Należy również wybrać przycisk Zastosuj i uruchom ponownie (w celu natychmiastowego ponownego uruchomienia) lub przycisk Przy następnym uruchomieniu , aby zastosować zmiany w systemie BIOS.
Istniejące artykuły i dokumenty związane z pamięcią są aktualizowane w celu odzwierciedlenia tej zalecanej zmiany.
Managing Correctable Error Notices Dec 2021 v1.pdf”.
Ten artykuł jest aktualizowany w miarę udostępniania nowych informacji.