PowerEdge: Czym jest mechanizm autonaprawy DDR4 z procesorami Intel Xeon Scalable
Summary: Usuwalne i niemożliwe do skorygowania błędy pamięci na serwerze PowerEdge z pamięcią DDR4 oraz zmiany w procedurach rozwiązywania problemów
Symptoms
W jaki sposób funkcje „mechanizmu autonaprawy” pamięci DDR4 (udoskonalenia systemu BIOS) zmieniają zalecane działania klienta i pomocy technicznej w przypadku napotkania błędów pamięci na serwerze?
Jakie udoskonalenia „mechanizmu autonaprawy” są w nowszych wersjach systemu BIOS?
Cause
W systemie BIOS Dell PowerEdge stale wprowadzane są ulepszenia i udoskonalenia mające na celu usprawnienie przesyłania komunikatów o zdarzeniach związanych z pamięcią, obsługi błędów i „mechanizmu autonaprawy”, występujących po ponownym uruchomieniu serwera. Zapobiega to konieczności zaplanowanej przerwy konserwacyjnej lub obecności na miejscu w celu wymiany modułu DIMM pamięci DDR4, który rejestrował zdarzenia błędów.
Resolution
Istnieją dwa główne udoskonalenia systemu BIOS dotyczące „mechanizmu autonaprawy” pamięci, które zostały wdrożone dla serwerów PowerEdge z pamięcią DDR4 i systemem BIOS w wersji 2.1.x lub nowszej. Udoskonalenia te zmieniają kroki lub działania zalecane w przypadku wystąpienia i zarejestrowania w dzienniku LifeCycle zdarzeń związanych z pamięcią.
- w przypadku błędów pamięci DDR4 podczas korzystania z systemu BIOS w wersji 2.0 lub starszej należy zaktualizować system BIOS do najnowszej wersji z wieloma funkcjami z zakresu mechanizmu autonaprawy pamięci i aktualnymi udoskonaleniami. Zawsze zachęcamy klientów do aktualizacji systemu BIOS (i oprogramowania wewnętrznego kontrolera iDRAC) do najnowszej dostępnej wersji, aby mogli korzystać z najnowszych udoskonaleń mechanizmu autonaprawy.
- Poprzednie czynności rozwiązywania problemów z pamięcią obejmowały przenoszenie modułów DIMM do innego gniazda w celu sprawdzenia, czy błędy przenoszą się z modułem DIMM czy pozostają z gniazdem DIMM. W przypadku systemu BIOS w wersji 2.1.x lub nowszej zalecanym pierwszym krokiem jest ponowne uruchomienie (bez przenoszenia modułów DIMM do innego gniazda). To umożliwia uruchomienie nowych udoskonaleń systemu BIOS i być może pozwoli rozwiązać (poprzez mechanizm autonaprawy) błędy modułów DIMM bez planowania ich wymiany.
- Udoskonalenia dotyczące ponownego szkolenia pamięci
Przekwalifikowanie pamięci, które następuje podczas rozruchu (na wczesnym etapie konfiguracji pamięci), optymalizuje synchronizację i marginesy sygnału dla każdego modułu DIMM/gniazda w celu uzyskania najlepszego dostępu. Charakterystyka synchronizacji i marginesów sygnału pamięci w module DIMM może ulec zmianie z różnych przyczyn:
- Zmiany w konfiguracji pamięci serwera
- Zmiany w systemie BIOS (kod referencyjny Memory Reference Code — MRC)
- Inne temperatury pracy serwera lub DIMM
- Ogólny wiek DIMM
Wcześniej wykrywane aktualizacje systemu BIOS lub zmiany konfiguracji pamięci powodowały ponowne szkolenie pamięci podczas kolejnego rozruchu. Począwszy od systemu BIOS w wersji 2.1.x, dodatkowe „wyzwalacze” błędów pamięci z lub bez możliwości korekty zostały dodane do planowanego ponownego szkolenia:
Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Każdy z tych błędów rejestrowanych w dziennikach SEL lub cyklu eksploatacji powoduje zaplanowanie ponownego przeszkolenia pamięci na następny rozruch (ciepły lub zimny). System BIOS automatycznie wymusza zimny rozruch, niezależnie od tego, co zostało zainicjowane.
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
Ten błąd wielobitowy może spowodować ponowne uruchomienie serwera z powodu błędu krytycznego, jeśli system operacyjny nie jest w stanie obsłużyć tego błędu. Ponowne szkolenie pamięci nastąpi automatycznie podczas tego rozruchu. Jeśli błąd wielobitowy wystąpi w niekrytycznej lokalizacji pamięci, którą ten system operacyjny jest w stanie obsłużyć, należy zaplanować ponowne uruchomienie.
Przeszkolenie pamięci podczas testu POST może spowodować „autonaprawę” wadliwego modułu DIMM i powiązanego gniazda poprzez optymalizację synchronizacji i marginesów sygnału. Wymiana modułu DIMM w przypadku tych błędów nie jest konieczna, chyba że ponowne szkolenie pamięci nie powiedzie się (UEFI0106) podczas rozruchu lub te same błędy będą nadal występować.
- Naprawa po zakończeniu pakowania (PPR)
Drugim „samonaprawiającym się” ulepszeniem pamięci jest PPR. PPR naprawia wadliwą lokalizację pamięci poprzez wyłączenie lokalizacji/adresu w warstwie sprzętowej, co umożliwia zastąpienie zapasowym rzędem pamięci. Dokładna liczba dostępnych zapasowych rzędów pamięci zależy od urządzenia DRAM i rozmiaru modułu DIMM.
Wcześniej ta funkcja była ograniczona do procesu produkcji. Tak jak w przypadku udoskonaleń dotyczących ponownego szkolenia pamięci, o których wspomniano wcześniej, istnieją błędy pamięci z możliwością korekty, które powodują zaplanowanie PPR dla konkretnego gniazda DIMM przy następnym ponownym uruchomieniu (ciepłym lub zimnym). System BIOS automatycznie wymusza zimny rozruch, niezależnie od tego, co zostało zainicjowane. Ponieważ operacja PPR jest planowana dla konkretnego gniazda DIMM, NIE należy zmieniać lokalizacji gniazd DIMM do momentu wykonania operacji PPR. Przykłady błędów są następujące:
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
którekolwiek z tych zdarzeń w dziennikach spowoduje zaplanowanie PPR na następny rozruch (ciepły lub zimny) na wczesnym etapie fazy konfiguracji pamięci
Zobacz aktualizację z 10 lipca 2020 r., aby uzyskać aktualizacje dla zmian dotyczących zdarzenia MEM8000 i zaktualizowaną wersję 1.1 oraz nowsze opracowanie.
Po ponownym uruchomieniu sprawdź, czy operacja PPR została wykonana pomyślnie. Przykład pomyślnej operacji PPR:
MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
W przypadku tych błędów pamięci z możliwością korekty wymiana modułów DIMM nie jest konieczna, chyba że operacja PPR się nie powiedzie. Przykład komunikatu krytycznego o niepowodzeniu PPR:
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
Dostępne jest nowo opublikowane opracowanie (wersja 1.0) opisujące funkcje niezawodności, dostępności i operatywności (RAS) dotyczące pamięci serwera Dell PowerEdge, w którym opisano różne funkcje i możliwości RAS dostępne na serwerach PowerEdge — Błędy pamięci i funkcje RAS pamięci serwera Dell PowerEdge YX4X.
Aktualizacja: 24 kwietnia 2020
Firma Dell nadal ulepsza nasze możliwości „autonaprawy”. Poniższa sekcja zawiera listę aktualizacji i udoskonaleń powiązanych z różnymi wersjami systemu BIOS.
BIOS 2.1.x — początkowa publikacja artykułu o możliwościach „mechanizmu autonaprawy” dostępnych począwszy od systemu BIOS w wersji 2.1.6 lub nowszej, w tym przykładowych komunikatów o błędach i zalecanych czynnościach.
Zmiany w systemie BIOS 2.4.x i nowszych (grudzień 2019 r.)
- MEM0702 (liczba błędów z możliwością korekty…) — komunikat zaktualizowany z krytycznego do ostrzeżenia. Z zalecanymi działaniami zaktualizowanymi w celu ponownego uruchomienia serwera i umożliwienia „autonaprawy” — np. naprawy PPR.
- Wymaga instalacji kontrolera iDRAC z grudnia 2019 r. lub nowszego w celu uzyskania zaktualizowanego komunikatu
- Zalecane działanie: Uruchom ponownie serwer, aby umożliwić uruchamianie PPR
- MEM9060 — zaktualizowano opis komunikatu informujący o pomyślnym zakończeniu „autonaprawy”
Zmiany w systemie BIOS 2.5.x i nowszych (luty 2020 r.)
- Dodano opcję rejestrowania błędów z możliwością korekty, aby umożliwić klientom wyłączenie całego rejestrowania cyklu eksploatacji lub SEL związanego z błędami możliwymi do skorygowania. Wszystkie funkcje "mechanizmu autonaprawy" nadal działają — np. PPR i ponowne szkolenie pamięci są nadal zaplanowane i uruchamiane podczas następnego ponownego uruchomienia (na początku procesu konfiguracji pamięci).
- Dodanie błędów MEM08xx dla modułów RDIMM i LRDIMM zastępuje istniejące komunikaty o błędach i działania. Istniejące komunikaty o błędach są nadal używane w przypadku platform, które nie obsługują funkcji „autonaprawy”.
- Wymaga kontrolera iDRAC z lutego 2020 r. lub nowszego, aby rejestrować nowe komunikaty.
- MEM0802 — wymieniono MEM0702 — przekroczona liczba usuwalnych błędów
- Zalecane działanie: Uruchom ponownie serwer, aby umożliwić uruchamianie PPR. Potwierdź, że naprawa PPR się powiodła (MEM0802)
- MEM0804 — wymieniono MEM9060, co oznacza, że naprawa PPR się powiodła. Zawiera teraz lokalizacje gniazda DIMM, które uruchomiło PPR
- Zalecane działanie: brak, to zdarzenie wskazuje wystąpienie „autonaprawy” i wymiana modułu DIMM nie jest wymagana.
- MEM0805 — wymiana UEFI0278 wskazująca awarię PPR
- Zalecane działanie: Wymiana wadliwego modułu DIMM
Aktualizacja: 10 lipca 2020
BIOS 2.7.x i nowsze zmiany (BIOS z lipca 2020 r. — docelowo w połowie lipca do publikacji w Internecie)
- MEM8000 (odwracalne rejestrowanie błędów wyłączone) — począwszy od systemu BIOS ~2.0.x, dział inżynieryjny Dell wprowadził zmianę systemu BIOS, aby zwiększyć szybkość wykrywania błędów z możliwością korekty, która może wpłynąć na wydajność. Ta zmiana spowodowała niewielki wzrost liczby zdarzeń MEM8000, które nie zostały potwierdzone wynikami analizy wadliwego działania DIMM. Począwszy od wersji 2.7.x systemu BIOS, są dwie zmiany związane z MEM8000. Pierwsza to modyfikacja sygnalizacji zdarzenia MEM8000. Druga to planowanie przez system BIOS autonaprawy (PPR) na następny rozruch. Komunikaty kontrolera iDRAC nie są jeszcze aktualizowane w celu odzwierciedlenia nowych działań.
- Zalecane działanie: Uruchom ponownie serwer, aby umożliwić uruchomienie mechanizmu autonaprawy/PPR. Potwierdź, że naprawa PPR się powiodła (MEM0804).
- MEM0001 (błąd niemożliwy do skorygowania) — powoduje zaplanowanie autonaprawy (PPR) na następny rozruch. Komunikaty kontrolera iDRAC nie są jeszcze aktualizowane w celu odzwierciedlenia nowych działań.
- Zalecane działanie: Nie jest to konieczne, jeśli MEM0001 jest powiązany z krytyczną stroną, której system operacyjny nie jest w stanie przywrócić — nadal jest błędem krytycznym, skutkującym ponownym uruchomieniem. Jeśli MEM0001 jest powiązany ze stroną niekrytyczną, z której system operacyjny może zostać przywrócony, należy zaplanować ponowne uruchomienie, aby odbyły się wszystkie operacje autonaprawy (PPR). Potwierdź, że naprawa PPR się powiodła (MEM0804).
AKTUALIZACJA 13 stycznia 2021 r.
System BIOS 2.8.2 i nowsze zmiany (BIOS z września 2020 r.)
- MEM9072 (niemożliwy do skorygowania błąd zidentyfikowany w procesie usuwania patrolowania pamięci — strona nie jest wykorzystywana ani używana) — powoduje zaplanowanie autonaprawy (PPR) na następny rozruch. Komunikaty kontrolera iDRAC nie są jeszcze aktualizowane w celu odzwierciedlenia nowych działań.
- Zalecane działanie: Zaplanuj wkrótce ponowne uruchomienie. Opóźnienie ponownego uruchomienia może spowodować korzystanie ze strony, skutkujące błędem MEM0001, który może doprowadzić do ponownego uruchomienia komputera. Podczas tego ponownego uruchamiania jest uruchamiany mechanizm autonaprawy pamięci (PPR). Potwierdź, że naprawa PPR się powiodła (MEM0804).
W przypadku produktów Intel Xeon E i AMD EPYC należy skorzystać z oryginalnego opracowania inżynieryjnego (wersja 1.0), które znajduje się pod adresem: Opracowanie dotyczące RAS pamięci serwera PowerEdge YX4X w wersji 1.0 (dell.com)
W przyszłych aktualizacjach systemu BIOS będą oceniane dodatkowe ulepszenia funkcji RAS.
Ten artykuł jest aktualizowany w miarę pojawiania się nowych informacji.
Sterowniki i pliki do pobrania: Sterowniki i pliki do pobrania