PowerEdge: Czym jest mechanizm autonaprawy DDR4 z procesorami Intel Xeon Scalable

Summary: Usuwalne i niemożliwe do skorygowania błędy pamięci na serwerze PowerEdge z pamięcią DDR4 oraz zmiany w procedurach rozwiązywania problemów

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Co to jest „mechanizm autonaprawy” pamięci DDR4 w serwerach Dell PowerEdge z procesorami Intel Xeon Scalable (pierwszej lub drugiej generacji) z systemem BIOS w wersji 2.1.x lub nowszej?

W jaki sposób funkcje „mechanizmu autonaprawy” pamięci DDR4 (udoskonalenia systemu BIOS) zmieniają zalecane działania klienta i pomocy technicznej w przypadku napotkania błędów pamięci na serwerze?

Jakie udoskonalenia „mechanizmu autonaprawy” są w nowszych wersjach systemu BIOS?

Cause

W systemie BIOS Dell PowerEdge stale wprowadzane są ulepszenia i udoskonalenia mające na celu usprawnienie przesyłania komunikatów o zdarzeniach związanych z pamięcią, obsługi błędów i „mechanizmu autonaprawy”, występujących po ponownym uruchomieniu serwera. Zapobiega to konieczności zaplanowanej przerwy konserwacyjnej lub obecności na miejscu w celu wymiany modułu DIMM pamięci DDR4, który rejestrował zdarzenia błędów.

Resolution

Istnieją dwa główne udoskonalenia systemu BIOS dotyczące „mechanizmu autonaprawy” pamięci, które zostały wdrożone dla serwerów PowerEdge z pamięcią DDR4 i systemem BIOS w wersji 2.1.x lub nowszej. Udoskonalenia te zmieniają kroki lub działania zalecane w przypadku wystąpienia i zarejestrowania w dzienniku LifeCycle zdarzeń związanych z pamięcią.

Uwaga:
  • w przypadku błędów pamięci DDR4 podczas korzystania z systemu BIOS w wersji 2.0 lub starszej należy zaktualizować system BIOS do najnowszej wersji z wieloma funkcjami z zakresu mechanizmu autonaprawy pamięci i aktualnymi udoskonaleniami. Zawsze zachęcamy klientów do aktualizacji systemu BIOS (i oprogramowania wewnętrznego kontrolera iDRAC) do najnowszej dostępnej wersji, aby mogli korzystać z najnowszych udoskonaleń mechanizmu autonaprawy.
  • Poprzednie czynności rozwiązywania problemów z pamięcią obejmowały przenoszenie modułów DIMM do innego gniazda w celu sprawdzenia, czy błędy przenoszą się z modułem DIMM czy pozostają z gniazdem DIMM. W przypadku systemu BIOS w wersji 2.1.x lub nowszej zalecanym pierwszym krokiem jest ponowne uruchomienie (bez przenoszenia modułów DIMM do innego gniazda). To umożliwia uruchomienie nowych udoskonaleń systemu BIOS i być może pozwoli rozwiązać (poprzez mechanizm autonaprawy) błędy modułów DIMM bez planowania ich wymiany.
  1. Udoskonalenia dotyczące ponownego szkolenia pamięci

Przekwalifikowanie pamięci, które następuje podczas rozruchu (na wczesnym etapie konfiguracji pamięci), optymalizuje synchronizację i marginesy sygnału dla każdego modułu DIMM/gniazda w celu uzyskania najlepszego dostępu. Charakterystyka synchronizacji i marginesów sygnału pamięci w module DIMM może ulec zmianie z różnych przyczyn:

  • Zmiany w konfiguracji pamięci serwera
  • Zmiany w systemie BIOS (kod referencyjny Memory Reference Code — MRC)
  • Inne temperatury pracy serwera lub DIMM
  • Ogólny wiek DIMM

Wcześniej wykrywane aktualizacje systemu BIOS lub zmiany konfiguracji pamięci powodowały ponowne szkolenie pamięci podczas kolejnego rozruchu. Począwszy od systemu BIOS w wersji 2.1.x, dodatkowe „wyzwalacze” błędów pamięci z lub bez możliwości korekty zostały dodane do planowanego ponownego szkolenia:

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

Każdy z tych błędów rejestrowanych w dziennikach SEL lub cyklu eksploatacji powoduje zaplanowanie ponownego przeszkolenia pamięci na następny rozruch (ciepły lub zimny). System BIOS automatycznie wymusza zimny rozruch, niezależnie od tego, co zostało zainicjowane.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."

 

Ten błąd wielobitowy może spowodować ponowne uruchomienie serwera z powodu błędu krytycznego, jeśli system operacyjny nie jest w stanie obsłużyć tego błędu. Ponowne szkolenie pamięci nastąpi automatycznie podczas tego rozruchu. Jeśli błąd wielobitowy wystąpi w niekrytycznej lokalizacji pamięci, którą ten system operacyjny jest w stanie obsłużyć, należy zaplanować ponowne uruchomienie.

Przeszkolenie pamięci podczas testu POST może spowodować „autonaprawę” wadliwego modułu DIMM i powiązanego gniazda poprzez optymalizację synchronizacji i marginesów sygnału. Wymiana modułu DIMM w przypadku tych błędów nie jest konieczna, chyba że ponowne szkolenie pamięci nie powiedzie się (UEFI0106) podczas rozruchu lub te same błędy będą nadal występować.
 

  1. Naprawa po zakończeniu pakowania (PPR)

Drugim „samonaprawiającym się” ulepszeniem pamięci jest PPR. PPR naprawia wadliwą lokalizację pamięci poprzez wyłączenie lokalizacji/adresu w warstwie sprzętowej, co umożliwia zastąpienie zapasowym rzędem pamięci. Dokładna liczba dostępnych zapasowych rzędów pamięci zależy od urządzenia DRAM i rozmiaru modułu DIMM.

Wcześniej ta funkcja była ograniczona do procesu produkcji. Tak jak w przypadku udoskonaleń dotyczących ponownego szkolenia pamięci, o których wspomniano wcześniej, istnieją błędy pamięci z możliwością korekty, które powodują zaplanowanie PPR dla konkretnego gniazda DIMM przy następnym ponownym uruchomieniu (ciepłym lub zimnym). System BIOS automatycznie wymusza zimny rozruch, niezależnie od tego, co zostało zainicjowane. Ponieważ operacja PPR jest planowana dla konkretnego gniazda DIMM, NIE należy zmieniać lokalizacji gniazd DIMM do momentu wykonania operacji PPR. Przykłady błędów są następujące:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

którekolwiek z tych zdarzeń w dziennikach spowoduje zaplanowanie PPR na następny rozruch (ciepły lub zimny) na wczesnym etapie fazy konfiguracji pamięci

Uwaga: identyfikator komunikatu MEM8000 (zapisywanie w dzienniku usuwalnych błędów pamięci wyłączone dla urządzenia pamięci w lokalizacji DIMM_XX), bez odpowiedniego MEM0005/MEM0701/MEM0702 w tej samej lokalizacji modułu DIMM, nie powoduje planowania PPR na następny rozruch.

Zobacz aktualizację z 10 lipca 2020 r., aby uzyskać aktualizacje dla zmian dotyczących zdarzenia MEM8000 i zaktualizowaną wersję 1.1 oraz nowsze opracowanie.

Po ponownym uruchomieniu sprawdź, czy operacja PPR została wykonana pomyślnie. Przykład pomyślnej operacji PPR:

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."


W przypadku tych błędów pamięci z możliwością korekty wymiana modułów DIMM nie jest konieczna, chyba że operacja PPR się nie powiedzie. Przykład komunikatu krytycznego o niepowodzeniu PPR:

UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."

 

Dostępne jest nowo opublikowane opracowanie (wersja 1.0) opisujące funkcje niezawodności, dostępności i operatywności (RAS) dotyczące pamięci serwera Dell PowerEdge, w którym opisano różne funkcje i możliwości RAS dostępne na serwerach PowerEdge — Błędy pamięci i funkcje RAS pamięci serwera Dell PowerEdge YX4X.

 

Aktualizacja: 24 kwietnia 2020

Firma Dell nadal ulepsza nasze możliwości „autonaprawy”. Poniższa sekcja zawiera listę aktualizacji i udoskonaleń powiązanych z różnymi wersjami systemu BIOS.

BIOS 2.1.x — początkowa publikacja artykułu o możliwościach „mechanizmu autonaprawy” dostępnych począwszy od systemu BIOS w wersji 2.1.6 lub nowszej, w tym przykładowych komunikatów o błędach i zalecanych czynnościach.

Zmiany w systemie BIOS 2.4.x i nowszych (grudzień 2019 r.)

  • MEM0702 (liczba błędów z możliwością korekty…) — komunikat zaktualizowany z krytycznego do ostrzeżenia. Z zalecanymi działaniami zaktualizowanymi w celu ponownego uruchomienia serwera i umożliwienia „autonaprawy” — np. naprawy PPR.
    • Wymaga instalacji kontrolera iDRAC z grudnia 2019 r. lub nowszego w celu uzyskania zaktualizowanego komunikatu
    • Zalecane działanie: Uruchom ponownie serwer, aby umożliwić uruchamianie PPR
  • MEM9060 — zaktualizowano opis komunikatu informujący o pomyślnym zakończeniu „autonaprawy”

Zmiany w systemie BIOS 2.5.x i nowszych (luty 2020 r.)

  • Dodano opcję rejestrowania błędów z możliwością korekty, aby umożliwić klientom wyłączenie całego rejestrowania cyklu eksploatacji lub SEL związanego z błędami możliwymi do skorygowania. Wszystkie funkcje "mechanizmu autonaprawy" nadal działają — np. PPR i ponowne szkolenie pamięci są nadal zaplanowane i uruchamiane podczas następnego ponownego uruchomienia (na początku procesu konfiguracji pamięci).
  • Dodanie błędów MEM08xx dla modułów RDIMM i LRDIMM zastępuje istniejące komunikaty o błędach i działania. Istniejące komunikaty o błędach są nadal używane w przypadku platform, które nie obsługują funkcji „autonaprawy”.
    • Wymaga kontrolera iDRAC z lutego 2020 r. lub nowszego, aby rejestrować nowe komunikaty.
Uwaga: Bez zaktualizowanego kontrolera iDRAC nowe komunikaty systemu BIOS w dzienniku SEL lub w dziennikach cyklu eksploatacji są oznaczone jako "nieznane".
  • MEM0802 — wymieniono MEM0702 — przekroczona liczba usuwalnych błędów
    • Zalecane działanie: Uruchom ponownie serwer, aby umożliwić uruchamianie PPR. Potwierdź, że naprawa PPR się powiodła (MEM0802)
  • MEM0804 — wymieniono MEM9060, co oznacza, że naprawa PPR się powiodła. Zawiera teraz lokalizacje gniazda DIMM, które uruchomiło PPR
    • Zalecane działanie: brak, to zdarzenie wskazuje wystąpienie „autonaprawy” i wymiana modułu DIMM nie jest wymagana.
  • MEM0805 — wymiana UEFI0278 wskazująca awarię PPR
    • Zalecane działanie: Wymiana wadliwego modułu DIMM

Aktualizacja: 10 lipca 2020

BIOS 2.7.x i nowsze zmiany (BIOS z lipca 2020 r. — docelowo w połowie lipca do publikacji w Internecie)

  • MEM8000 (odwracalne rejestrowanie błędów wyłączone) — począwszy od systemu BIOS ~2.0.x, dział inżynieryjny Dell wprowadził zmianę systemu BIOS, aby zwiększyć szybkość wykrywania błędów z możliwością korekty, która może wpłynąć na wydajność. Ta zmiana spowodowała niewielki wzrost liczby zdarzeń MEM8000, które nie zostały potwierdzone wynikami analizy wadliwego działania DIMM. Począwszy od wersji 2.7.x systemu BIOS, są dwie zmiany związane z MEM8000. Pierwsza to modyfikacja sygnalizacji zdarzenia MEM8000. Druga to planowanie przez system BIOS autonaprawy (PPR) na następny rozruch. Komunikaty kontrolera iDRAC nie są jeszcze aktualizowane w celu odzwierciedlenia nowych działań.
    • Zalecane działanie: Uruchom ponownie serwer, aby umożliwić uruchomienie mechanizmu autonaprawy/PPR. Potwierdź, że naprawa PPR się powiodła (MEM0804).
  • MEM0001 (błąd niemożliwy do skorygowania) — powoduje zaplanowanie autonaprawy (PPR) na następny rozruch. Komunikaty kontrolera iDRAC nie są jeszcze aktualizowane w celu odzwierciedlenia nowych działań.
    • Zalecane działanie: Nie jest to konieczne, jeśli MEM0001 jest powiązany z krytyczną stroną, której system operacyjny nie jest w stanie przywrócić — nadal jest błędem krytycznym, skutkującym ponownym uruchomieniem. Jeśli MEM0001 jest powiązany ze stroną niekrytyczną, z której system operacyjny może zostać przywrócony, należy zaplanować ponowne uruchomienie, aby odbyły się wszystkie operacje autonaprawy (PPR). Potwierdź, że naprawa PPR się powiodła (MEM0804).

AKTUALIZACJA 13 stycznia 2021 r.

System BIOS 2.8.2 i nowsze zmiany (BIOS z września 2020 r.)

  • MEM9072 (niemożliwy do skorygowania błąd zidentyfikowany w procesie usuwania patrolowania pamięci — strona nie jest wykorzystywana ani używana) — powoduje zaplanowanie autonaprawy (PPR) na następny rozruch. Komunikaty kontrolera iDRAC nie są jeszcze aktualizowane w celu odzwierciedlenia nowych działań.
    • Zalecane działanie: Zaplanuj wkrótce ponowne uruchomienie. Opóźnienie ponownego uruchomienia może spowodować korzystanie ze strony, skutkujące błędem MEM0001, który może doprowadzić do ponownego uruchomienia komputera. Podczas tego ponownego uruchamiania jest uruchamiany mechanizm autonaprawy pamięci (PPR). Potwierdź, że naprawa PPR się powiodła (MEM0804).
Uwaga: najnowsza wersja opracowania inżynieryjnego (wersja 1.3 — data wydania 20 listopada 2020 r.) znajduje się pod adresem:   https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdf
W przypadku produktów Intel Xeon E i AMD EPYC należy skorzystać z oryginalnego opracowania inżynieryjnego (wersja 1.0), które znajduje się pod adresem: Opracowanie dotyczące RAS pamięci serwera PowerEdge YX4X w wersji 1.0 (dell.com)

W przyszłych aktualizacjach systemu BIOS będą oceniane dodatkowe ulepszenia funkcji RAS.

 
Uwaga: szczegółowy opis i zalecane działania dotyczące określonych komunikatów z kodem błędu znajdują się pod następującym łączem: Wyszukaj (dell.com). Ponieważ kody błędów (takie jak MEM0001) dotyczą wielu generacji serwerów i platform, zalecane działania mogą nie być aktualne dla konkretnej wersji systemu BIOS. Nowe kody błędów, które zostały dodane (takie jak MEM0802, MEM0804, MEM0805 itd.) dotyczą tylko serwerów ze skalowalnymi procesorami Intel Xeon (pierwszej lub drugiej generacji).

 

Ten artykuł jest aktualizowany w miarę pojawiania się nowych informacji.


Sterowniki i pliki do pobrania: Sterowniki i pliki do pobrania

Affected Products

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R240, OEMR R250 , OEMR XE R250, OEMR R260, OEMR XE R260, OEMR R340, OEMR R350, OEMR XE R350, OEMR R360, OEMR XE R360, OEMR R440, PowerEdge XR2, OEMR R450, OEMR R540, OEMR R550, OEMR R5500, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R660, OEMR XL R660, OEMR R660xs, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R760, OEMR R760xa, OEMR R760XD2, OEMR XL R760, OEMR R760xs, OEMR R840, OEMR R860, OEMR R940, OEMR R940xa, OEMR R960, OEMR T140, OEMR T150, OEMR T340, OEMR T350, OEMR T360, OEMR T440, OEMR T550, OEMR T560, OEMR T640, OEMR XL T640, OEMR XL R240, OEMR XL R340, OEMR XL R660xs, OEMR XR11, OEMR XR12, OEMR XR4000r, OEMR XR4000w, OEMR XR4510c, OEMR XR4520c, OEMR XR5610, OEMR XR7620, OEMR XR8610t, OEMR XR8620t, Poweredge C4140, PowerEdge C6420, PowerEdge C6520, PowerEdge C6525, PowerEdge C6615, PowerEdge C6620, PowerEdge FC640, PowerEdge HS5610, PowerEdge HS5620, PowerEdge M640, PowerEdge MX740C, PowerEdge MX750c, PowerEdge MX760c, PowerEdge MX840C, PowerEdge R240, PowerEdge R250, PowerEdge R260, PowerEdge R340, PowerEdge R350, PowerEdge R360, PowerEdge R440, PowerEdge R450, PowerEdge R540, PowerEdge R550, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R660, PowerEdge R660xs, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R760, PowerEdge R760XA, PowerEdge R760xd2, PowerEdge R760xs, PowerEdge R840, PowerEdge R860, PowerEdge R940, PowerEdge R940xa, PowerEdge R960, PowerEdge T140, PowerEdge T150, PowerEdge T160, PowerEdge T340, PowerEdge T350, PowerEdge T360, PowerEdge T440, PowerEdge T550, PowerEdge T560, PowerEdge T640, PowerEdge XE2420, PowerEdge XE7100, PowerEdge XE7420, PowerEdge XE7440, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680, PowerEdge XE9680L, PowerEdge XR11, PowerEdge XR12, PowerEdge XR4000r, PowerEdge XR4000w, PowerEdge XR4510c, PowerEdge XR4520c, PowerEdge XR5610, PowerEdge XR7620, PowerEdge XR8610t, PowerEdge XR8620t, PowerFlex appliance R650, PowerFlex appliance R660, Powerflex appliance R750, PowerFlex appliance R760, PowerFlex custom node R650, PowerFlex custom node R660, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R860, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN C6420 Ready Node, Dell EMC vSAN MX740c Ready Node, Dell EMC vSAN MX750c Ready Node, Dell vSAN Ready Node MX760c, Dell EMC vSAN R440 Ready Node, Dell EMC vSAN R640 Ready Node, Dell EMC vSAN R650 Ready Node, vSAN Ready Node R660, Dell EMC vSAN R740 Ready Node, Dell EMC vSAN R740xd Ready Node, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R760 Ready Node, Dell EMC vSAN R840 Ready Node, Dell EMC vSAN T350 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...

Products

PowerFlex rack, VxFlex Ready Nodes, PowerFlex Appliance, PowerFlex custom node, ScaleIO, PowerFlex appliance Intelligent Catalog Software, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex custom node, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R660, PowerFlex custom node R6625, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R7625, PowerFlex rack connectivity, PowerFlex rack HW, PowerFlex rack RCM Software, PowerFlex Software, VxFlex Ready Node, VxFlex Ready Node R640, VxFlex Ready Node R740xd, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...
Article Properties
Article Number: 000053203
Article Type: Solution
Last Modified: 25 Nov 2025
Version:  26
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.