PowerEdge: Co je samooprava DDR4 s procesory Intel Xeon Scalable
Summary: Opravitelné a neopravitelné chyby paměti na serveru PowerEdge s moduly DDR4 a změny kroků odstraňování problémů
Symptoms
Jak tyto funkce samostatné opravy paměti DDR4 (vylepšení systému BIOS) mění doporučené akce pro zákazníky a technickou podporu, pokud v serveru dojde k chybám paměti?
Jaká jsou vylepšení funkce samostatné opravy v novějších verzích systému BIOS?
Cause
Dell PowerEdge BIOS se neustále vylepšuje, což zlepšuje zasílání událostí paměti, zpracování chyb a „samostatnou opravu“, ke které dochází při restartování serveru. Tím se zabrání nutnosti plánované údržby nebo přítomnosti na pracovišti kvůli výměně paměťového modulu DIMM DDR4, který zaznamenával chybové události.
Resolution
Do serverů PowerEdge s pamětí DDR4 se systémem BIOS verze 2.1.x a novější byla implementována dvě hlavní vylepšení systému BIOS související se samostatnou opravou paměti. Tato vylepšení mění doporučené kroky nebo akce, které je třeba provést, pokud dojde k událostem paměti a k jejich zaznamenání do protokolu LifeCycle.
- Pokud dochází k chybám pamětí DDR4 a používáte systém BIOS verze 2.0 nebo starší, aktualizujte jej na nejnovější verzi, která obsahuje funkci samostatné opravy paměti a další vylepšení. Zákazníkům vždy doporučujeme provést aktualizaci na nejnovější dostupnou verzi systému BIOS (a firmware iDRAC), aby mohli využívat nejnovější vylepšení funkce samostatné opravy.
- Předchozí postup pro odstraňování problémů s pamětí zahrnuje přesunutí selhávajících modulů DIMM do jiného slotu, aby bylo možné ověřit, zda chyby spočívají v modulu DIMM nebo ve slotu. U systému BIOS verze 2.1.x nebo novější je prvním doporučeným krokem restartování (bez přesunutí modulů DIMM do jiného slotu). Tak se mohou spustit nová vylepšení systému BIOS a potenciálně vyřešit (samostatnou opravou) chyby modulů DIMM, aniž by bylo nutné plánovat výměnu modulů.
- Vylepšení přeškolení paměti
Přeškolení paměti, ke kterému dochází při spouštění systému (v rané fázi konfigurace paměti), optimalizuje časování a marže signálu pro každý modul DIMM / slot, aby byl zajištěn nejlepší přístup. Charakteristiky časování a marže signálu paměti DIMM se mohou v průběhu času měnit z několika různých důvodů:
- Změny v konfiguraci paměti serveru
- Změny systému BIOS (kód MRC – Memory Reference Code)
- Různé provozní teploty serveru či modulu DIMM
- Celkové stáří modulu DIMM
Dříve vedlo zjištění aktualizací systému BIOS nebo změn konfigurace paměti k přeškolení paměti během následného spuštění. Počínaje systémem BIOS 2.1.x byly pro plánované přeškolení přidány další opravitelné a neopravitelné „spouštěče“ chyb paměti:
Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Jakákoli z těchto chyb zaznamenaných v protokolech SEL nebo Lifecycle vede k tomu, že se přeškolení paměti naplánuje na příští restart (měkký nebo úplný). Systém BIOS automaticky vynutí úplné restartování bez ohledu na spuštěné programy.
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
Tato vícebitová chyba může vést k restartování serveru z důvodu závažné chyby, pokud operační systém nemůže tuto chybu zpracovat. Během spouštění systému se automaticky spustí přeškolení paměti. Pokud se vícebitová chyba vyskytne v nekritickém paměťovém umístění, které je operační systém schopen zpracovat, je nutné naplánovat restart.
Přeškolení paměti během testu POST může provést „samostatnou opravu“ selhávajícího modulu DIMM a souvisejícího slotu optimalizací časování signálu a jeho marže. Pokud během spouštění nedošlo k selhání přeškolení paměti (UEFI0106) nebo pokud se stále vyskytují stejné chyby, výměna paměti DIMM v případě těchto chyb není nutná.
- Oprava po zabalení (PPR)
Druhým „samoopravným“ vylepšením paměti je oprava PPR. PPR opraví v hardwarové vrstvě umístění nebo adresy a místo toho použije řádek záložní paměti, čímž umožní opravit umístění vadné paměti. Přesný počet dostupných řádků záložní paměti závisí na velikosti zařízení DRAM a modulu DIMM.
Dříve byla tato funkce omezena na výrobní proces. Stejně jako u výše uvedeného přeškolení paměti existují určité opravitelné chyby paměti, které způsobí, že se oprava po zabalení naplánuje pro konkrétní slot DIMM na příští restart (měkký či úplný). Systém BIOS automaticky vynutí úplné restartování bez ohledu na spuštěné programy. Vzhledem k tomu, že oprava PPR je naplánována na konkrétním slotu DIMM, NEMĚŇTE umístění slotů DIMM, dokud se nespustí operace PPR. Příklady chyb:
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Jakákoliv z těchto událostí zaznamenaná v protokolu má za následek naplánování opravy PPR na další restartování (měkké nebo úplné) ve fázi konfigurace paměti.
Změny týkající se zprávy MEM8000 a aktualizované verze 1.1 a novějšího dokumentu whitepaper naleznete v aktualizaci z 10. července 2020.
Po restartování ověřte, že byla operace PPR úspěšně provedena. Úspěšná operace PPR je podobná tomuto příkladu:
MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
Pokud se nejedná o operaci PPR, výměna DIMM pro tyto opravitelné chyby paměti není nutná. Příklad kritické zprávy o neúspěšné operaci PPR:
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
Nyní je k dispozici nově publikovaný dokument whitepaper (verze 1.0), který popisuje funkce RAS (spolehlivost, dostupnost a provozuschopnost) a dostupné možnosti serveru Dell PowerEdge – Chyby paměti a funkce RAS paměti serveru Dell PowerEdge YX4X.
Aktualizace 24. dubna 2020
Společnost Dell nadále zlepšuje možnosti „samostatné“ opravy. Následující část obsahuje seznam aktualizací a vylepšení pro různé verze systému BIOS.
BIOS 2.1.x – Počáteční publikace článku o funkcích „samostatné“ opravy, které jsou k dispozici počínaje systémem BIOS verze 2.1.6, včetně vzorových chybových zpráv a doporučených akcí.
Změny systému BIOS 2.4.x a novějšího (prosinec 2019)
- MEM0702 (Correctable error rate exceeded…) – Závažnost zprávy byla aktualizována z kritické na varování. Došlo k aktualizaci doporučených akcí za účelem restartování serveru, aby bylo možné provést samostatnou opravu, například opravu po zabalení.
- Pro zobrazení aktualizované zprávy je nutné také nainstalovat řadič iDRAC z prosince 2019 nebo novější.
- Doporučená akce: Restartujte server, aby se spustila oprava PPR.
- MEM9060 – Popis zprávy byl aktualizován, aby bylo zřejmé, že došlo k úspěšnému dokončení samostatné opravy.
Změny systému BIOS 2.5.x a novějšího (únor 2020)
- Do systému BIOS byla přidána možnost "Correctable Error Logging", která zákazníkům umožňuje zakázat veškeré protokolování Lifecycle nebo SEL související s opravitelnými chybami. Všechny funkce "samostatné" opravy budou i nadále fungovat – například oprava PPR a přeškolení paměti jsou stále naplánovány a spuštěny během příštího restartování (v rané fázi konfigurace paměti).
- Přidání chyb MEM08xx pro moduly RDIMM a LRDIMM, které nahradí stávající chybové zprávy a akce. Stávající chybové zprávy se stále používají u platforem, které nepodporují funkci samostatné opravy.
- Aby se protokolovaly nové zprávy, je potřeba řadič iDRAC z února 2020 nebo novější.
- MEM0802 – Náhrada zprávy MEM0702 – Correctable error rate exceeded
- Doporučená akce: Restartujte server, aby se spustila oprava PPR. Potvrďte úspěšný průběh opravy PPR (MEM0802).
- MEM0804 – Náhrada zprávy MEM9060, která značí úspěšný průběh opravy PPR. Nyní obsahuje umístění slotů DIMM, které spustily opravu PPR.
- Doporučená akce: Upozorňujeme, že tato událost značí provedení „samostatné opravy“. Není nutná výměna žádného modulu DIMM.
- MEM0805 – Náhrada zprávy UEFI0278, která značí neúspěšný průběh opravy PPR.
- Doporučená akce: Výměna vadných modulů DIMM
Aktualizace 10. července 2020
Změny systému BIOS verze 2.7.x a novější (Blok systému BIOS z července 2020 – cílený na polovinu července pro zveřejnění na webu)
- MEM8000 (Correctable error logging disabled) – Počínaje verzí systému BIOS ~2.0.x vytvořil technický tým společnosti Dell změnu systému BIOS, která zlepšuje zjišťování opravitelných chyb s potenciálním dopadem na výkon. Tato změna vedla k mírnému zvýšení výskytu událostí MEM8000, který výsledky analýzy selhání modulu DIMM nedokázaly zdůvodnit. Počínaje systémem BIOS verze 2.7.x došlo ke dvěma změnám souvisejícím se zprávou MEM8000. První je signalizace, že došlo k úpravě události MEM8000. Zadruhé systém BIOS naplánuje samostatnou opravu (PPR) na další restart. Zprávy řadiče iDRAC zatím nejsou aktualizovány, aby odpovídaly novým akcím.
- Doporučená akce: Restartujte server, aby se spustila samostatná oprava (PPR). Potvrďte úspěšný průběh opravy PPR (MEM0804).
- MEM0001 (Uncorrectable error) – Výsledky samostatné opravy (PPR) budou naplánovány na další restart. Zprávy řadiče iDRAC zatím nejsou aktualizovány, aby odpovídaly novým akcím.
- Doporučená akce: Žádná není potřeba, pokud je zpráva MEM0001 spojena s kritickou stránkou, ze které se operační systém nemůže obnovit – jedná se stále o závažnou chybu, která vede k restartování. Pokud je zpráva MEM0001 spojena s nekritickou stránkou, ze které se operační systém může obnovit, je nutné pro spuštění samostatné opravy (PPR) naplánovat restartování. Potvrďte úspěšný průběh opravy PPR (MEM0804).
AKTUALIZOVÁNO 13. ledna 2021
Změny systému BIOS verze 2.8.2 a novější (blok systému BIOS ze září 2020)
- MEM9072 (Uncorrectable error identified by the memory patrol scrub process- page is not consumed or in use) – Výsledkem je naplánování samostatné opravy (PPR) na příští restart. Zprávy řadiče iDRAC zatím nejsou aktualizovány, aby odpovídaly novým akcím.
- Doporučená akce: Naplánujte brzký restart. Zpoždění restartování může způsobit vypršení limitu stránky a zobrazení chyby MEM0001, která by mohla vést k restartování. Během tohoto restartování se spustí samostatná oprava paměti (PPR). Potvrďte úspěšný průběh opravy PPR (MEM0804).
Obsah procesorů Intel Xeon E a AMD EPYC naleznete v původním dokumentu whitepaper technického týmu (verze 1.0), který naleznete na adrese: Dokument whitepaper pro RAS paměti serveru PowerEdge YX4X v1.0 (dell.com)
Pro budoucích aktualizace systému BIOS jsou vyhodnocována další vylepšení funkcí RAS.
Tento článek se aktualizuje, jakmile budou k dispozici nové informace.
Ovladače a soubory ke stažení: Ovladače a soubory ke stažení