PowerEdge: Co je samooprava DDR4 s procesory Intel Xeon Scalable

Summary: Opravitelné a neopravitelné chyby paměti na serveru PowerEdge s moduly DDR4 a změny kroků odstraňování problémů

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Co je funkce samostatné opravy paměti DDR4 v serverech Dell PowerEdge se škálovatelnými procesory Intel Xeon (první nebo druhé generace) se systémem BIOS verze 2.1.x nebo vyšší?

Jak tyto funkce samostatné opravy paměti DDR4 (vylepšení systému BIOS) mění doporučené akce pro zákazníky a technickou podporu, pokud v serveru dojde k chybám paměti?

Jaká jsou vylepšení funkce samostatné opravy v novějších verzích systému BIOS?

Cause

Dell PowerEdge BIOS se neustále vylepšuje, což zlepšuje zasílání událostí paměti, zpracování chyb a „samostatnou opravu“, ke které dochází při restartování serveru. Tím se zabrání nutnosti plánované údržby nebo přítomnosti na pracovišti kvůli výměně paměťového modulu DIMM DDR4, který zaznamenával chybové události.

Resolution

Do serverů PowerEdge s pamětí DDR4 se systémem BIOS verze 2.1.x a novější byla implementována dvě hlavní vylepšení systému BIOS související se samostatnou opravou paměti. Tato vylepšení mění doporučené kroky nebo akce, které je třeba provést, pokud dojde k událostem paměti a k jejich zaznamenání do protokolu LifeCycle.

Poznámka:
  • Pokud dochází k chybám pamětí DDR4 a používáte systém BIOS verze 2.0 nebo starší, aktualizujte jej na nejnovější verzi, která obsahuje funkci samostatné opravy paměti a další vylepšení. Zákazníkům vždy doporučujeme provést aktualizaci na nejnovější dostupnou verzi systému BIOS (a firmware iDRAC), aby mohli využívat nejnovější vylepšení funkce samostatné opravy.
  • Předchozí postup pro odstraňování problémů s pamětí zahrnuje přesunutí selhávajících modulů DIMM do jiného slotu, aby bylo možné ověřit, zda chyby spočívají v modulu DIMM nebo ve slotu. U systému BIOS verze 2.1.x nebo novější je prvním doporučeným krokem restartování (bez přesunutí modulů DIMM do jiného slotu). Tak se mohou spustit nová vylepšení systému BIOS a potenciálně vyřešit (samostatnou opravou) chyby modulů DIMM, aniž by bylo nutné plánovat výměnu modulů.
  1. Vylepšení přeškolení paměti

Přeškolení paměti, ke kterému dochází při spouštění systému (v rané fázi konfigurace paměti), optimalizuje časování a marže signálu pro každý modul DIMM / slot, aby byl zajištěn nejlepší přístup. Charakteristiky časování a marže signálu paměti DIMM se mohou v průběhu času měnit z několika různých důvodů:

  • Změny v konfiguraci paměti serveru
  • Změny systému BIOS (kód MRC – Memory Reference Code)
  • Různé provozní teploty serveru či modulu DIMM
  • Celkové stáří modulu DIMM

Dříve vedlo zjištění aktualizací systému BIOS nebo změn konfigurace paměti k přeškolení paměti během následného spuštění. Počínaje systémem BIOS 2.1.x byly pro plánované přeškolení přidány další opravitelné a neopravitelné „spouštěče“ chyb paměti:

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

Jakákoli z těchto chyb zaznamenaných v protokolech SEL nebo Lifecycle vede k tomu, že se přeškolení paměti naplánuje na příští restart (měkký nebo úplný). Systém BIOS automaticky vynutí úplné restartování bez ohledu na spuštěné programy.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."

 

Tato vícebitová chyba může vést k restartování serveru z důvodu závažné chyby, pokud operační systém nemůže tuto chybu zpracovat. Během spouštění systému se automaticky spustí přeškolení paměti. Pokud se vícebitová chyba vyskytne v nekritickém paměťovém umístění, které je operační systém schopen zpracovat, je nutné naplánovat restart.

Přeškolení paměti během testu POST může provést „samostatnou opravu“ selhávajícího modulu DIMM a souvisejícího slotu optimalizací časování signálu a jeho marže. Pokud během spouštění nedošlo k selhání přeškolení paměti (UEFI0106) nebo pokud se stále vyskytují stejné chyby, výměna paměti DIMM v případě těchto chyb není nutná.
 

  1. Oprava po zabalení (PPR)

Druhým „samoopravným“ vylepšením paměti je oprava PPR. PPR opraví v hardwarové vrstvě umístění nebo adresy a místo toho použije řádek záložní paměti, čímž umožní opravit umístění vadné paměti. Přesný počet dostupných řádků záložní paměti závisí na velikosti zařízení DRAM a modulu DIMM.

Dříve byla tato funkce omezena na výrobní proces. Stejně jako u výše uvedeného přeškolení paměti existují určité opravitelné chyby paměti, které způsobí, že se oprava po zabalení naplánuje pro konkrétní slot DIMM na příští restart (měkký či úplný). Systém BIOS automaticky vynutí úplné restartování bez ohledu na spuštěné programy. Vzhledem k tomu, že oprava PPR je naplánována na konkrétním slotu DIMM, NEMĚŇTE umístění slotů DIMM, dokud se nespustí operace PPR. Příklady chyb:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

Jakákoliv z těchto událostí zaznamenaná v protokolu má za následek naplánování opravy PPR na další restartování (měkké nebo úplné) ve fázi konfigurace paměti.

Poznámka: ID zprávy MEM8000 (Correctable memory error logging disabled for a memory device at location DIMM_XX.) bez odpovídající zprávy MEM0005/MEM0701/MEM0702 ve stejném umístění paměti DIMM nevede k naplánování PPR na další restartování.

Změny týkající se zprávy MEM8000 a aktualizované verze 1.1 a novějšího dokumentu whitepaper naleznete v aktualizaci z 10. července 2020.

Po restartování ověřte, že byla operace PPR úspěšně provedena. Úspěšná operace PPR je podobná tomuto příkladu:

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."


Pokud se nejedná o operaci PPR, výměna DIMM pro tyto opravitelné chyby paměti není nutná. Příklad kritické zprávy o neúspěšné operaci PPR:

UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."

 

Nyní je k dispozici nově publikovaný dokument whitepaper (verze 1.0), který popisuje funkce RAS (spolehlivost, dostupnost a provozuschopnost) a dostupné možnosti serveru Dell PowerEdge – Chyby paměti a funkce RAS paměti serveru Dell PowerEdge YX4X.

 

Aktualizace 24. dubna 2020

Společnost Dell nadále zlepšuje možnosti „samostatné“ opravy. Následující část obsahuje seznam aktualizací a vylepšení pro různé verze systému BIOS.

BIOS 2.1.x – Počáteční publikace článku o funkcích „samostatné“ opravy, které jsou k dispozici počínaje systémem BIOS verze 2.1.6, včetně vzorových chybových zpráv a doporučených akcí.

Změny systému BIOS 2.4.x a novějšího (prosinec 2019)

  • MEM0702 (Correctable error rate exceeded…) – Závažnost zprávy byla aktualizována z kritické na varování. Došlo k aktualizaci doporučených akcí za účelem restartování serveru, aby bylo možné provést samostatnou opravu, například opravu po zabalení.
    • Pro zobrazení aktualizované zprávy je nutné také nainstalovat řadič iDRAC z prosince 2019 nebo novější.
    • Doporučená akce: Restartujte server, aby se spustila oprava PPR.
  • MEM9060 – Popis zprávy byl aktualizován, aby bylo zřejmé, že došlo k úspěšnému dokončení samostatné opravy.

Změny systému BIOS 2.5.x a novějšího (únor 2020)

  • Do systému BIOS byla přidána možnost "Correctable Error Logging", která zákazníkům umožňuje zakázat veškeré protokolování Lifecycle nebo SEL související s opravitelnými chybami. Všechny funkce "samostatné" opravy budou i nadále fungovat – například oprava PPR a přeškolení paměti jsou stále naplánovány a spuštěny během příštího restartování (v rané fázi konfigurace paměti).
  • Přidání chyb MEM08xx pro moduly RDIMM a LRDIMM, které nahradí stávající chybové zprávy a akce. Stávající chybové zprávy se stále používají u platforem, které nepodporují funkci samostatné opravy.
    • Aby se protokolovaly nové zprávy, je potřeba řadič iDRAC z února 2020 nebo novější.
Poznámka: Bez aktualizovaného řadiče iDRAC se nové zprávy systému BIOS zobrazí v protokolech SEL nebo Lifecycle jako "Unknown".
  • MEM0802 – Náhrada zprávy MEM0702 – Correctable error rate exceeded
    • Doporučená akce: Restartujte server, aby se spustila oprava PPR. Potvrďte úspěšný průběh opravy PPR (MEM0802).
  • MEM0804 – Náhrada zprávy MEM9060, která značí úspěšný průběh opravy PPR. Nyní obsahuje umístění slotů DIMM, které spustily opravu PPR.
    • Doporučená akce: Upozorňujeme, že tato událost značí provedení „samostatné opravy“. Není nutná výměna žádného modulu DIMM.
  • MEM0805 – Náhrada zprávy UEFI0278, která značí neúspěšný průběh opravy PPR.
    • Doporučená akce: Výměna vadných modulů DIMM

Aktualizace 10. července 2020

Změny systému BIOS verze 2.7.x a novější (Blok systému BIOS z července 2020 – cílený na polovinu července pro zveřejnění na webu)

  • MEM8000 (Correctable error logging disabled) – Počínaje verzí systému BIOS ~2.0.x vytvořil technický tým společnosti Dell změnu systému BIOS, která zlepšuje zjišťování opravitelných chyb s potenciálním dopadem na výkon. Tato změna vedla k mírnému zvýšení výskytu událostí MEM8000, který výsledky analýzy selhání modulu DIMM nedokázaly zdůvodnit. Počínaje systémem BIOS verze 2.7.x došlo ke dvěma změnám souvisejícím se zprávou MEM8000. První je signalizace, že došlo k úpravě události MEM8000. Zadruhé systém BIOS naplánuje samostatnou opravu (PPR) na další restart. Zprávy řadiče iDRAC zatím nejsou aktualizovány, aby odpovídaly novým akcím.
    • Doporučená akce: Restartujte server, aby se spustila samostatná oprava (PPR). Potvrďte úspěšný průběh opravy PPR (MEM0804).
  • MEM0001 (Uncorrectable error) – Výsledky samostatné opravy (PPR) budou naplánovány na další restart. Zprávy řadiče iDRAC zatím nejsou aktualizovány, aby odpovídaly novým akcím.
    • Doporučená akce: Žádná není potřeba, pokud je zpráva MEM0001 spojena s kritickou stránkou, ze které se operační systém nemůže obnovit – jedná se stále o závažnou chybu, která vede k restartování. Pokud je zpráva MEM0001 spojena s nekritickou stránkou, ze které se operační systém může obnovit, je nutné pro spuštění samostatné opravy (PPR) naplánovat restartování. Potvrďte úspěšný průběh opravy PPR (MEM0804).

AKTUALIZOVÁNO 13. ledna 2021

Změny systému BIOS verze 2.8.2 a novější (blok systému BIOS ze září 2020)

  • MEM9072 (Uncorrectable error identified by the memory patrol scrub process- page is not consumed or in use) – Výsledkem je naplánování samostatné opravy (PPR) na příští restart. Zprávy řadiče iDRAC zatím nejsou aktualizovány, aby odpovídaly novým akcím.
    • Doporučená akce: Naplánujte brzký restart. Zpoždění restartování může způsobit vypršení limitu stránky a zobrazení chyby MEM0001, která by mohla vést k restartování. Během tohoto restartování se spustí samostatná oprava paměti (PPR). Potvrďte úspěšný průběh opravy PPR (MEM0804).
Poznámka: Nejnovější verzi technického dokumentu whitepaper (verze 1.3 – datum vydání 20. listopadu 2020) naleznete na adrese:  https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdf
Obsah procesorů Intel Xeon E a AMD EPYC naleznete v původním dokumentu whitepaper technického týmu (verze 1.0), který naleznete na adrese: Dokument whitepaper pro RAS paměti serveru PowerEdge YX4X v1.0 (dell.com)

Pro budoucích aktualizace systému BIOS jsou vyhodnocována další vylepšení funkcí RAS.

 
Poznámka: Podrobný popis a doporučené akce pro konkrétní chybové kódy najdete na následujícím odkazu: Vyhledání (dell.com). Vzhledem k tomu, že chybové kódy (například MEM0001) se vztahují na více generací serverů a platforem, doporučené akce nemusí být pro konkrétní verzi systému BIOS aktuální. Nově přidané chybové kódy (například MEM0802, MEM0804, MEM0805 atd.) se týkají pouze serverů se škálovatelnými procesory Intel Xeon (první nebo druhé generace).

 

Tento článek se aktualizuje, jakmile budou k dispozici nové informace.


Ovladače a soubory ke stažení: Ovladače a soubory ke stažení

Affected Products

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R240, OEMR R250 , OEMR XE R250, OEMR R260, OEMR XE R260, OEMR R340, OEMR R350, OEMR XE R350, OEMR R360, OEMR XE R360, OEMR R440, PowerEdge XR2, OEMR R450, OEMR R540, OEMR R550, OEMR R5500, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R660, OEMR XL R660, OEMR R660xs, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R760, OEMR R760xa, OEMR R760XD2, OEMR XL R760, OEMR R760xs, OEMR R840, OEMR R860, OEMR R940, OEMR R940xa, OEMR R960, OEMR T140, OEMR T150, OEMR T340, OEMR T350, OEMR T360, OEMR T440, OEMR T550, OEMR T560, OEMR T640, OEMR XL T640, OEMR XL R240, OEMR XL R340, OEMR XL R660xs, OEMR XR11, OEMR XR12, OEMR XR4000r, OEMR XR4000w, OEMR XR4510c, OEMR XR4520c, OEMR XR5610, OEMR XR7620, OEMR XR8610t, OEMR XR8620t, Poweredge C4140, PowerEdge C6420, PowerEdge C6520, PowerEdge C6525, PowerEdge C6615, PowerEdge C6620, PowerEdge FC640, PowerEdge HS5610, PowerEdge HS5620, PowerEdge M640, PowerEdge MX740C, PowerEdge MX750c, PowerEdge MX760c, PowerEdge MX840C, PowerEdge R240, PowerEdge R250, PowerEdge R260, PowerEdge R340, PowerEdge R350, PowerEdge R360, PowerEdge R440, PowerEdge R450, PowerEdge R540, PowerEdge R550, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R660, PowerEdge R660xs, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R760, PowerEdge R760XA, PowerEdge R760xd2, PowerEdge R760xs, PowerEdge R840, PowerEdge R860, PowerEdge R940, PowerEdge R940xa, PowerEdge R960, PowerEdge T140, PowerEdge T150, PowerEdge T160, PowerEdge T340, PowerEdge T350, PowerEdge T360, PowerEdge T440, PowerEdge T550, PowerEdge T560, PowerEdge T640, PowerEdge XE2420, PowerEdge XE7100, PowerEdge XE7420, PowerEdge XE7440, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680, PowerEdge XE9680L, PowerEdge XR11, PowerEdge XR12, PowerEdge XR4000r, PowerEdge XR4000w, PowerEdge XR4510c, PowerEdge XR4520c, PowerEdge XR5610, PowerEdge XR7620, PowerEdge XR8610t, PowerEdge XR8620t, PowerFlex appliance R650, PowerFlex appliance R660, Powerflex appliance R750, PowerFlex appliance R760, PowerFlex custom node R650, PowerFlex custom node R660, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R860, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN C6420 Ready Node, Dell EMC vSAN MX740c Ready Node, Dell EMC vSAN MX750c Ready Node, Dell vSAN Ready Node MX760c, Dell EMC vSAN R440 Ready Node, Dell EMC vSAN R640 Ready Node, Dell EMC vSAN R650 Ready Node, vSAN Ready Node R660, Dell EMC vSAN R740 Ready Node, Dell EMC vSAN R740xd Ready Node, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R760 Ready Node, Dell EMC vSAN R840 Ready Node, Dell EMC vSAN T350 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...

Products

PowerFlex rack, VxFlex Ready Nodes, PowerFlex Appliance, PowerFlex custom node, ScaleIO, PowerFlex appliance Intelligent Catalog Software, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex custom node, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R660, PowerFlex custom node R6625, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R7625, PowerFlex rack connectivity, PowerFlex rack HW, PowerFlex rack RCM Software, PowerFlex Software, VxFlex Ready Node, VxFlex Ready Node R640, VxFlex Ready Node R740xd, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...
Article Properties
Article Number: 000053203
Article Type: Solution
Last Modified: 25 Nov 2025
Version:  26
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.