Neustále dochází k vylepšování a vylepšování systému BIOS serveru Dell PowerEdge s cílem zlepšit zasílání událostí paměti, zpracování chyb a "samostatnou opravu", ke které dochází při restartování serveru. Tím se zabrání nutnosti plánované údržby nebo přítomnosti na pracovišti kvůli výměně paměťového modulu DIMM DDR4, který zaznamenával chybové události.
Do serverů PowerEdge s pamětí DDR4 se systémem BIOS verze 2.1.x a novější byla implementována dvě hlavní vylepšení systému BIOS související se samostatnou opravou paměti. Tato vylepšení však mění doporučené kroky nebo akce, které je třeba provést, pokud dojde k událostem v paměti a jsou zaznamenány do protokolu LifeCycle.
Poznámka:
- Pokud v systému BIOS 2.0 nebo starším dochází k chybám paměti DDR4, aktualizujte systém BIOS na nejnovější verzi, která obsahuje funkci samostatné opravy paměti a další vylepšení. Zákazníkům vždy doporučujeme provést aktualizaci na nejnovější dostupnou verzi systému BIOS (a firmware iDRAC), aby mohli využívat nejnovější vylepšení funkce samostatné opravy.
- Předchozí kroky pro odstraňování problémů s pamětí zahrnovaly přesunutí selhávajících modulů DIMM do jiného slotu, aby bylo možné ověřit, zda chyby spočívají v modulu DIMM nebo ve slotu. U systému BIOS verze 2.1.x nebo novější je prvním doporučeným krokem restartování (bez přesunutí modulů DIMM do jiného slotu). Tak se mohou spustit nová vylepšení systému BIOS a potenciálně vyřešit (samostatnou opravou) chyby modulů DIMM, aniž by bylo nutné plánovat výměnu modulů.
1. Vylepšení přeškolení paměti
Přeškolení paměti, ke kterému dochází při spouštění systému (v rané fázi konfigurace paměti), optimalizuje časování signálu a jeho marže pro každý modul DIMM / slot, aby byl zajištěn nejlepší přístup. Časování paměťového signálu a tolerance tolerance modulu DIMM se mohou v průběhu času měnit z několika různých důvodů:
- Změny v konfiguraci paměti serveru
- Změny systému BIOS (kód MRC – Memory Reference Code)
- Různé provozní teploty serveru či modulu DIMM
- Celkové stáří modulu DIMM
Dříve vedlo zjištění aktualizací systému BIOS nebo změn konfigurace paměti k přeškolení paměti během následného spuštění. Počínaje systémem BIOS 2.1.x byly pro plánované přeškolení přidány další opravitelné a neopravitelné „spouštěče“ chyb paměti:
Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Všechny tyto chyby zaznamenané v protokolech SEL / LifeCycle mají za následek naplánování přeškolení paměti na další restartování (měkké nebo úplné). Systém BIOS automaticky vynutí úplné restartování bez ohledu na spuštěné programy.
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
Tato vícebitová chyba může vést k restartování serveru z důvodu závažné chyby, pokud operační systém nemůže tuto chybu zpracovat. Během spouštění systému se automaticky spustí přeškolení paměti. Pokud se vícebitová chyba vyskytne v nekritickém paměťovém umístění, které je operační systém schopen zpracovat, je nutné naplánovat restart.
Přeškolení paměti během testu POST může provést "samostatnou opravu" selhávajícího modulu DIMM a souvisejícího slotu optimalizací časování signálu a jeho marže. Pokud během spouštění nedošlo k selhání přeškolení paměti (UEFI0106) nebo pokud se stále vyskytují stejné chyby, výměna paměti DIMM v případě těchto chyb není nutná.
2. Oprava po zabalení (PPR)
Druhým "samoopravným" vylepšením paměti je PPR. Nástroj PPR opraví vadné umístění paměti zakázáním umístění nebo adresy v hardwarové vrstvě, čímž místo toho povolí použití řádku záložní paměti. Přesný počet dostupných řádků záložní paměti závisí na velikosti zařízení DRAM a modulu DIMM.
Dříve byla tato funkce omezena na výrobní proces. Stejně jako u výše uvedeného přeškolení paměti existují určité opravitelné chyby paměti, které způsobí, že se oprava po zabalení naplánuje pro konkrétní slot DIMM na příští restart (měkký či úplný). Systém BIOS automaticky vynutí úplné restartování bez ohledu na spuštěné programy. Vzhledem k tomu, že oprava PPR je naplánována na konkrétním slotu DIMM, NEMĚŇTE umístění slotů DIMM, dokud se nespustí operace PPR. Příklady chyb:
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Jakákoli z těchto událostí v protokolech povede k tomu, že se oprava PPR naplánuje na příští restart (měkký nebo studený) na začátku fáze konfigurace paměti.
Poznámka: Zpráva s ID MEM8000 (Correctable memory error logging disabled for a memory device at location DIMM_XX.) bez odpovídající MEM0005/MEM0701/MEM0702 na stejném umístění modulu DIMM nezpůsobí naplánování opravy PPR na příští restart.
Změny pro událost MEM8000 a aktualizovaný dokument whitepaper verze 1.1 a novější naleznete v aktualizaci z 10. července 2020.
Po restartování ověřte, že byla operace PPR úspěšně provedena. Úspěšná operace PPR je podobná tomuto příkladu:
MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
Výměna DIMM v případě těchto opravitelných chyb paměti není nutná, pokud nedojde k operaci PPR. Příkladem selhání kritické zprávy PPR:
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
Nyní je k dispozici nově publikovaný dokument whitepaper (verze 1.0) popisující funkce spolehlivosti, dostupnosti a provozuschopnosti (RAS) související s pamětí serverů Dell PowerEdge, který popisuje různé funkce a možnosti RAS dostupné na serverech PowerEdge – chyby paměti a funkce RAS paměti serveru Dell EMC PowerEdge YX4X.
Další informace o opravitelných chybách překročení prahových hodnot naleznete v článku
Servery 14G Intel a 15G Intel/AMD PowerEdge: Paměť DDR4: Správa opravitelných chyb překročení prahových hodnot.
Aktualizace 24. dubna 2020
Společnost Dell nadále zlepšuje své možnosti "samostatné" opravy. Následující část obsahuje seznam aktualizací a vylepšení pro různé verze systému BIOS.
BIOS 2.1.x – Počáteční publikace článku o funkcích „samostatné“ opravy, které jsou k dispozici počínaje systémem BIOS verze 2.1.6, včetně vzorových chybových zpráv a doporučených akcí.
Změny systému BIOS 2.4.x a novějšího (prosinec 2019)
- MEM0702 (Correctable error rate exceeded…) – Závažnost zprávy byla aktualizována z kritické na varování. Došlo k aktualizaci doporučených akcí za účelem restartování serveru, aby bylo možné provést samostatnou opravu, například opravu po zabalení.
- Pro zobrazení aktualizované zprávy je nutné také nainstalovat řadič iDRAC z prosince 2019 nebo novější.
- Doporučená akce: Restartujte server, aby se spustila oprava PPR.
- MEM9060 – Popis zprávy byl aktualizován, aby bylo zřejmé, že došlo k úspěšnému dokončení samostatné opravy.
Změny systému BIOS 2.5.x a novějšího (únor 2020)
- Do systému BIOS byla přidána možnost „Correctable Error Logging“, která zákazníkům umožňuje zakázat všechna protokolování LifeCycle/SEL související s opravitelnými chybami. Všechny funkce "samostatné" opravy budou i nadále fungovat – například oprava PPR a přeškolení paměti jsou stále naplánovány a spuštěny během příštího restartování (v rané fázi konfigurace paměti).
- Přidání chyb MEM08xx pro moduly RDIMM a LRDIMM, které nahradí stávající chybové zprávy a akce. Stávající chybové zprávy se stále používají u platforem, které nepodporují funkci samostatné opravy.
- Pro protokolování nových zpráv je vyžadován řadič iDRAC z února 2020 nebo novější.
Poznámka: Bez aktualizovaného řadiče iDRAC se nové zprávy systému BIOS zobrazí v protokolech SEL nebo LifeCycle jako "Unknown".
- MEM0802 – Náhrada zprávy MEM0702 – Correctable error rate exceeded
- Doporučená akce: Restartujte server, aby se spustila oprava PPR. Potvrďte úspěšný průběh opravy PPR (MEM0802).
- MEM0804 – Náhrada zprávy MEM9060, která značí úspěšný průběh opravy PPR. Nyní obsahuje umístění slotů DIMM, které spustily opravu PPR.
- Doporučená akce: Žádné. Tato událost značí, že došlo k automatické opravě, není nutná výměna modulu DIMM.
- MEM0805 – Náhrada zprávy UEFI0278, která značí neúspěšný průběh opravy PPR.
- Doporučená akce: Výměna vadných modulů DIMM
Aktualizace 10. července 2020
Změny systému BIOS verze 2.7.x a novější (Blok systému BIOS z července 2020 – cílený na polovinu července pro zveřejnění na webu)
- MEM8000 (Correctable error logging disabled) – Počínaje verzí BIOS ~2.0.x provedlo technické oddělení společnosti Dell změnu systému BIOS, s cílem zvýšit rychlost detekce opravitelných chyb, které mohou mít vliv na výkon. Tato změna vedla k nárůstu MEM8000 událostí, které nebyly podloženy výsledky analýzy selhání modulů DIMM. Počínaje systémem BIOS verze 2.7.x došlo ke dvěma změnám souvisejícím se zprávou MEM8000. První je, že byla upravena signalizace MEM8000 události. Zadruhé systém BIOS naplánuje samostatnou opravu (PPR) na další restart. Zprávy řadiče iDRAC zatím nejsou aktualizovány, aby odpovídaly novým akcím.
- Doporučená akce: Restartujte server, aby se spustila samostatná oprava (PPR). Potvrďte úspěšný průběh opravy PPR (MEM0804).
- MEM0001 (Uncorrectable error) – Výsledky samostatné opravy (PPR) budou naplánovány na další restart. Zprávy řadiče iDRAC zatím nejsou aktualizovány, aby odpovídaly novým akcím.
- Doporučená akce: Žádná není potřeba, pokud je zpráva MEM0001 spojena s kritickou stránkou, ze které se operační systém nemůže obnovit – jedná se stále o závažnou chybu, která vede k restartování. Pokud je zpráva MEM0001 spojena s nekritickou stránkou, ze které se operační systém může obnovit, je nutné pro spuštění samostatné opravy (PPR) naplánovat restartování. Potvrďte úspěšný průběh opravy PPR (MEM0804).
AKTUALIZOVÁNO 13. ledna 2021
Změny systému BIOS verze 2.8.2 a novější (blok systému BIOS ze září 2020)
- MEM9072 (Uncorrectable error identified by the memory patrol scrub process- page is not consumed or in use) – Výsledkem je naplánování samostatné opravy (PPR) na příští restart. Zprávy řadiče iDRAC zatím nejsou aktualizovány, aby odpovídaly novým akcím.
- Doporučená akce: Naplánujte brzký restart. Zpoždění restartování může způsobit vypršení limitu stránky a zobrazení chyby MEM0001, která by mohla vést k restartování. Během tohoto restartování se spustí samostatná oprava paměti (PPR). Potvrďte úspěšný průběh opravy PPR (MEM0804).
Pro budoucích aktualizace systému BIOS jsou vyhodnocována další vylepšení funkcí RAS.
Poznámka: Podrobný popis a doporučené akce pro konkrétní chybové kódy najdete na následujícím odkazu:
Vyhledání (dell.com). Vzhledem k tomu, že chybové kódy (například MEM0001) se vztahují na více generací serverů a platforem, doporučené akce nemusí být pro konkrétní verzi systému BIOS aktuální. Nové chybové kódy, které byly přidány (například MEM0802, MEM0804, MEM0805 atd.), se vztahují pouze na servery se škálovatelnými procesory Intel Xeon (první nebo druhá generace).
Tento článek bude aktualizován, jakmile budou k dispozici nové informace.
Viz také: Pokyny pro odstraňování problémů pomocí výměny dílů – Odstraňování chyb paměti v systémech PowerEdge pomocí výměny
dílů Souboryke stažení a ovladače: Ovladače a soubory ke stažení | Dell, USA