Servery PowerEdge 14. generace Intel a 15. generace: Správa opravitelných chyb překročení prahových hodnot
摘要: Tento článek obsahuje aktualizovaná doporučení pro správu opravitelných chyb překročení prahových hodnot (MEM0802 nebo MEM5104) u modulů RDIMM nebo LRDIMM DDR4 nainstalovaných v serverech PowerEdge 14G a 15G a PowerEdge 15G s procesory AMD ...
症状
Prostřednictvím vývoje funkcí RAS (Reliability, Accessibility, and Serviceability) v pamětech podnikové třídy zaujala společnost Dell konzervativní přístup k zajištění transparentnosti vůči zákazníkům. Spolu s tímto vývojem se mění i přístup společnosti Dell k zasílání zpráv o chybách, který umožňuje zaměřit se na oznámení, která vyžadují naléhavější odezvu, ve srovnání s oznámeními, která mají primárně informativní charakter.
Vzhledem k tomu, že se geometrie pamětí na bázi DRAM stále zmenšují, což zákazníkům poskytuje vyšší požadovaný výkon, očekává se, že přirozenou součástí rovnoměrného škálování bude rostoucí počet opravitelných chyb.
原因
解决方案
Další provoz systému hlásícího opravitelné chyby bez restartu za účelem automatické opravy nezvyšuje riziko neopravitelných chyb, které mohou vést k neplánovaným prostojům. Jiní v oboru veřejně sdělili, že jejich manipulace s pamětí nehlásí opravitelné chyby.
V systému BIOS pro servery Intel PowerEdge 14G verze 2.5.4 a novějších bylo přidáno nastavení systému BIOS s názvem "Correctable Error Logging", které zákazníkům umožňuje zakázat funkci "Correctable Error Logging", pokud se tak rozhodnou, a mnozí tak učinili. Systém BIOS nadále plánuje automatickou opětovnou instalaci pro opravitelné prahové události i bez protokolování. K této plánované automatické reinstalaci dojde automaticky během následného restartování systému.
Kvůli lepšímu souladu s odvětvím a průběžnou zpětnou vazbou od zákazníků mění aktualizace systému BIOS společnosti Dell PowerEdge od března 2022 výchozí nastavení systému BIOS "Protokolování opravitelné chyby" na zakázané. Tuto možnost systému BIOS lze znovu povolit pro zákazníky, kteří chtějí i nadále zobrazovat opravitelné události překročení limitu paměti. Verze systému BIOS, které zahrnují tuto změnu nastavení systému BIOS, jsou:
- Platformy Intel 14G – BIOS verze 2.13.3 nebo novější
- Platformy AMD 15G – BIOS verze 2.6.5 nebo novější
- Platformy Intel 15G – BIOS verze 1.5.5 nebo novější.
Výhody automatické obnovy modulů DDR4 DIMM po restartu systému:
- Umožňuje opravu modulu DIMM DDR4 bez odebrání ze systému. Všechny moduly DDR4 DIMM od společnosti Dell podporují funkci automatického zotavení paměti.
- Využívá dostupné náhradní řádky navržené do paměti DRAM, kde je chybný řádek trvale nahrazen známým funkčním řádkem pomocí elektrického jištění.
- Následné přeškolení paměti optimalizuje "datové oči" rekalibrací středových bodů, aby bylo zajištěno, že paměťová sběrnice pracuje na nejvyšší úrovni integrity signálu.
Pokud dojde k událostem prahové hodnoty paměti s povoleným nastavením "Correctable Error Logging", společnost Dell Technologies doporučuje restartovat počítač podle plánu pravidelné údržby zákazníka, aby bylo možné naplánovanou automatickou reinstalaci nebo automatickou opravu paměti. Po restartování se u souvisejících modulů DIMM zaprotokolují úspěšné nebo neúspěšné události automatické opětovné instalace.
Vzhledem k tomu, že nastavení systému BIOS "Correctable Error Logging" je bezchybné, společnost Dell Technologies doporučuje restartování systému podle plánu pravidelné údržby zákazníka. Po restartování se automaticky spustí všechny naplánované operace automatické opětovné instalace. Pokud se automatická opakovaná instalace nebo samočinná oprava nezdařila, systém zaznamená událost (události typu MEM0805 nebo MEM7114) a dále doporučí fyzicky vyměnit dotčený modul DIMM.
Doporučení:
Technické vybavení společnosti Dell doporučuje zákazníkům se servery PowerEdge se staršími verzemi systému BIOS (před vydáním z březnového bloku 2022) změnit nastavení systému BIOS "Protokolování opravitelné chyby" na hodnotu Zakázáno. Tím se eliminují ojedinělé opravitelné události prahové hodnoty paměti (například události typu MEM0802 nebo MEM5104) v serverové infrastruktuře, které doporučují restartování serveru, aby bylo možné provést automatickou opětovnou instalaci nebo samočinnou opravu. Jak již bylo zmíněno dříve, všechny naplánované operace automatické přeinstalace nebo automatické opravy se spustí automaticky po restartování serveru a nahlášení všech selhání.
Nastavení systému BIOS "Correctable Error Logging" lze změnit restartováním serveru do nastavení F2 nebo pomocí webového rozhraní řadiče iDRAC.
Změna nastavení systému BIOS z nabídky F2 System Settings:
-
Restartujte servery a zastavte se na nastavení F2.
-
V nastavení systému BIOS> a nastavení paměti změňte možnost Correctable Error Logging na hodnotu Disabled.
-
Uložte nastavení systému BIOS a ukončete nastavení klávesy F2 .
Změna nastavení systému BIOS pomocí webového rozhraní řadiče iDRAC:
- Přihlaste se k webovému rozhraní řadiče iDRAC.
- V části Configuration >BIOS Settings rozbalte část Memory Settings .
- Změňte nastavení Protokol opravitelných chyb na hodnotu Zakázáno.
- Kliknutím na tlačítko Apply uložte nastavení paměti
- Nezapomeňte vybrat tlačítko Apply and Reboot(pro okamžitý restart) nebo At Next Reboot pro použití změn systému BIOS.
Stávající články a dokumenty whitepaper související s pamětí jsou aktualizovány tak, aby odrážely tuto doporučenou změnu.
Managing Correctable Error Notices Dec 2021 v1.pdf.“
Tento článek je aktualizován, jakmile jsou k dispozici nové informace.