Servery PowerEdge 14. generace Intel a 15. generace: Správa opravitelných chyb překročení prahových hodnot

摘要: Tento článek obsahuje aktualizovaná doporučení pro správu opravitelných chyb překročení prahových hodnot (MEM0802 nebo MEM5104) u modulů RDIMM nebo LRDIMM DDR4 nainstalovaných v serverech PowerEdge 14G a 15G a PowerEdge 15G s procesory AMD ...

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

症状

Poznámka: Tento článek se netýká serverů PowerEdge založených na procesorech 14G AMD, jako jsou platformy 64x5 nebo 74x5, protože nemají funkci automatické přeinstalace pomocí funkce Post Package Repair, i když ji samotný modul DIMM podporuje.

Prostřednictvím vývoje funkcí RAS (Reliability, Accessibility, and Serviceability) v pamětech podnikové třídy zaujala společnost Dell konzervativní přístup k zajištění transparentnosti vůči zákazníkům. Spolu s tímto vývojem se mění i přístup společnosti Dell k zasílání zpráv o chybách, který umožňuje zaměřit se na oznámení, která vyžadují naléhavější odezvu, ve srovnání s oznámeními, která mají primárně informativní charakter.

Vzhledem k tomu, že se geometrie pamětí na bázi DRAM stále zmenšují, což zákazníkům poskytuje vyšší požadovaný výkon, očekává se, že přirozenou součástí rovnoměrného škálování bude rostoucí počet opravitelných chyb.

原因

V celosvětovém serverovém odvětví stále více převládá názor, který sdílí i společnost Dell, že některé opravitelné chyby u každého modulu DIMM jsou nevyhnutelné a nezaručují výměnu paměťového modulu nebo dokonce okamžitý restart k zahájení automatické reinstalace.

解决方案

Další provoz systému hlásícího opravitelné chyby bez restartu za účelem automatické opravy nezvyšuje riziko neopravitelných chyb, které mohou vést k neplánovaným prostojům. Jiní v oboru veřejně sdělili, že jejich manipulace s pamětí nehlásí opravitelné chyby.

V systému BIOS pro servery Intel PowerEdge 14G verze 2.5.4 a novějších bylo přidáno nastavení systému BIOS s názvem "Correctable Error Logging", které zákazníkům umožňuje zakázat funkci "Correctable Error Logging", pokud se tak rozhodnou, a mnozí tak učinili. Systém BIOS nadále plánuje automatickou opětovnou instalaci pro opravitelné prahové události i bez protokolování. K této plánované automatické reinstalaci dojde automaticky během následného restartování systému.

Kvůli lepšímu souladu s odvětvím a průběžnou zpětnou vazbou od zákazníků mění aktualizace systému BIOS společnosti Dell PowerEdge od března 2022 výchozí nastavení systému BIOS "Protokolování opravitelné chyby" na zakázané. Tuto možnost systému BIOS lze znovu povolit pro zákazníky, kteří chtějí i nadále zobrazovat opravitelné události překročení limitu paměti. Verze systému BIOS, které zahrnují tuto změnu nastavení systému BIOS, jsou:

  • Platformy Intel 14G – BIOS verze 2.13.3 nebo novější
  • Platformy AMD 15G – BIOS verze 2.6.5 nebo novější
  • Platformy Intel 15G – BIOS verze 1.5.5 nebo novější.

Výhody automatické obnovy modulů DDR4 DIMM po restartu systému:

  • Umožňuje opravu modulu DIMM DDR4 bez odebrání ze systému. Všechny moduly DDR4 DIMM od společnosti Dell podporují funkci automatického zotavení paměti.
 
Poznámka: Servery PowerEdge 14. generace AMD tuto možnost automatické přeinstalace nemají.
 
  • Využívá dostupné náhradní řádky navržené do paměti DRAM, kde je chybný řádek trvale nahrazen známým funkčním řádkem pomocí elektrického jištění.
  • Následné přeškolení paměti optimalizuje "datové oči" rekalibrací středových bodů, aby bylo zajištěno, že paměťová sběrnice pracuje na nejvyšší úrovni integrity signálu.

Pokud dojde k událostem prahové hodnoty paměti s povoleným nastavením "Correctable Error Logging", společnost Dell Technologies doporučuje restartovat počítač podle plánu pravidelné údržby zákazníka, aby bylo možné naplánovanou automatickou reinstalaci nebo automatickou opravu paměti. Po restartování se u souvisejících modulů DIMM zaprotokolují úspěšné nebo neúspěšné události automatické opětovné instalace.

Vzhledem k tomu, že nastavení systému BIOS "Correctable Error Logging" je bezchybné, společnost Dell Technologies doporučuje restartování systému podle plánu pravidelné údržby zákazníka. Po restartování se automaticky spustí všechny naplánované operace automatické opětovné instalace. Pokud se automatická opakovaná instalace nebo samočinná oprava nezdařila, systém zaznamená událost (události typu MEM0805 nebo MEM7114) a dále doporučí fyzicky vyměnit dotčený modul DIMM.

Doporučení:
Technické vybavení společnosti Dell doporučuje zákazníkům se servery PowerEdge se staršími verzemi systému BIOS (před vydáním z březnového bloku 2022) změnit nastavení systému BIOS "Protokolování opravitelné chyby" na hodnotu Zakázáno. Tím se eliminují ojedinělé opravitelné události prahové hodnoty paměti (například události typu MEM0802 nebo MEM5104) v serverové infrastruktuře, které doporučují restartování serveru, aby bylo možné provést automatickou opětovnou instalaci nebo samočinnou opravu. Jak již bylo zmíněno dříve, všechny naplánované operace automatické přeinstalace nebo automatické opravy se spustí automaticky po restartování serveru a nahlášení všech selhání.

Nastavení systému BIOS "Correctable Error Logging" lze změnit restartováním serveru do nastavení F2 nebo pomocí webového rozhraní řadiče iDRAC.

Změna nastavení systému BIOS z nabídky F2 System Settings:

  • Restartujte servery a zastavte se na nastavení F2.
  • V nastavení systému BIOS> a nastavení paměti změňte možnost Correctable Error Logging na hodnotu Disabled.
  • Uložte nastavení systému BIOS a ukončete nastavení klávesy F2 .

Změna nastavení systému BIOS pomocí webového rozhraní řadiče iDRAC:

  • Přihlaste se k webovému rozhraní řadiče iDRAC.
  • V části Configuration >BIOS Settings rozbalte část Memory Settings .
  • Změňte nastavení Protokol opravitelných chyb na hodnotu Zakázáno.
  • Kliknutím na tlačítko Apply uložte nastavení paměti
  • Nezapomeňte vybrat tlačítko Apply and Reboot(pro okamžitý restart) nebo At Next Reboot pro použití změn systému BIOS.

Stávající články a dokumenty whitepaper související s pamětí jsou aktualizovány tak, aby odrážely tuto doporučenou změnu.
 

Poznámka: Schválená zpráva určená zákazníkům je připojena jako soubor k tomuto článku – "Managing Correctable Error Notices Dec 2021 v1.pdf.“


Tento článek je aktualizován, jakmile jsou k dispozici nové informace.

受影响的产品

Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, PowerEdge XR2, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R840, OEMR R940, OEMR R940xa, Poweredge C4140, PowerEdge C6420, PowerEdge C6520 , PowerEdge C6525, PowerEdge MX740C, PowerEdge MX750c, PowerEdge MX840C, PowerEdge R350, PowerEdge R440, PowerEdge R450, PowerEdge R540, PowerEdge R550, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R6515, PowerEdge R6525, PowerEdge R740, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R7515, PowerEdge R7525, PowerEdge R840, PowerEdge R940, PowerEdge R940xa, PowerEdge T340, PowerEdge T350, PowerEdge T360, PowerEdge T440, PowerEdge T550, PowerEdge T560, PowerEdge T640, PowerEdge XE2420, PowerEdge XE7420, PowerEdge XE7440, PowerEdge XE8545, PowerEdge XR11, PowerEdge XR12, PowerEdge XR4510c, PowerEdge XR4520c, VxFlex Ready Node R740xd, Dell EMC vSAN R740 Ready Node, Dell EMC vSAN R740xd Ready Node, Dell EMC vSAN R840 Ready Node, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840 ...

产品

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R340, OEMR R440 , PowerEdge XR2, OEMR R540, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R6515, OEMR R6525, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R7515, OEMR R7525, OEMR R840, OEMR R940, OEMR R940xa, OEMR T440, OEMR T550, OEMR T640, OEMR XL T640, OEMR XL R340, PowerEdge C6420, PowerEdge C6525, PowerEdge MX740C, PowerEdge MX840C, PowerEdge R340, PowerEdge R540, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R6515, PowerEdge R6525, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R7515, PowerEdge R7525, PowerEdge R840, PowerEdge R940, PowerEdge R940xa, PowerEdge T440, PowerEdge T550, PowerEdge T640, PowerFlex appliance R650, PowerFlex appliance R6525, Powerflex appliance R750, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R750, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R7515 Ready Node, Dell EMC vSAN R840 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, Dell EMC XC Core XC7525 ...
文章属性
文章编号: 000194574
文章类型: Solution
上次修改时间: 07 11月 2025
版本:  5
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。