PowerEdge 14G Intel- och 15G-servrar: Hantera korrigerbara händelser vid tröskelvärdet för fel
摘要: Den här artikeln innehåller uppdaterade rekommendationer för hantering av korrigerbara feltröskelhändelser (MEM0802 eller MEM5104) på DDR4 RDIMM- eller LRDIMM-moduler som är installerade i Intel-baserade 14G och 15G PowerEdge-servrar och AMD-baserade 15G PowerEdge-servrar. ...
症状
Genom utvecklingen av RAS-funktioner (pålitlighet, tillgänglighet och servicemöjligheter) i minnen i företagsklass har Dell valt en konservativ inställning när det gäller att ge transparens till våra kunder. I takt med att den här utvecklingen fortsätter även Dells strategi för felrapportering, vilket gör det möjligt att fokusera på meddelanden som kräver mer brådskande svar jämfört med meddelanden som främst är av informationskaraktär.
I takt med att DRAM-baserade minnesgeometrier fortsätter att krympa, vilket ger kunderna den ökade prestanda de kräver, förväntas ett ökande antal korrigerbara fel som en naturlig del av enhetlig skalning.
原因
解决方案
Att fortsätta driva ett system som rapporterar korrigerbara fel utan en omstart för att självläka ökar inte risken för att uppleva icke-korrigerbara fel som kan leda till oplanerade driftstopp. Andra i branschen har offentligt kommunicerat att deras minneshantering inte rapporterar korrigerbara fel.
I 14G Intel PowerEdge BIOS version 2.5.4 och senare har en BIOS-inställning lagts till som kallas "Correctable Error Logging", för att ge kunderna möjlighet att inaktivera korrigerbar felrapportering om de vill, och många har gjort det. BIOS fortsätter att schemalägga automatisk ominstallation för korrigerbara tröskelhändelser även utan loggning. Den här schemalagda automatiska ominstallationen sker automatiskt under den efterföljande systemomstarten.
Från och med mars 2022 ändrar Dell PowerEdge BIOS-uppdateringen BIOS-inställningen "Correctable Error Logging" så att den inaktiveras som standard, för att bättre anpassa sig till branschen och fortsatt feedback från kunder. Det här BIOS-alternativet kan återaktiveras för kunder som vill fortsätta att se korrigerbara händelser för minnets tröskelvärde. BIOS-versioner där den här ändringen av BIOS-inställningarna ingår är:
- 14G Intel-plattformar – BIOS-version 2.13.3 eller senare
- 15G AMD-plattformar – BIOS-version 2.6.5 eller senare
- 15G Intel-plattformar – BIOS-versionerna 1.5.5 eller senare.
Fördelarna med DDR4 DIMM självläker genom en omstart av systemet:
- Det möjliggör reparation av en DDR4 DIMM utan borttagning från systemet; Alla DDR4 DIMM-moduler från Dell har stöd för funktionen för självläkning av minne.
- Använder tillgängliga reservrader som är inbyggda i DRAM-minnet där en felaktig rad permanent ersätts med en känd fungerande rad genom elektrisk säkring.
- Den efterföljande minnesinlärningen optimerar "dataögonen" genom att kalibrera om mittpunkterna för att säkerställa att minnesbussen arbetar på högsta nivå av signalintegritet.
För korrigerbara tröskelhändelser med BIOS-inställningen "Correctable Error Logging" aktiverad, om minneströskelhändelser inträffar, rekommenderar Dell Technologies att du startar om enligt kundens ordinarie underhållsschema så att den schemalagda automatiska ominstallationen eller självkorrigeringen av minnet kan utföras. Efter omstarten loggas lyckade eller misslyckade automatiska ominstallationshändelser för de associerade DIMM-modulerna.
Med BIOS-inställningen "Correctable Error Logging" aktiverad rekommenderar Dell Technologies att du startar om enligt kundens ordinarie underhållsschema. Vid omstart körs alla schemalagda automatiska ominstallationsåtgärder automatiskt. Systemet loggar en händelse (händelser av typen MEM0805 eller MEM7114) om den automatiska ominstallationen eller självkorrigeringen misslyckades och rekommenderar vidare att fysiskt byte av berörd DIMM-modul byts ut.
Rekommendation:
Dell Memory Engineering rekommenderar att PowerEdge Server-kunder med äldre BIOS-versioner (före mars 2022-versionerna) inför att ändra BIOS-inställningen "Correctable Error Logging" till Inaktiverad. Detta eliminerar de sporadiska korrigerbara minneströskelhändelserna (t.ex. händelser av typen MEM0802 eller MEM5104) i serverinfrastrukturen som rekommenderar omstart av servern så att automatisk ominstallation eller självkorrigering kan ske. Som tidigare nämnts körs alla schemalagda automatiska ominstallations- eller självkorrigeringsåtgärder automatiskt när servern startas om och eventuella fel rapporteras.
BIOS-inställningen "Correctable Error Logging" kan ändras antingen genom att starta om servern till F2-inställningar eller genom att använda iDRAC WebUI.
Så här ändrar du BIOS-inställningen från F2-systeminställningarna:
-
Starta om servrarna och stoppa vid F2-inställningarna
-
I valet BIOS Settings>Memory Settings ändrar du Correctable Error Logging till Disabled.
-
Spara BIOS-inställningarna och avsluta F2-inställningarna
Så här ändrar du BIOS-inställningen med hjälp av iDRAC WebUI:
- Logga in på iDRAC-webbgränssnittet
- Under Inställningar för konfigurations-BIOS >utökar du avsnittet Minnesinställningar
- Ändra inställningen Korrigerbar felloggning till Inaktiverad
- Klicka på knappen Verkställ för att spara minnesinställningarna
- Glöm inte att välja antingen knappen Verkställ och starta om (för att starta om omedelbart) eller Vid nästa omstart för att tillämpa BIOS-ändringarna.
Befintliga minnesrelaterade artiklar och informationsdokument uppdateras för att återspegla den här rekommenderade ändringen.
Managing Correctable Error Notices Dec 2021 v1.pdf.”
Den här artikeln uppdateras när ny information blir tillgänglig.