PowerEdge 14G Intel- og 15G-servere: Administration af fejltærskelhændelser, der kan rettes
摘要: Denne artikel indeholder opdaterede anbefalinger til administration af fejltærskelhændelser (MEM0802 eller MEM5104) på DDR4 RDIMM er eller LRDIMM er, der er installeret i Intel-baserede 14G og 15G PowerEdge-servere og AMD-baserede 15G PowerEdge-servere. ...
症状
Gennem udviklingen af funktionerne Pålidelighed, Tilgængelighed og Servicevenlighed (RAS) på tværs af hukommelsen i virksomhedsklassen har Dell indtaget en konservativ tilgang til at give gennemsigtighed til vores kunder. I takt med at denne udvikling fortsætter, gør Dells tilgang til fejlrapportering det også muligt at fokusere på meddelelser, der kræver en hurtigere reaktion sammenlignet med meddelelser, der primært er informative.
Da DRAM-baserede hukommelsesgeometrier fortsætter med at skrumpe, hvilket giver kunderne den øgede ydeevne, de kræver, forventes et stigende antal korrigerbare fejl som en naturlig del af ensartet skalering.
原因
解决方案
Fortsat drift af et system, der rapporterer fejl, der kan rettes uden genstart til selvreparation, øger ikke risikoen for at opleve fejl, der ikke kan rettes, og som kan føre til uplanlagt nedetid. Andre i branchen har offentligt meddelt, at deres hukommelseshåndtering ikke rapporterer fejl, der kan rettes.
I 14G Intel PowerEdge BIOS version 2.5.4 og nyere blev der tilføjet en BIOS-indstilling kaldet "Logføring af korrigerbare fejl" for at give kunderne mulighed for at deaktivere fejlrapportering, der kan rettes, hvis de ønsker det, hvilket mange har. BIOS fortsætter med at planlægge automatisk geninstallation for tærskelhændelser, der kan rettes, selv uden logføring. Denne planlagte automatiske geninstallation sker automatisk under den efterfølgende genstart af systemet.
For at drage mere i tråd med branchen og løbende kundefeedback ændrer Dell PowerEdge BIOS-opdateringer fra marts 2022 BIOS-indstillingen "Logføring af korrigerbare fejl" til at være deaktiveret som standard. Denne BIOS-indstilling kan genaktiveres for kunder, der fortsat ønsker at se fejlbehæftede hukommelsestærskelhændelser, der kan rettes. BIOS-versioner med denne inkluderede ændring af BIOS-indstillinger er:
- 14G Intel-platforme – BIOS-version 2.13.3 eller nyere
- 15G AMD-platforme – BIOS-version 2.6.5 eller nyere
- 15G Intel-platforme – BIOS-version 1.5.5 eller nyere.
Fordelene ved DDR4 DIMM-selvreparation ved systemgenstart:
- Det muliggør reparation af en DDR4 DIMM uden at fjerne den fra systemet; alle DDR4 DIMM'er fra Dell understøtter funktionen til selvreparation af hukommelse.
- Bruger tilgængelige reserverækker, der er indbygget i DRAM, hvor en dårlig række permanent erstattes med en kendt fungerende række ved elektrisk indbrænding.
- Den efterfølgende omskoling af hukommelsen optimerer "dataøjnene" ved at kalibrere midtpunkterne igen for at sikre, at hukommelsesbussen fungerer på det højeste niveau af signalintegritet.
Hvis der opstår hukommelsestærskelhændelser med BIOS-indstillingen "Logføring af korrigerbare fejl" aktiveret, anbefaler Dell Technologies, at hvis der opstår hukommelsestærskelhændelser, anbefaler Dell Technologies genstart efter kundens almindelige vedligeholdelsesplan, så den planlagte hukommelse kan geninstalleres automatisk eller selvkorrigeres. Efter genstarten logføres vellykkede eller mislykkede automatiske geninstallationshændelser for de tilknyttede DIMM-moduler.
Med BIOS-indstillingen "Logføring af korrigerbar fejl" D isabled anbefaler Dell Technologies en genstart efter kundens almindelige vedligeholdelsesplan. Ved genstart køres alle planlagte automatiske geninstallationshandlinger automatisk. Systemet logfører en hændelse (MEM0805 eller hændelser af typen MEM7114), hvis den automatiske geninstallation eller selvrettelse mislykkedes, og anbefaler desuden fysisk udskiftning af det berørte DIMM-modul.
Anbefaling:
Dell Memory Engineering anbefaler, at PowerEdge-serverkunder på ældre BIOS-versioner (før martsblokudgivelserne for 2022) indfører at ændre BIOS-indstillingen "Logføring af korrigerbare fejl" til Deaktiveret. Dette eliminerer de sporadiske hukommelsestærskelhændelser, der kan rettes (f.eks. MEM0802- eller MEM5104 typehændelser) på tværs af serverinfrastrukturen, som anbefaler genstart af serveren, så der kan ske automatisk geninstallation eller selvkorrektion. Som tidligere nævnt kører alle planlagte automatiske geninstallations- eller selvkorrektionshandlinger automatisk, når serveren genstartes, og eventuelle fejl rapporteres.
BIOS-indstillingen "Logføring af korrigerbar fejl" kan ændres enten ved at genstarte serveren til F2-indstillinger eller ved hjælp af iDRAC WebUI.
Sådan ændres BIOS-indstillingen fra F2 Systemindstillinger:
-
Genstart serverne, der stopper ved F2-indstillinger
-
I valget af hukommelsesindstillinger i BIOS-indstillinger> skal du ændre logføring af fejl, der kan rettes til Deaktiveret.
-
Gem BIOS-indstillingerne, og afslut F2-indstillingerne
Sådan ændres BIOS-indstillingen ved hjælp af iDRAC WebUI:
- Log på iDRAC WebUI
- Under Konfiguration >af BIOS-indstillinger skal du udvide afsnittet Hukommelsesindstillinger
- Skift indstillingen Logføring af fejl, der kan rettes til Deaktiveret
- Klik på knappen Anvend for at gemme hukommelsesindstillingerne
- Glem ikke at vælge enten knappen Anvend og genstart(for at genstarte med det samme) eller knappen Ved næste genstart for at anvende BIOS-ændringerne.
Eksisterende hukommelsesrelaterede artikler og hvidbøger opdateres for at afspejle denne anbefalede ændring.
Managing Correctable Error Notices Dec 2021 v1.pdf."
Denne artikel opdateres, efterhånden som nye oplysninger bliver tilgængelige.