PowerEdge: Hvad er DDR4 selvreparerende med skalerbare Intel Xeon-processorer
Summary: Hukommelsesfejl, der kan rettes og ikke kan rettes, på PowerEdge-server med DDR4 samt ændringer i fejlfindingstrin
Symptoms
Hvordan ændrer disse DDR4 "selvreparerende" funktioner (BIOS-forbedringer) anbefalede kunde- og tekniske supporthandlinger, når der opstår hukommelsesfejl på en server?
Hvad er de "selvhelbredende" forbedringer i de nyere BIOS-versioner?
Cause
Der er løbende forbedringer og forbedringer af Dell PowerEdge BIOS for at forbedre meddelelser om hukommelseshændelser, fejlhåndtering og "selvreparation", der opstår ved en genstart af serveren. Dette forhindrer behovet for et planlagt vedligeholdelsesvindue eller onsite-tilstedeværelse for at udskifte en DIMM-hukommelse med DDR4-hukommelse, der loggede fejlhændelser.
Resolution
Der er to primære hukommelsesrelaterede "selvreparerende" BIOS-forbedringer, der blev implementeret for PowerEdge-servere med DDR4, der kører BIOS-version 2.1.x og nyere. Disse forbedringer ændrer de anbefalede trin eller handlinger, der skal udføres, hvis der opstår hukommelseshændelser, og logføres i livscyklusloggen.
- Hvis du støder på hukommelsesfejl med DDR4 på BIOS 2.0 eller tidligere, skal du opdatere BIOS til den nyeste revision, der indeholder mange funktioner til selvreparation af hukommelsen og løbende forbedringer. Vi opfordrer altid kunderne til at opdatere til den nyeste tilgængelige BIOS-version (og iDRAC-firmware), så de kan drage fordel af de nyeste selvreparerende forbedringer.
- Tidligere trin til fejlfinding af hukommelse omfattede flytning af defekte DIMM-moduler til en anden plads for at bekræfte, om fejlene følger DIMM-modulet eller forbliver i DIMM-stikket. Med BIOS 2.1.x eller nyere er det første anbefalede trin at genstarte (uden at flytte DIMM-moduler til en anden plads). På den måde kan de nye BIOS-forbedringer køre, hvilket potentielt kan løse (selvhelbrede) DIMM-fejlene uden at planlægge DIMM-udskiftninger.
- Forbedringer af genoptræning af hukommelse
Genoptræningen af hukommelsen, som finder sted under opstart (tidligt i trinnene til konfiguration af hukommelse), optimerer signaltimingen og margenerne for hvert DIMM-modul/slot for at opnå den bedste adgang. Hukommelsessignaltiming og margenegenskaber for et DIMM-modul kan ændre sig over tid af flere forskellige årsager:
- Ændringer i serverens hukommelseskonfiguration
- BIOS-ændringer (hukommelsesreferencekode – MRC)
- Forskellige driftstemperaturer for serveren eller DIMM-modulet
- DIMM-modulets generelle alder
Tidligere resulterede registrerede BIOS-opdateringer eller hukommelseskonfigurationsændringer i en omskoling af hukommelsen, som sker under den efterfølgende opstart. Fra og med BIOS 2.1.x blev ekstra "udløsere" af hukommelsesfejl, som kan og ikke kan rettes, tilføjet med henblik på planlagt omskoling:
Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Enhver af disse fejl, der logges i SEL- eller Lifecycle-logfilerne, medfører, at der planlægges en genoptræning af hukommelsen til den næste genstart (varm eller kold). BIOS gennemtvinger automatisk en kold genstart, uanset hvad der igangsættes.
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
Denne multi-bit-fejl kan resultere i, at serveren genstarter på grund af en fatal fejl, hvis operativsystemet ikke er i stand til at håndtere denne fejl. Genoptræning af hukommelsen finder automatisk sted under denne opstart. Hvis multi-bit-fejlen opstår på en ikke-kritisk hukommelsesplacering, som operativsystemet kan håndtere, skal en genstart planlægges.
Genoptræning af hukommelsen under POST kan "selvhelbrede" det defekte DIMM-modul og det tilhørende slot ved at optimere signaltimingen og margenerne. En udskiftning af DIMM-modul er ikke nødvendig i forbindelse med disse fejl, medmindre omskolingen af hukommelsen mislykkes (UEFI0106) under opstart, eller hvis de samme fejl fortsat opstår.
- PPR (Post Package Repair)
Den anden "selvhelbredende" hukommelsesforbedring er PPR. PPR reparerer en defekt hukommelsesplacering ved at deaktivere placeringen eller adressen på hardwarelaget, så en ekstra hukommelsesrække kan bruges i stedet. Det nøjagtige antal reservehukommelsesrækker afhænger af DRAM-enhedens og DIMM-modulets størrelse.
Tidligere var denne funktionalitet begrænset til produktionsprocessen. Som med de tidligere nævnte forbedringer af genoptræningen af hukommelsen er der visse hukommelsesfejl, der kan rettes, der medfører, at PPR planlægges på en bestemt DIMM-slot til næste genstart (varm eller kold). BIOS gennemtvinger automatisk en kold genstart, uanset hvad der igangsættes. Da PPR-handlingen planlægges på et bestemt DIMM-modulstik, MÅ DU IKKE ændre DIMM-modulstikplaceringer, før PPR-handlingen er blevet kørt. Eksempler på fejl er:
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Enhver af disse hændelser i logfilerne resulterer i, at PPR planlægges til den næste genstart (varm eller kold) tidligt i konfigurationshukommelsesfasen
Se opdateringen fra 10. juli 2020 for at se ændringer til MEM8000-hændelsen og den opdaterede version 1.1 og nyere hvidbog.
Efter genstart skal du verificere, at PPR-handlingen er blevet gennemført. Et eksempel på en vellykket PPR-operation ligner:
MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
En DIMM-udskiftning af disse hukommelsesfejl, der kan rettes, er ikke nødvendig, medmindre PPR-handlingen. Et eksempel på en mislykket kritisk PPR-meddelelse er:
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
Der findes nu en nyligt offentliggjort hvidbog (version 1.0), der beskriver funktioner i Dell PowerEdge-serverens hukommelsesrelaterede driftssikkerhed, tilgængelighed og servicevenlighed (RAS), som beskriver de forskellige RAS-funktioner og -egenskaber, der er tilgængelige på PowerEdge-serverne – hukommelsesfejl og RAS-funktioner i Dell PowerEdge YX4X-serverhukommelsen.
Opdateret 24. april 2020
Dell fortsætter med at forbedre vores "selvhelbredende" funktioner. Følgende afsnit indeholder en liste over opdateringer og forbedringer, der er tilknyttet de forskellige BIOS-versioner.
BIOS 2.1.x – Indledende artikeludgivelse af de tilgængelige "selvhelbredende" funktioner startende med BIOS 2.1.6 og højere, herunder eksempler på fejlmeddelelser og anbefalede handlinger.
BIOS 2.4.x og nyere ændringer (december 2019)
- MEM0702 (Fejlprocenten kan rettes overskredet...) – Meddelelse opdateret fra en kritisk til en advarsel. Med anbefalede handlinger opdateret for at genstarte serveren for at tillade "selvreparation" at forekomme - for eksempel efter pakkereparation.
- December 2019 eller nyere iDRAC skal også installeres for at få den opdaterede meddelelse
- Anbefalet handling: Genstart serveren, så PPR kan køre
- MEM9060 – Meddelelsesbeskrivelsen er opdateret for at angive, at "selvhelbredelse" er fuldført
BIOS 2.5.x og nyere ændringer (februar 2020)
- BIOS-indstillingen "Logføring af korrigerbare fejl" blev tilføjet for at give kunderne mulighed for at deaktivere al Lifecycle- eller SEL-logning relateret til fejl, der kan rettes. Alle funktionerne til "selvreparation" fungerer fortsat – PPR og genoptræning af hukommelsen er f.eks. stadig planlagt og kører under næste genstart (tidligt i processen Konfiguration af hukommelse).
- Tilføjelse af MEM08xx-fejl til RDIMM'er og LRDIMM'er, der erstatter eksisterende fejlmeddelelser og handlinger. Eksisterende fejlmeddelelser bruges stadig til platforme, der ikke understøtter de "selvhelbredende" funktioner.
- Der kræves iDRAC fra februar 2020 eller nyere, for at de nye meddelelser kan logføres.
- MEM0802 - Udskiftet MEM0702 - korrigerbar fejlprocent overskredet
- Anbefalet handling: Genstart serveren, så PPR kan køre. Bekræft, at PPR lykkedes (MEM0802)
- MEM0804 – Erstattede MEM9060, der angiver, at PPR var vellykket. Indeholder nu placering af DIMM-slot, der kørte PPR
- Anbefalet handling: Ingen, denne hændelse angiver, at der er "selvhelbredende", og der er ikke behov for DIMM-udskiftning.
- MEM0805 – Erstattet UEFI0278 angiver, at PPR mislykkedes
- Anbefalet handling: Udskift fejlbehæftet DIMM-modul
Opdateret 10. juli 2020
BIOS 2.7.x og nyere ændringer (juli 2020-blok BIOS – planlagt medio juli til webindlæg)
- MEM8000 (logføring af korrigerbare fejl deaktiveret) – Dell Engineering startede med BIOS ~2.0.x og foretog en BIOS-ændring for at forbedre hastigheden af fejlregistrering, der kan rettes, hvilket kan påvirke ydeevnen. Denne ændring resulterede i en stigning i MEM8000 hændelser, der ikke var underbygget af resultaterne fra analyse af DIMM-fejl. Fra og med BIOS 2.7.x er der to ændringer, der er relateret til MEM8000. Den første er, at signaleringen af den MEM8000 begivenhed er blevet ændret. Derefter planlægger BIOS selvreparation (PPR) til næste genstart. iDRAC-meddelelser er endnu ikke opdateret til at afspejle de nye handlinger.
- Anbefalet handling: Genstart serveren for at tillade selvreparation/PPR at køre. Bekræft, at PPR lykkedes (MEM0804).
- MEM0001 (fejl, der ikke kan rettes) – Resulterer i selvreparation (PPR), der skal planlægges til næste genstart. iDRAC-meddelelser er endnu ikke opdateret til at afspejle de nye handlinger.
- Anbefalet handling: Ingen nødvendig, hvis MEM0001 er knyttet til en kritisk side, som operativsystemet ikke kan gendanne - Er stadig en alvorlig fejl, der resulterer i en genstart. Hvis MEM0001 er knyttet til en ikke-kritisk side, som operativsystemet kan gendanne fra, skal der planlægges en genstart til al selvreparation (PPR). Bekræft, at PPR lykkedes (MEM0804).
OPDATERET 13. januar 2021
BIOS 2.8.2 og nyere ændringer (september 2020-blok BIOS)
- MEM9072 (Uoprettelig fejl, der identificeres af hukommelsespatruljeskrubbeprocessen, forbruges ikke eller er i brug) – Resulterer i selvreparation (PPR), der skal planlægges til næste genstart. iDRAC-meddelelser er endnu ikke opdateret til at afspejle de nye handlinger.
- Anbefalet handling: Planlæg en genstart snart. Forsinkelse af genstart kan resultere i, at siden forbruges, hvilket resulterer i en MEM0001-fejl, der kan resultere i en genstart. Hukommelsens selvreparation (PPR) kører under denne genstart. Bekræft, at PPR lykkedes (MEM0804).
https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdfFor Intel Xeon E- og AMD EPYC-indhold henvises der fortsat til den originale hvidbog om udvikling (version 1.0), som findes på: PowerEdge YX4X Server Memory RAS-hvidbog v1.0 (dell.com)
Der er yderligere RAS-funktionsforbedringer, der vurderes for medtagelse i fremtidige BIOS-opdateringer.
Denne artikel opdateres, efterhånden som nye oplysninger bliver tilgængelige.
Downloads og drivere: Drivere og downloads