PowerEdge: Hvad er DDR4 selvreparerende med skalerbare Intel Xeon-processorer

Summary: Hukommelsesfejl, der kan rettes og ikke kan rettes, på PowerEdge-server med DDR4 samt ændringer i fejlfindingstrin

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Hvad er DDR4 "selvreparerende" på Dell PowerEdge-servere med skalerbare Intel Xeon-processorer (første eller anden generation) med BIOS-version 2.1.x eller nyere?

Hvordan ændrer disse DDR4 "selvreparerende" funktioner (BIOS-forbedringer) anbefalede kunde- og tekniske supporthandlinger, når der opstår hukommelsesfejl på en server?

Hvad er de "selvhelbredende" forbedringer i de nyere BIOS-versioner?

Cause

Der er løbende forbedringer og forbedringer af Dell PowerEdge BIOS for at forbedre meddelelser om hukommelseshændelser, fejlhåndtering og "selvreparation", der opstår ved en genstart af serveren. Dette forhindrer behovet for et planlagt vedligeholdelsesvindue eller onsite-tilstedeværelse for at udskifte en DIMM-hukommelse med DDR4-hukommelse, der loggede fejlhændelser.

Resolution

Der er to primære hukommelsesrelaterede "selvreparerende" BIOS-forbedringer, der blev implementeret for PowerEdge-servere med DDR4, der kører BIOS-version 2.1.x og nyere. Disse forbedringer ændrer de anbefalede trin eller handlinger, der skal udføres, hvis der opstår hukommelseshændelser, og logføres i livscyklusloggen.

Bemærk:
  • Hvis du støder på hukommelsesfejl med DDR4 på BIOS 2.0 eller tidligere, skal du opdatere BIOS til den nyeste revision, der indeholder mange funktioner til selvreparation af hukommelsen og løbende forbedringer. Vi opfordrer altid kunderne til at opdatere til den nyeste tilgængelige BIOS-version (og iDRAC-firmware), så de kan drage fordel af de nyeste selvreparerende forbedringer.
  • Tidligere trin til fejlfinding af hukommelse omfattede flytning af defekte DIMM-moduler til en anden plads for at bekræfte, om fejlene følger DIMM-modulet eller forbliver i DIMM-stikket. Med BIOS 2.1.x eller nyere er det første anbefalede trin at genstarte (uden at flytte DIMM-moduler til en anden plads). På den måde kan de nye BIOS-forbedringer køre, hvilket potentielt kan løse (selvhelbrede) DIMM-fejlene uden at planlægge DIMM-udskiftninger.
  1. Forbedringer af genoptræning af hukommelse

Genoptræningen af hukommelsen, som finder sted under opstart (tidligt i trinnene til konfiguration af hukommelse), optimerer signaltimingen og margenerne for hvert DIMM-modul/slot for at opnå den bedste adgang. Hukommelsessignaltiming og margenegenskaber for et DIMM-modul kan ændre sig over tid af flere forskellige årsager:

  • Ændringer i serverens hukommelseskonfiguration
  • BIOS-ændringer (hukommelsesreferencekode – MRC)
  • Forskellige driftstemperaturer for serveren eller DIMM-modulet
  • DIMM-modulets generelle alder

Tidligere resulterede registrerede BIOS-opdateringer eller hukommelseskonfigurationsændringer i en omskoling af hukommelsen, som sker under den efterfølgende opstart. Fra og med BIOS 2.1.x blev ekstra "udløsere" af hukommelsesfejl, som kan og ikke kan rettes, tilføjet med henblik på planlagt omskoling:

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

Enhver af disse fejl, der logges i SEL- eller Lifecycle-logfilerne, medfører, at der planlægges en genoptræning af hukommelsen til den næste genstart (varm eller kold). BIOS gennemtvinger automatisk en kold genstart, uanset hvad der igangsættes.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."

 

Denne multi-bit-fejl kan resultere i, at serveren genstarter på grund af en fatal fejl, hvis operativsystemet ikke er i stand til at håndtere denne fejl. Genoptræning af hukommelsen finder automatisk sted under denne opstart. Hvis multi-bit-fejlen opstår på en ikke-kritisk hukommelsesplacering, som operativsystemet kan håndtere, skal en genstart planlægges.

Genoptræning af hukommelsen under POST kan "selvhelbrede" det defekte DIMM-modul og det tilhørende slot ved at optimere signaltimingen og margenerne. En udskiftning af DIMM-modul er ikke nødvendig i forbindelse med disse fejl, medmindre omskolingen af hukommelsen mislykkes (UEFI0106) under opstart, eller hvis de samme fejl fortsat opstår.
 

  1. PPR (Post Package Repair)

Den anden "selvhelbredende" hukommelsesforbedring er PPR. PPR reparerer en defekt hukommelsesplacering ved at deaktivere placeringen eller adressen på hardwarelaget, så en ekstra hukommelsesrække kan bruges i stedet. Det nøjagtige antal reservehukommelsesrækker afhænger af DRAM-enhedens og DIMM-modulets størrelse.

Tidligere var denne funktionalitet begrænset til produktionsprocessen. Som med de tidligere nævnte forbedringer af genoptræningen af hukommelsen er der visse hukommelsesfejl, der kan rettes, der medfører, at PPR planlægges på en bestemt DIMM-slot til næste genstart (varm eller kold). BIOS gennemtvinger automatisk en kold genstart, uanset hvad der igangsættes. Da PPR-handlingen planlægges på et bestemt DIMM-modulstik, MÅ DU IKKE ændre DIMM-modulstikplaceringer, før PPR-handlingen er blevet kørt. Eksempler på fejl er:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

Enhver af disse hændelser i logfilerne resulterer i, at PPR planlægges til den næste genstart (varm eller kold) tidligt i konfigurationshukommelsesfasen

Bemærk: Et meddelelses-id MEM8000 (logføring af hukommelsesfejl, der kan rettes deaktiveret for en hukommelsesenhed på placering DIMM_XX.) uden en tilsvarende MEM0005/MEM0701/MEM0702 på den samme DIMM-placering medfører ikke, at der planlægges en PPR ved næste genstart.

Se opdateringen fra 10. juli 2020 for at se ændringer til MEM8000-hændelsen og den opdaterede version 1.1 og nyere hvidbog.

Efter genstart skal du verificere, at PPR-handlingen er blevet gennemført. Et eksempel på en vellykket PPR-operation ligner:

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."


En DIMM-udskiftning af disse hukommelsesfejl, der kan rettes, er ikke nødvendig, medmindre PPR-handlingen. Et eksempel på en mislykket kritisk PPR-meddelelse er:

UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."

 

Der findes nu en nyligt offentliggjort hvidbog (version 1.0), der beskriver funktioner i Dell PowerEdge-serverens hukommelsesrelaterede driftssikkerhed, tilgængelighed og servicevenlighed (RAS), som beskriver de forskellige RAS-funktioner og -egenskaber, der er tilgængelige på PowerEdge-serverne – hukommelsesfejl og RAS-funktioner i Dell PowerEdge YX4X-serverhukommelsen.

 

Opdateret 24. april 2020

Dell fortsætter med at forbedre vores "selvhelbredende" funktioner. Følgende afsnit indeholder en liste over opdateringer og forbedringer, der er tilknyttet de forskellige BIOS-versioner.

BIOS 2.1.x – Indledende artikeludgivelse af de tilgængelige "selvhelbredende" funktioner startende med BIOS 2.1.6 og højere, herunder eksempler på fejlmeddelelser og anbefalede handlinger.

BIOS 2.4.x og nyere ændringer (december 2019)

  • MEM0702 (Fejlprocenten kan rettes overskredet...) – Meddelelse opdateret fra en kritisk til en advarsel. Med anbefalede handlinger opdateret for at genstarte serveren for at tillade "selvreparation" at forekomme - for eksempel efter pakkereparation.
    • December 2019 eller nyere iDRAC skal også installeres for at få den opdaterede meddelelse
    • Anbefalet handling: Genstart serveren, så PPR kan køre
  • MEM9060 – Meddelelsesbeskrivelsen er opdateret for at angive, at "selvhelbredelse" er fuldført

BIOS 2.5.x og nyere ændringer (februar 2020)

  • BIOS-indstillingen "Logføring af korrigerbare fejl" blev tilføjet for at give kunderne mulighed for at deaktivere al Lifecycle- eller SEL-logning relateret til fejl, der kan rettes. Alle funktionerne til "selvreparation" fungerer fortsat – PPR og genoptræning af hukommelsen er f.eks. stadig planlagt og kører under næste genstart (tidligt i processen Konfiguration af hukommelse).
  • Tilføjelse af MEM08xx-fejl til RDIMM'er og LRDIMM'er, der erstatter eksisterende fejlmeddelelser og handlinger. Eksisterende fejlmeddelelser bruges stadig til platforme, der ikke understøtter de "selvhelbredende" funktioner.
    • Der kræves iDRAC fra februar 2020 eller nyere, for at de nye meddelelser kan logføres.
Bemærk: Uden den opdaterede iDRAC er nye BIOS-meddelelser "ukendte" i SEL- eller Lifecycle-logfilerne.
  • MEM0802 - Udskiftet MEM0702 - korrigerbar fejlprocent overskredet
    • Anbefalet handling: Genstart serveren, så PPR kan køre. Bekræft, at PPR lykkedes (MEM0802)
  • MEM0804 – Erstattede MEM9060, der angiver, at PPR var vellykket. Indeholder nu placering af DIMM-slot, der kørte PPR
    • Anbefalet handling: Ingen, denne hændelse angiver, at der er "selvhelbredende", og der er ikke behov for DIMM-udskiftning.
  • MEM0805 – Erstattet UEFI0278 angiver, at PPR mislykkedes
    • Anbefalet handling: Udskift fejlbehæftet DIMM-modul

Opdateret 10. juli 2020

BIOS 2.7.x og nyere ændringer (juli 2020-blok BIOS – planlagt medio juli til webindlæg)

  • MEM8000 (logføring af korrigerbare fejl deaktiveret) – Dell Engineering startede med BIOS ~2.0.x og foretog en BIOS-ændring for at forbedre hastigheden af fejlregistrering, der kan rettes, hvilket kan påvirke ydeevnen. Denne ændring resulterede i en stigning i MEM8000 hændelser, der ikke var underbygget af resultaterne fra analyse af DIMM-fejl. Fra og med BIOS 2.7.x er der to ændringer, der er relateret til MEM8000. Den første er, at signaleringen af den MEM8000 begivenhed er blevet ændret. Derefter planlægger BIOS selvreparation (PPR) til næste genstart. iDRAC-meddelelser er endnu ikke opdateret til at afspejle de nye handlinger.
    • Anbefalet handling: Genstart serveren for at tillade selvreparation/PPR at køre. Bekræft, at PPR lykkedes (MEM0804).
  • MEM0001 (fejl, der ikke kan rettes) – Resulterer i selvreparation (PPR), der skal planlægges til næste genstart. iDRAC-meddelelser er endnu ikke opdateret til at afspejle de nye handlinger.
    • Anbefalet handling: Ingen nødvendig, hvis MEM0001 er knyttet til en kritisk side, som operativsystemet ikke kan gendanne - Er stadig en alvorlig fejl, der resulterer i en genstart. Hvis MEM0001 er knyttet til en ikke-kritisk side, som operativsystemet kan gendanne fra, skal der planlægges en genstart til al selvreparation (PPR). Bekræft, at PPR lykkedes (MEM0804).

OPDATERET 13. januar 2021

BIOS 2.8.2 og nyere ændringer (september 2020-blok BIOS)

  • MEM9072 (Uoprettelig fejl, der identificeres af hukommelsespatruljeskrubbeprocessen, forbruges ikke eller er i brug) – Resulterer i selvreparation (PPR), der skal planlægges til næste genstart. iDRAC-meddelelser er endnu ikke opdateret til at afspejle de nye handlinger.
    • Anbefalet handling: Planlæg en genstart snart. Forsinkelse af genstart kan resultere i, at siden forbruges, hvilket resulterer i en MEM0001-fejl, der kan resultere i en genstart. Hukommelsens selvreparation (PPR) kører under denne genstart. Bekræft, at PPR lykkedes (MEM0804).
Bemærk: Den seneste version af hvidbogen Engineering (version 1.3 – udgivelsesdato 20. november 2020) findes på:  
https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdfFor Intel Xeon E- og AMD EPYC-indhold henvises der fortsat til den originale hvidbog om udvikling (version 1.0), som findes på: PowerEdge YX4X Server Memory RAS-hvidbog v1.0 (dell.com)

Der er yderligere RAS-funktionsforbedringer, der vurderes for medtagelse i fremtidige BIOS-opdateringer.

 
Bemærk: Du kan finde en detaljeret beskrivelse og anbefalede handlinger til specifikke fejlmeddelelser i følgende link: Slå op (dell.com). Da fejlkoder (f.eks. MEM0001) gælder for flere generationer af servere og platforme, er de anbefalede handlinger muligvis ikke aktuelle for den pågældende BIOS-version. De nye fejlkoder, der er tilføjet (f.eks. MEM0802, MEM0804, MEM0805 osv.), gælder kun for servere med skalerbare Intel Xeon-processorer (første eller anden generation).

 

Denne artikel opdateres, efterhånden som nye oplysninger bliver tilgængelige.


Downloads og drivere: Drivere og downloads

Affected Products

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R240, OEMR R250 , OEMR XE R250, OEMR R260, OEMR XE R260, OEMR R340, OEMR R350, OEMR XE R350, OEMR R360, OEMR XE R360, OEMR R440, PowerEdge XR2, OEMR R450, OEMR R540, OEMR R550, OEMR R5500, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R660, OEMR XL R660, OEMR R660xs, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R760, OEMR R760xa, OEMR R760XD2, OEMR XL R760, OEMR R760xs, OEMR R840, OEMR R860, OEMR R940, OEMR R940xa, OEMR R960, OEMR T140, OEMR T150, OEMR T340, OEMR T350, OEMR T360, OEMR T440, OEMR T550, OEMR T560, OEMR T640, OEMR XL T640, OEMR XL R240, OEMR XL R340, OEMR XL R660xs, OEMR XR11, OEMR XR12, OEMR XR4000r, OEMR XR4000w, OEMR XR4510c, OEMR XR4520c, OEMR XR5610, OEMR XR7620, OEMR XR8610t, OEMR XR8620t, Poweredge C4140, PowerEdge C6420, PowerEdge C6520, PowerEdge C6525, PowerEdge C6615, PowerEdge C6620, PowerEdge FC640, PowerEdge HS5610, PowerEdge HS5620, PowerEdge M640, PowerEdge MX740C, PowerEdge MX750c, PowerEdge MX760c, PowerEdge MX840C, PowerEdge R240, PowerEdge R250, PowerEdge R260, PowerEdge R340, PowerEdge R350, PowerEdge R360, PowerEdge R440, PowerEdge R450, PowerEdge R540, PowerEdge R550, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R660, PowerEdge R660xs, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R760, PowerEdge R760XA, PowerEdge R760xd2, PowerEdge R760xs, PowerEdge R840, PowerEdge R860, PowerEdge R940, PowerEdge R940xa, PowerEdge R960, PowerEdge T140, PowerEdge T150, PowerEdge T160, PowerEdge T340, PowerEdge T350, PowerEdge T360, PowerEdge T440, PowerEdge T550, PowerEdge T560, PowerEdge T640, PowerEdge XE2420, PowerEdge XE7100, PowerEdge XE7420, PowerEdge XE7440, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680, PowerEdge XE9680L, PowerEdge XR11, PowerEdge XR12, PowerEdge XR4000r, PowerEdge XR4000w, PowerEdge XR4510c, PowerEdge XR4520c, PowerEdge XR5610, PowerEdge XR7620, PowerEdge XR8610t, PowerEdge XR8620t, PowerFlex appliance R650, PowerFlex appliance R660, Powerflex appliance R750, PowerFlex appliance R760, PowerFlex custom node R650, PowerFlex custom node R660, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R860, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN C6420 Ready Node, Dell EMC vSAN MX740c Ready Node, Dell EMC vSAN MX750c Ready Node, Dell vSAN Ready Node MX760c, Dell EMC vSAN R440 Ready Node, Dell EMC vSAN R640 Ready Node, Dell EMC vSAN R650 Ready Node, vSAN Ready Node R660, Dell EMC vSAN R740 Ready Node, Dell EMC vSAN R740xd Ready Node, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R760 Ready Node, Dell EMC vSAN R840 Ready Node, Dell EMC vSAN T350 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...

Products

PowerFlex rack, VxFlex Ready Nodes, PowerFlex Appliance, PowerFlex custom node, ScaleIO, PowerFlex appliance Intelligent Catalog Software, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex custom node, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R660, PowerFlex custom node R6625, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R7625, PowerFlex rack connectivity, PowerFlex rack HW, PowerFlex rack RCM Software, PowerFlex Software, VxFlex Ready Node, VxFlex Ready Node R640, VxFlex Ready Node R740xd, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...
Article Properties
Article Number: 000053203
Article Type: Solution
Last Modified: 25 Nov 2025
Version:  26
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.