PowerEdge: Hva er DDR4-selvreparasjon med Intel Xeon Scalable-prosessorer

Summary: Korrigerbare og ikke-korrigerbare minnefeil på en PowerEdge-server med DDR4 og endringer i feilsøkingstrinnene

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Hva er DDR4 «selvreparasjon» på Dell PowerEdge-servere med Intel Xeon skalerbare prosessorer (første eller andre generasjon) med BIOS-versjon 2.1.x eller nyere?

Hvordan endrer disse DDR4-selvreparasjonsfunksjonene (BIOS-forbedringer) anbefalte handlinger for kunder og teknisk støtte når det oppstår minnefeil på en server?

Hva er de selvreparerende forbedringene i de nyere BIOS-versjonene?

Cause

Det finnes kontinuerlige forbedringer og forbedringer av Dell PowerEdge BIOS for å forbedre meldinger om minnehendelser, feilhåndtering og "selvreparasjon" som oppstår når en server startes på nytt. Dette forhindrer behovet for et planlagt vedlikeholdsvindu eller tilstedeværelse på stedet for å erstatte en DDR4-minne-DIMM som logget feilhendelser.

Resolution

Det finnes to hovedminnerelaterte, «selvreparerende» BIOS-forbedringer som ble implementert for PowerEdge-servere med DDR4 som kjører BIOS versjon 2.1.x og nyere. Disse utvidelsene endrer de anbefalte trinnene eller handlingene som skal utføres hvis minnehendelser oppstår og logges i LifeCycle-loggen.

Merk:
  • Hvis det oppstår minnefeil med DDR4 på BIOS 2.0 eller eldre, må du oppdatere BIOS til den nyeste revisjonen som inkluderer mange selvreparasjonsfunksjoner for minne og kontinuerlige forbedringer. Vi oppfordrer alltid kundene til å oppdatere til den nyeste tilgjengelige BIOS-versjonen (og iDRAC-fastvaren), slik at de kan dra nytte av de nyeste selvreparerende forbedringene.
  • Tidligere feilsøkingstrinn for minnet inkluderte å flytte DIMM-er som sviktet til et annet spor for å bekrefte om feilene følger DIMM-en eller forblir i DIMM-sporet. Med BIOS 2.1.x eller nyere er det første anbefalte trinnet å starte på nytt (uten å flytte DIMM-er til et annet spor). Dette gjør at de nye BIOS-forbedringene kan kjøre, noe som potensielt løser (selvreparerer) DIMM-feil uten å planlegge noen DIMM-erstatninger.
  1. Forbedringer for gjenopplæring av minne

Gjenopplæring av minnet, som skjer under oppstart (tidlig i konfigureringstrinnene for minnet), optimaliserer signaltidsberegningen og margineringen for hvert DIMM/spor for best mulig tilgang. Tidsberegning for minnesignal og margineringsegenskaper for en DIMM kan endres over tid av flere forskjellige årsaker:

  • Endringer i konfigurasjonen av serverminnet
  • BIOS-endringer (minnereferansekode – MRC)
  • Ulike driftstemperaturer for serveren eller DIMM
  • Den generelle alderen til DIMM-en

Når BIOS-oppdateringer eller minnekonfigurasjonsendringer ble oppdaget tidligere, førte det til ny opplæring av minnet under den etterfølgende oppstarten. Fra og med BIOS 2.1. x ble ytterligere «utløsere» for minnefeil som kunne korrigeres og ikke korrigeres, lagt til for planlagt ny opplæring:

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

Hvis noen av disse feilene loggføres i SEL- eller livssyklusloggene, fører det til at det planlegges gjenopplæring av minnet ved neste omstart (varm eller kald). BIOS tvinger automatisk en kald omstart uansett hva som startes.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."

 

Denne flerbitsfeilen kan føre til at serveren starter på nytt på grunn av en uopprettelig feil hvis operativsystemet ikke klarer å håndtere den feilen. Minnegjenopplæring skjer automatisk under denne oppstarten. Hvis flerbitfeilen oppstår på en ikke-kritisk minneplassering som dette operativsystemet kan håndtere, må en omstart planlegges.

Gjenopplæring av minne under POST kan selvreparere den sviktende DIMM-en og tilhørende spor ved å optimere signaltidsberegningen og margineringen. En DIMM-erstatning for disse feilene er ikke nødvendig, med mindre ny opplæring av minnet mislykkes (UEFI0106) under oppstart eller de samme feilene vedvarer.
 

  1. Post Package Repair (PPR)

Den andre "selvhelbredende" minneforbedringen er PPR. PPR reparerer en sviktende minneplassering ved å deaktivere plasseringen eller adressen i maskinvarelaget, slik at en ledig minnerad kan brukes i stedet. Det nøyaktige antallet ledige minnerader avhenger av DRAM-enheten og DIMM-størrelsen.

Tidligere var denne funksjonen begrenset til produksjonsprosessen. I likhet med forbedringene for gjenopplæring av minnet som er nevnt tidligere, er det visse korrigerbare minnefeil som fører til at PPR planlegges på et bestemt DIMM-spor for neste omstart (varm eller kald). BIOS tvinger automatisk en kald omstart uansett hva som startes. Ettersom PPR-operasjonen er planlagt for et bestemt DIMM-spor, må du IKKE endre DIMM-sporplasseringene før PPR-operasjonen er kjørt. Eksempler på feil:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

Alle disse hendelsene i loggene fører til at PPR planlegges for neste omstart (varm eller kald) tidlig i konfigureringen av minnet

Merk: En meldings-ID-MEM8000 (korrigerbar minnefeillogging deaktivert for en minneenhet på plassering DIMM_XX.), uten en tilsvarende MEM0005/MEM0701/MEM0702 på samme DIMM-plassering, fører ikke til at en PPR planlegges for neste omstart.

Se oppdatering 10. juli 2020 for endringer for MEM8000-hendelsen og oppdatert versjon 1.1 og nyere hvitbok.

Etter omstarten må du kontrollere at PPR-operasjonen var vellykket. Et eksempel på en vellykket PPR-operasjon ligner på:

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."


Det er ikke nødvendig med en DIMM-erstatning for disse korrigerbare minnefeilene med mindre PPR fungerer. Et eksempel på en mislykket kritisk PPR-melding er:

UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."

 

En nylig publisert rapport (versjon 1.0) som beskriver minnerelaterte funksjoner for Dell PowerEdge-server (RAS) er nå tilgjengelig, og beskriver de ulike RAS-funksjonene og -egenskapene som er tilgjengelige på PowerEdge-serverne – minnefeil og Dell PowerEdge YX4X-serverminne-RAS-funksjoner.

 

Oppdatert April 24, 2020

Dell fortsetter å forbedre våre "selvhelbredende"-evner. Følgende del inneholder oppdateringer og forbedringer som er knyttet til de ulike BIOS-versjonene.

BIOS 2.1.x – første artikkelpublisering av selvreparasjonsfunksjonene som er tilgjengelige fra og med BIOS 2.1.6 og nyere, inkludert eksempelfeilmeldinger og anbefalte handlinger.

BIOS 2.4.x og nyere endringer (desember 2019)

  • MEM0702 (Korrigerbar feilfrekvens overskredet...) – meldingen er oppdatert fra en kritisk til advarsel. Med anbefalte handlinger oppdatert for å starte serveren på nytt slik at "selvreparasjon" kan utføres – for eksempel Post Package Repair.
    • Desember 2019 eller nyere iDRAC installeres også for å få den oppdaterte meldingen
    • Anbefalt handling: Start serveren på nytt for å tillate PPR å kjøre
  • MEM9060 – Meldingsbeskrivelsen er oppdatert for å angi at selvreparasjon er fullført

BIOS 2.5.x og nyere endringer (februar 2020)

  • BIOS-alternativet "Korrigerbar feillogging" ble lagt til for å tillate kunder å deaktivere all livssyklus- eller SEL-logging relatert til korrigerbare feil. Alle funksjonene for "selvreparasjon" fortsetter å fungere – PPR og gjenopplæring av minne er for eksempel fortsatt planlagt og kjører under neste omstart (tidlig i prosessen med å konfigurere minnet).
  • Tillegg av MEM08xx-feil for RDIMM-er og LRDIMM-er som erstatter eksisterende feilmeldinger og handlinger. Eksisterende feilmeldinger brukes fortsatt for plattformer som ikke støtter funksjonene for selvreparasjon.
    • Februar 2020 eller nyere iDRAC kreves for å logge de nye meldingene.
Merk: Uten den oppdaterte iDRAC er nye BIOS-meldinger "ukjente" i SEL- eller livssyklusloggene.
  • MEM0802 – Erstattet MEM0702 – korrigerbar feilrate er overskredet
    • Anbefalt handling: Start serveren på nytt slik at PPR kan kjøre. Bekreft at PPR var vellykket (MEM0802)
  • MEM0804 – Erstattet MEM9060 som indikerer at PPR var vellykket. Inkluderer nå plassering av DIMM-spor som kjørte PPR
    • Anbefalt handling: Denne hendelsen indikerer at "selvreparasjon" oppstod. Ingen DIMM-erstatning er nødvendig.
  • MEM0805 – Erstattet UEFI0278 som indikerer at PPR mislyktes
    • Anbefalt handling: Bytt ut DIMM som svikter

Oppdatert juli 10, 2020

BIOS 2.7.x og nyere endringer (blokk-BIOS fra juli 2020 – målrettet i midten av juli for nettpublisering)

  • MEM8000 (korrigerbar feillogging deaktivert) – Fra og med BIOS ~2.0.x har Dell-teknikerne gjort en BIOS-endring for å forbedre antallet korrigerbare feiloppdaginger som kan påvirke ytelsen. Denne endringen resulterte i en økning i MEM8000 hendelser som ikke var underbygget fra resultater fra DIMM-feilanalyse. Fra og med BIOS 2.7.x er det to endringer relatert til MEM8000. Den første er at signalisering av den MEM8000 hendelsen er endret. Deretter planlegger BIOS selvreparasjon (PPR) for neste omstart. iDRAC-meldinger er ennå ikke oppdatert for å gjenspeile de nye handlingene.
    • Anbefalt handling: Start serveren på nytt for å tillate selvreparasjon/PPR å kjøre. Bekreft at PPR var vellykket (MEM0804).
  • MEM0001 (feil som ikke kan rettes opp) – Resulterer i selvreparasjon (PPR) som skal planlegges til neste omstart. iDRAC-meldinger er ennå ikke oppdatert for å gjenspeile de nye handlingene.
    • Anbefalt handling: Ingen nødvendig hvis MEM0001 er knyttet til en kritisk side som operativsystemet ikke kan gjenopprette – Det er fortsatt en uopprettelig feil som fører til omstart. Hvis MEM0001 er knyttet til en ikke-kritisk side som operativsystemet kan gjenopprettes fra, må det planlegges en omstart før all selvreparasjon (PPR) skal utføres. Bekreft at PPR var vellykket (MEM0804).

OPPDATERT Januar 13, 2021

BIOS 2.8.2 og nyere endringer (blokk-BIOS fra september 2020)

  • MEM9072 (feil som ikke kan rettes opp i minnepatruljeskrubbprosessen – siden er ikke brukt eller i bruk) – resulterer i selvreparasjon (PPR) som skal planlegges til neste omstart. iDRAC-meldinger er ennå ikke oppdatert for å gjenspeile de nye handlingene.
    • Anbefalt handling: Planlegg en omstart snart. Hvis du forsinker omstarten, kan det føre til at siden blir brukt, noe som resulterer i en MEM0001 feil som kan føre til omstart. Selvreparasjon av minne (PPR) kjører under omstarten. Bekreft at PPR var vellykket (MEM0804).
Merk: Den nyeste versjonen av teknisk hvitbok (versjon 1.3 - utstedelsesdato 20. november 2020) finnes på:  
https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdfFor innhold for Intel Xeon E og AMD EPYC kan du fortsette å referere til den opprinnelige tekniske rapporten (versjon 1.0) som finnes på: RAS-rapport for PowerEdge YX4X-serverminne v1.0 (dell.com)

Ytterligere RAS-funksjonsforbedringer blir evaluert med tanke på å bli inkludert i fremtidige BIOS-oppdateringer.

 
Merk: Hvis du vil ha detaljert beskrivelse og anbefalte handlinger for bestemte feilkodemeldinger, kan du se følgende kobling: Slå opp (dell.com). Siden feilkoder (for eksempel MEM0001) gjelder for flere generasjoner av servere og plattformer, kan det hende at de anbefalte handlingene ikke er gjeldende for den bestemte BIOS-versjonen. De nye feilkodene som er lagt til (for eksempel MEM0802, MEM0804, MEM0805 og så videre), gjelder bare for servere med skalerbare Intel Xeon-prosessorer (første eller andre generasjon).

 

Denne artikkelen oppdateres etter hvert som ny informasjon blir tilgjengelig.


Nedlastinger og drivere: Drivere og nedlastinger

Affected Products

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R240, OEMR R250 , OEMR XE R250, OEMR R260, OEMR XE R260, OEMR R340, OEMR R350, OEMR XE R350, OEMR R360, OEMR XE R360, OEMR R440, PowerEdge XR2, OEMR R450, OEMR R540, OEMR R550, OEMR R5500, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R660, OEMR XL R660, OEMR R660xs, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R760, OEMR R760xa, OEMR R760XD2, OEMR XL R760, OEMR R760xs, OEMR R840, OEMR R860, OEMR R940, OEMR R940xa, OEMR R960, OEMR T140, OEMR T150, OEMR T340, OEMR T350, OEMR T360, OEMR T440, OEMR T550, OEMR T560, OEMR T640, OEMR XL T640, OEMR XL R240, OEMR XL R340, OEMR XL R660xs, OEMR XR11, OEMR XR12, OEMR XR4000r, OEMR XR4000w, OEMR XR4510c, OEMR XR4520c, OEMR XR5610, OEMR XR7620, OEMR XR8610t, OEMR XR8620t, Poweredge C4140, PowerEdge C6420, PowerEdge C6520, PowerEdge C6525, PowerEdge C6615, PowerEdge C6620, PowerEdge FC640, PowerEdge HS5610, PowerEdge HS5620, PowerEdge M640, PowerEdge MX740C, PowerEdge MX750c, PowerEdge MX760c, PowerEdge MX840C, PowerEdge R240, PowerEdge R250, PowerEdge R260, PowerEdge R340, PowerEdge R350, PowerEdge R360, PowerEdge R440, PowerEdge R450, PowerEdge R540, PowerEdge R550, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R660, PowerEdge R660xs, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R760, PowerEdge R760XA, PowerEdge R760xd2, PowerEdge R760xs, PowerEdge R840, PowerEdge R860, PowerEdge R940, PowerEdge R940xa, PowerEdge R960, PowerEdge T140, PowerEdge T150, PowerEdge T160, PowerEdge T340, PowerEdge T350, PowerEdge T360, PowerEdge T440, PowerEdge T550, PowerEdge T560, PowerEdge T640, PowerEdge XE2420, PowerEdge XE7100, PowerEdge XE7420, PowerEdge XE7440, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680, PowerEdge XE9680L, PowerEdge XR11, PowerEdge XR12, PowerEdge XR4000r, PowerEdge XR4000w, PowerEdge XR4510c, PowerEdge XR4520c, PowerEdge XR5610, PowerEdge XR7620, PowerEdge XR8610t, PowerEdge XR8620t, PowerFlex appliance R650, PowerFlex appliance R660, Powerflex appliance R750, PowerFlex appliance R760, PowerFlex custom node R650, PowerFlex custom node R660, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R860, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN C6420 Ready Node, Dell EMC vSAN MX740c Ready Node, Dell EMC vSAN MX750c Ready Node, Dell vSAN Ready Node MX760c, Dell EMC vSAN R440 Ready Node, Dell EMC vSAN R640 Ready Node, Dell EMC vSAN R650 Ready Node, vSAN Ready Node R660, Dell EMC vSAN R740 Ready Node, Dell EMC vSAN R740xd Ready Node, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R760 Ready Node, Dell EMC vSAN R840 Ready Node, Dell EMC vSAN T350 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...

Products

PowerFlex rack, VxFlex Ready Nodes, PowerFlex Appliance, PowerFlex custom node, ScaleIO, PowerFlex appliance Intelligent Catalog Software, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex custom node, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R660, PowerFlex custom node R6625, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R7625, PowerFlex rack connectivity, PowerFlex rack HW, PowerFlex rack RCM Software, PowerFlex Software, VxFlex Ready Node, VxFlex Ready Node R640, VxFlex Ready Node R740xd, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...
Article Properties
Article Number: 000053203
Article Type: Solution
Last Modified: 25 Nov 2025
Version:  26
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.