Gå vidare till huvudinnehållet
  • Lägg beställningar snabbt och enkelt
  • Visa beställningar och kontrollera leveransstatus
  • Skapa och kom åt en lista över dina produkter

Hva er DDR4-selvreparasjon på Dell PowerEdge-servere med skalerbare Intel Xeon-prosessorer?

Sammanfattning: Korrigerbare og ikke-korrigerbare minnefeil på en PowerEdge-server med DDR4 og endringer i feilsøkingstrinnene

Den här artikeln gäller för Den här artikeln gäller inte för Den här artikeln är inte kopplad till någon specifik produkt. Alla produktversioner identifieras inte i den här artikeln.

Symptom

Hva er DDR4 «selvreparasjon» på Dell PowerEdge-servere med Intel Xeon skalerbare prosessorer (første eller andre generasjon) med BIOS-versjon 2.1.x eller nyere?

Hvordan endrer disse DDR4-selvreparasjonsfunksjonene (BIOS-forbedringer) anbefalte handlinger for kunder og teknisk støtte når det oppstår minnefeil på en server?

Hva er de selvreparerende forbedringene i de nyere BIOS-versjonene?

Orsak

Det finnes kontinuerlige forbedringer og forbedringer av Dell PowerEdge BIOS for å forbedre meldinger om minnehendelser, feilhåndtering og "selvreparasjon" som oppstår når en server startes på nytt. Dette forhindrer behovet for et planlagt vedlikeholdsvindu eller tilstedeværelse på stedet for å erstatte en DDR4-minne-DIMM som logget feilhendelser.

Upplösning

Det finnes to hovedminnerelaterte, «selvreparerende» BIOS-forbedringer som ble implementert for PowerEdge-servere med DDR4 som kjører BIOS versjon 2.1.x og nyere. Disse utvidelsene endrer de anbefalte trinnene eller handlingene som skal utføres hvis minnehendelser oppstår og logges i LifeCycle-loggen.

Merk:
  • Hvis det oppstår minnefeil med DDR4 på BIOS 2.0 eller eldre, må du oppdatere BIOS til den nyeste revisjonen som inkluderer mange selvreparasjonsfunksjoner for minne og kontinuerlige forbedringer. Vi oppfordrer alltid kundene til å oppdatere til den nyeste tilgjengelige BIOS-versjonen (og iDRAC-fastvaren), slik at de kan dra nytte av de nyeste selvreparerende forbedringene.
  • Tidligere feilsøkingstrinn for minnet inkluderte å flytte DIMM-er som sviktet til et annet spor for å bekrefte om feilene følger DIMM-en eller forblir i DIMM-sporet. Med BIOS 2.1.x eller nyere er det første anbefalte trinnet å starte på nytt (uten å flytte DIMM-er til et annet spor). Dette gjør at de nye BIOS-forbedringene kan kjøre, noe som potensielt løser (selvreparerer) DIMM-feil uten å planlegge noen DIMM-erstatninger.

1. Forbedringer for gjenopplæring av minne

Gjenopplæring av minnet, som skjer under oppstart (tidlig i konfigureringstrinnene for minnet), optimaliserer signaltidsberegningen og margineringen for hvert DIMM/spor for best mulig tilgang. Tidsberegning for minnesignal og margineringsegenskaper for en DIMM kan endres over tid av flere forskjellige årsaker:

  • Endringer i konfigurasjonen av serverminnet
  • BIOS-endringer (minnereferansekode – MRC)
  • Ulike driftstemperaturer for serveren eller DIMM
  • Den generelle alderen til DIMM-en

Når BIOS-oppdateringer eller minnekonfigurasjonsendringer ble oppdaget tidligere, førte det til ny opplæring av minnet under den etterfølgende oppstarten. Fra og med BIOS 2.1. x ble ytterligere «utløsere» for minnefeil som kunne korrigeres og ikke korrigeres, lagt til for planlagt ny opplæring:

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
 

Hvis noen av disse feilene loggføres i SEL-/LifeCycle-loggene, fører det til at det planlegges gjenopplæring av minnet ved neste omstart (varm eller kald). BIOS tvinger automatisk en kald omstart uansett hva som startes.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
 

Denne flerbitsfeilen kan føre til at serveren starter på nytt på grunn av en uopprettelig feil hvis operativsystemet ikke klarer å håndtere den feilen. Minnegjenopplæring skjer automatisk under denne oppstarten. Hvis flerbitfeilen oppstår på en ikke-kritisk minneplassering som dette operativsystemet kan håndtere, må en omstart planlegges.

Gjenopplæring av minne under POST kan selvreparere den sviktende DIMM-en og tilhørende spor ved å optimere signaltidsberegningen og margineringen. En DIMM-erstatning for disse feilene er ikke nødvendig, med mindre ny opplæring av minnet mislykkes (UEFI0106) under oppstart eller de samme feilene vedvarer.
 

2. Post Package Repair (PPR)

Den andre "selvhelbredende" minneforbedringen er PPR. PPR reparerer en sviktende minneplassering ved å deaktivere plasseringen eller adressen i maskinvarelaget, slik at en ledig minnerad kan brukes i stedet. Det nøyaktige antallet ledige minnerader avhenger av DRAM-enheten og DIMM-størrelsen.

Tidligere var denne funksjonen begrenset til produksjonsprosessen. I likhet med forbedringene for gjenopplæring av minnet som er nevnt tidligere, er det visse korrigerbare minnefeil som fører til at PPR planlegges på et bestemt DIMM-spor for neste omstart (varm eller kald). BIOS tvinger automatisk en kald omstart uansett hva som startes. Ettersom PPR-operasjonen er planlagt for et bestemt DIMM-spor, må du IKKE endre DIMM-sporplasseringene før PPR-operasjonen er kjørt. Eksempler på feil:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
 

Alle disse hendelsene i loggene vil føre til at PPR planlegges for neste omstart (varm eller kald) tidlig i fasen med konfigurering av minne.

Merk: En meldings-ID-MEM8000 (korrigerbar minnefeillogging deaktivert for en minneenhet på plassering DIMM_XX.), uten en tilsvarende MEM0005/MEM0701/MEM0702 på samme DIMM-plassering, fører ikke til at en PPR planlegges for neste omstart.

Se oppdatering 10. juli 2020 for endringer for MEM8000-hendelsen og oppdatert versjon 1.1 og nyere hvitbok.

Etter omstarten må du kontrollere at PPR-operasjonen var vellykket. Et eksempel på en vellykket PPR-operasjon ligner på:

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."

Det er ikke nødvendig med en DIMM-erstatning for disse korrigerbare minnefeilene med mindre PPR fungerer. Et eksempel på en mislykket kritisk PPR-melding er:
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
 

En nylig publisert rapport (versjon 1.0) som beskriver minnerelaterte funksjoner for Dell PowerEdge-server (RAS) er nå tilgjengelig, og beskriver de ulike RAS-funksjonene og -egenskapene som er tilgjengelige på PowerEdge-servere – minnefeil og Dell EMC PowerEdge YX4X-serverminne-RAS-funksjoner.

Hvis du vil ha mer informasjon om korrigerbare feilterskelhendelser, kan du se 14G Intel- og 15G Intel/AMD PowerEdge-servere: DDR4-minne: Håndtere korrigerbare feilterskelhendelser.

Oppdatert April 24, 2020

Dell fortsetter å forbedre våre "selvhelbredende"-evner. Følgende del inneholder oppdateringer og forbedringer som er knyttet til de ulike BIOS-versjonene.

BIOS 2.1.x – første artikkelpublisering av selvreparasjonsfunksjonene som er tilgjengelige fra og med BIOS 2.1.6 og nyere, inkludert eksempelfeilmeldinger og anbefalte handlinger.

BIOS 2.4.x og nyere endringer (desember 2019)

  • MEM0702 (Korrigerbar feilfrekvens overskredet...) – meldingen er oppdatert fra en kritisk til advarsel. Med anbefalte handlinger oppdatert for å starte serveren på nytt slik at "selvreparasjon" kan utføres – for eksempel Post Package Repair.
    • Desember 2019 eller nyere iDRAC installeres også for å få den oppdaterte meldingen
    • Anbefalt handling: Start serveren på nytt for å tillate PPR å kjøre
  • MEM9060 – Meldingsbeskrivelsen er oppdatert for å angi at selvreparasjon er fullført

BIOS 2.5.x og nyere endringer (februar 2020)

  • BIOS-alternativet "Korrigerbar feillogging" ble lagt til, slik at kundene kan deaktivere all logging av livssyklus/SEL relatert til korrigerbare feil. Alle funksjonene for "selvreparasjon" fortsetter å fungere – PPR og gjenopplæring av minne er for eksempel fortsatt planlagt og kjører under neste omstart (tidlig i prosessen med å konfigurere minnet).
  • Tillegg av MEM08xx-feil for RDIMM-er og LRDIMM-er som erstatter eksisterende feilmeldinger og handlinger. Eksisterende feilmeldinger brukes fortsatt for plattformer som ikke støtter funksjonene for selvreparasjon.
    • Februar 2020 eller nyere iDRAC kreves for å logge de nye meldingene.
Merk: Uten den oppdaterte iDRAC er nye BIOS-meldinger "ukjente" i SEL- eller LifeCycle-loggene.
  • MEM0802 – Erstattet MEM0702 – korrigerbar feilrate er overskredet
    • Anbefalt handling: Start serveren på nytt slik at PPR kan kjøre. Bekreft at PPR var vellykket (MEM0802)
  • MEM0804 – Erstattet MEM9060 som indikerer at PPR var vellykket. Inkluderer nå plassering av DIMM-spor som kjørte PPR
    • Anbefalt handling: Ingen. Denne hendelsen angir at "selvhelbredelse" har oppstått. Ingen DIMM-erstatning er nødvendig.
  • MEM0805 – Erstattet UEFI0278 som indikerer at PPR mislyktes
    • Anbefalt handling: Bytt ut DIMM som svikter

Oppdatert juli 10, 2020

BIOS 2.7.x og nyere endringer (blokk-BIOS fra juli 2020 – målrettet i midten av juli for nettpublisering)

  • MEM8000 (korrigerbar feillogging deaktivert) – Fra og med BIOS ~2.0.x har Dell-teknikerne gjort en BIOS-endring for å forbedre antallet korrigerbare feiloppdaginger som kan påvirke ytelsen. Denne endringen førte til en økning i MEM8000 hendelser som ikke ble underbygget av resultatene fra DIMM-feilanalysen. Fra og med BIOS 2.7.x er det to endringer relatert til MEM8000. Den første er at signalisering av den MEM8000 hendelsen er endret. Deretter planlegger BIOS selvreparasjon (PPR) for neste omstart. iDRAC-meldinger er ennå ikke oppdatert for å gjenspeile de nye handlingene.
    • Anbefalt handling: Start serveren på nytt for å tillate selvreparasjon/PPR å kjøre. Bekreft at PPR var vellykket (MEM0804).
  • MEM0001 (feil som ikke kan rettes opp) – Resulterer i selvreparasjon (PPR) som skal planlegges til neste omstart. iDRAC-meldinger er ennå ikke oppdatert for å gjenspeile de nye handlingene.
    • Anbefalt handling: Ingen nødvendig hvis MEM0001 er knyttet til en kritisk side som operativsystemet ikke kan gjenopprette – Det er fortsatt en uopprettelig feil som fører til omstart. Hvis MEM0001 er knyttet til en ikke-kritisk side som operativsystemet kan gjenopprettes fra, må det planlegges en omstart før all selvreparasjon (PPR) skal utføres. Bekreft at PPR var vellykket (MEM0804).

OPPDATERT Januar 13, 2021

BIOS 2.8.2 og nyere endringer (blokk-BIOS fra september 2020)

  • MEM9072 (feil som ikke kan rettes opp i minnepatruljeskrubbprosessen – siden er ikke brukt eller i bruk) – resulterer i selvreparasjon (PPR) som skal planlegges til neste omstart.  iDRAC-meldinger er ennå ikke oppdatert for å gjenspeile de nye handlingene.
    • Anbefalt handling: Planlegg en omstart snart. Hvis du forsinker omstarten, kan det føre til at siden blir brukt, noe som resulterer i en MEM0001 feil som kan føre til omstart.  Selvreparasjon av minne (PPR) kjører under omstarten. Bekreft at PPR var vellykket (MEM0804).
Merk: Den nyeste versjonen av teknisk hvitbok (versjon 1.3 - utstedelsesdato 20. november 2020) finnes på:
https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdfFor innhold for Intel Xeon E og AMD EPYC kan du fortsette å referere til den opprinnelige tekniske rapporten (versjon 1.0) som finnes på: RAS-rapport for PowerEdge YX4X-serverminne v1.0 (dell.com)

Ytterligere RAS-funksjonsforbedringer blir evaluert med tanke på å bli inkludert i fremtidige BIOS-oppdateringer.

Merk: Hvis du vil ha detaljert beskrivelse og anbefalte handlinger for bestemte feilkodemeldinger, kan du se følgende kobling: Slå opp (dell.com). Siden feilkoder (for eksempel MEM0001) gjelder for flere generasjoner av servere og plattformer, kan det hende at de anbefalte handlingene ikke er gjeldende for den bestemte BIOS-versjonen. De nye feilkodene som er lagt til (for eksempel MEM0802, MEM0804, MEM0805 og så videre) gjelder bare for servere med skalerbare Intel Xeon-prosessorer (første eller andre generasjon).

Denne artikkelen vil bli oppdatert etter hvert som ny informasjon blir tilgjengelig.

Les også: Veiledning for feilsøking av minne ved byttetesting – Feilsøke minnefeil på PowerEdge-systemer ved byttetesting

Nedlastinger og drivere: Drivere og nedlastinger | Dell USA

Berörda produkter

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, OEMR R240, OEMR R340, OEMR R740xd2, OEMR T140, OEMR T340, OEMR XL R240, OEMR XL R340, PowerEdge C6420, PowerEdge FC640, PowerEdge M640, PowerEdge MX740C, PowerEdge R240 , PowerEdge R340, PowerEdge R440, PowerEdge R540, PowerEdge R640, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R940, PowerEdge T140, PowerEdge T340, PowerEdge T440, Dell EMC vSAN C6420 Ready Node ...

Produkter

VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F
Artikelegenskaper
Artikelnummer: 000053203
Artikeltyp: Solution
Senast ändrad: 19 apr. 2024
Version:  15
Få svar på dina frågor från andra Dell-användare
Supporttjänster
Kontrollera om din enhet omfattas av supporttjänster.