Gå vidare till huvudinnehållet
  • Lägg beställningar snabbt och enkelt
  • Visa beställningar och kontrollera leveransstatus
  • Skapa och kom åt en lista över dina produkter
  • Hantera dina webbplatser, produkter och kontakter på produktnivå från Dell EMC med hjälp av företagsadministration.

Vad är DDR4 självkorrigering på Dell PowerEdge-servrar med skalbara Intel Xeon-processorer

Sammanfattning: Korrigerbara och icke-korrigerbara minnesfel på PowerEdge-servern med DDR4 och ändringar av felsökningsstegen

Den här artikeln kan ha översatts automatiskt. Om du har feedback angående kvaliteten kan du meddela oss via formuläret längst ned på den här sidan.

Artikelns innehåll


Symptom

Vad är DDR4 "självläkande" på Dell PowerEdge-servrar med Intel Xeon skalbara processorer (första eller andra generationen) med BIOS-version 2.1.x eller senare?

Hur ändrar dessa "självläkande" DDR4-funktioner (BIOS-förbättringar) rekommenderade åtgärder från kund och teknisk support när minnesfel uppstår på en server?

Vilka är de "självkorrigerande" förbättringarna i de nyare BIOS-versionerna?

Orsak

Det finns pågående förbättringar och förbättringar av Dell PowerEdge BIOS för att förbättra minneshändelsemeddelanden, felhantering och "självläkning" som sker vid en omstart av en server. Detta förhindrar behovet av ett schemalagt underhållsfönster eller närvaro på plats för att byta ut en DDR4-minnes-DIMM som loggade felhändelser.

Upplösning

Det finns två huvudsakliga minnesrelaterade "självläkande" BIOS-förbättringar som har implementerats för PowerEdge-servrar med DDR4 som kör BIOS-version 2.1.x och senare. Dessa förbättringar ändrar de rekommenderade stegen eller åtgärderna som ska vidtas om minneshändelser inträffar och loggas i livscykelloggen.

Obs!
  • Om du stöter på minnesfel med DDR4 i BIOS 2.0 eller tidigare ska du uppdatera BIOS till den senaste revisionen som innehåller många självåterställande minnesfunktioner och pågående förbättringar. Vi uppmuntrar alltid kunder att uppdatera till den senaste tillgängliga BIOS-versionen (och fast iDRAC-programvara) så att de kan dra nytta av de senaste självåterställande förbättringarna.
  • Tidigare felsökningssteg för minne omfattade att flytta felaktiga DIMM-moduler till en annan kortplats för att bekräfta om felen följer DIMM-kortet eller stannar kvar på DIMM-kortplatsen. Med BIOS 2.1.x eller senare är det första rekommenderade steget att starta om (utan att flytta DIMM-moduler till en annan kortplats). Det gör att de nya BIOS-förbättringarna kan köras, vilket kan lösa (självåtgärda) DIMM-fel utan att schemalägga några DIMM-byten.

1. Förbättringar av återinlärning

Återinlärning som sker under start (tidigt i stegen för att konfigurera minne) optimerar signaltiden och margineringen för varje DIMM/kortplats för bästa åtkomst. Minnessignalens tidpunkt och margineringsegenskaperna hos en DIMM kan ändras med tiden av flera olika orsaker:

  • Ändringar i serverns minneskonfiguration
  • BIOS-ändringar (minnesreferenskod – MRC)
  • Olika driftstemperaturer för servern eller DIMM-modulen
  • Allmän ålder på DIMM

Tidigare resulterade BIOS-uppdateringar eller minneskonfigurationer som upptäcktes i att en återinlärning uppstod vid efterföljande start. Genom att starta med BIOS 2.1.x har ytterligare korrigerbara och icke-korrigerbara utlösare för minnesfel lagts till för schemalagd återinlärning:

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
 

Alla dessa fel som loggas i SEL-/livscykelloggarna resulterar i att återinlärningen schemaläggs för nästa omstart (varm eller kall). BIOS tvingar automatiskt fram en kall omstart oavsett vad som startas.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
 

Det här flerbitsfelet kan leda till att servern startas om på grund av ett allvarligt fel om operativsystemet inte kan hantera det felet. En återinlärning sker automatiskt under starten. Om flerbitarsfelet uppstår på en icke-kritisk minnesplats som operativsystemet kan hantera måste en omstart schemaläggas.

Återinlärning under POST kan "självläka" felaktig DIMM och tillhörande kortplats genom att optimera signaltiden och margineringen. Det är inte nödvändigt att byta DIMM på grund av dessa fel såvida inte återinlärningen misslyckas (UEFI0106) under start eller samma fel inträffar igen.
 

2. Reparation efter paket (PPR)

Den andra "självläkande" minnesförbättringen är PPR. PPR reparerar en felaktig minnesplats genom att inaktivera platsen eller adressen i hårdvarulagret, vilket gör att en extra minnesrad kan användas i stället. Exakt antal tillgängliga rader med extra minne beror på DRAM-enheten och DIMM-storleken.

Tidigare var den här funktionen begränsad till tillverkningsprocessen. Precis som med förbättringarna av återinlärning som nämnts tidigare finns det vissa korrigerbara minnesfel som leder till att PPR schemaläggs på en specifik DIMM-kortplats för nästa omstart (varm eller kall). BIOS tvingar automatiskt fram en kall omstart oavsett vad som startas. Eftersom PPR-åtgärden schemaläggs för en viss DIMM-kortplats ska du INTEbyta DIMM-kortplats förrän PPR-åtgärden slutförts. Exempel på fel är:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
 

Alla dessa händelser i loggarna resulterar i att PPR schemaläggs för nästa omstart (varm eller kall) tidigt i minneskonfigurationfasen.

Obs! Ett meddelande-ID MEM8000 (korrigerbar minnesfelsloggning inaktiverad för en minnesenhet på plats DIMM_XX.), utan motsvarande MEM0005/MEM0701/MEM0702 på samma DIMM-plats, leder inte till att en PPR schemaläggs för nästa omstart.

Se Uppdatering 10 juli 2020 för ändringar för MEM8000-händelsen och uppdaterad version 1.1 och nyare informationsdokument.

Efter omstart ska du kontrollera att PPR-åtgärden slutfördes som den ska. Ett exempel på en lyckad PPR-operation ser ut ungefär så här:

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."

En DIMM-ersättning för dessa korrigerbara minnesfel är inte nödvändig om inte PPR-åtgärden genomförs. Ett exempel på ett misslyckat kritiskt PPR-meddelande är:
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
 

Ett nyligen publicerat informationsdokument (version 1.0) som beskriver Dell PowerEdge-servrarnas minnesrelaterade funktioner för pålitlighet, tillgänglighet och servicemöjligheter (RAS) finns nu tillgängligt med en beskrivning av de olika RAS-funktionerna och möjligheterna som är tillgängliga på PowerEdge-servrarna – minnesfel och Dell EMC PowerEdge YX4X serverminnes-RAS-funktioner.

Mer information om korrigerbara händelser med feltröskeln finns i 14G Intel- och 15G Intel/AMD PowerEdge-servrar: DDR4-minne: hantera korrigerbara händelser vid tröskelvärdet för fel.

Uppdaterad 24 april 2020

Dell fortsätter att förbättra våra "självläkande" funktioner. I följande avsnitt beskrivs de uppdateringar och förbättringar som är kopplade till de olika BIOS-versionerna.

BIOS 2.1.x – Inledande publicering av de "självåterställande" funktionerna som är tillgängliga från och med BIOS 2.1.6 och senare, inklusive exempel på felmeddelanden och rekommenderade åtgärder.

BIOS 2.4.x och senare ändringar (december 2019)

  • MEM0702 (Correctable error rate exceeded...) – Meddelandet har uppdaterats från kritisk till varning. Med rekommenderade åtgärder uppdaterade för att starta om servern så att "självläkning" kan ske – till exempel efter paketreparation.
    • iDRAC från december 2019 eller senare ska också installeras för att få det uppdaterade meddelandet
    • Rekommenderad åtgärd: Starta om servern så att PPR kan köras
  • MEM9060 – Meddelandebeskrivningen har uppdaterats för att indikera att "självläkning" har slutförts

BIOS 2.5.x och senare ändringar (februari 2020)

  • Ett BIOS-alternativ för "korrigerbar felloggning" har lagts till så att kunderna kan inaktivera all livscykel-/SEL-loggning relaterad till korrigerbara fel. Alla "självåterställande" funktioner fortsätter att fungera – till exempel är PPR och återinlärning fortfarande schemalagda och körs under nästa omstart (tidigt i processen för att konfigurera minne).
  • Tillägg av MEM08xx-fel för RDIMM- och LRDIMM-moduler som ersätter befintliga felmeddelanden och åtgärder. Befintliga felmeddelanden används fortfarande för plattformar som inte har stöd för funktionerna för självåterställning.
    • iDRAC från februari 2020 eller senare krävs för att de nya meddelandena ska loggas.
Obs! Utan uppdaterad iDRAC är nya BIOS-meddelanden "okända" i SEL- eller livscykelloggarna.
  • MEM0802 – Ersatt MEM0702 – korrigerbar felprocent har överskridits
    • Rekommenderad åtgärd: Starta om servern så att PPR kan köras. Bekräfta att PPR lyckades (MEM0802)
  • MEM0804 – Ersattes MEM9060 vilket indikerar att PPR lyckades. Inkluderar nu DIMM-kortplats som körde PPR
    • Rekommenderad åtgärd: Inga. Den här händelsen indikerar att "självläkning" har inträffat och att inget byte av DIMM behövs.
  • MEM0805 – Ersatt UEFI0278 vilket indikerar att PPR misslyckades
    • Rekommenderad åtgärd: Byt ut felaktig DIMM-modul

Uppdaterad 10 juli 2020

BIOS 2.7.x och nyare ändringar (juli 2020 block-BIOS – mål i mitten av juli för webbpublicering)

  • MEM8000 (korrigerbar felloggning inaktiverad) – Från och med BIOS ~2.0.x har Dell Engineering gjort en BIOS-ändring för att öka hastigheten för korrigerbar feldetektering som kan påverka prestandan. Den här ändringen resulterade i en ökning av MEM8000 händelser som inte styrktes av resultat från DIMM-felanalys. Från och med BIOS 2.7.x finns det två ändringar relaterade till MEM8000. Den första är att signaleringen av den MEM8000 händelsen har ändrats. För det andra schemalägger BIOS självläkning (PPR) för nästa omstart. iDRAC-meddelanden har ännu inte uppdaterats för att återspegla de nya åtgärderna.
    • Rekommenderad åtgärd: Starta om servern så att självläkning/PPR kan köras. Bekräfta att PPR lyckades (MEM0804).
  • MEM0001 (icke-korrigerbart fel) – Resulterar i att självåterställning (PPR) schemaläggs för nästa omstart. iDRAC-meddelanden har ännu inte uppdaterats för att återspegla de nya åtgärderna.
    • Rekommenderad åtgärd: Behövs inte om MEM0001 är associerad med en kritisk sida som operativsystemet inte kan återställa – är fortfarande ett allvarligt fel som leder till en omstart. Om MEM0001 är associerad med en icke-kritisk sida som operativsystemet kan återställa från, måste en omstart schemaläggas så att all självåterställning (PPR) ska ske. Bekräfta att PPR lyckades (MEM0804).

UPPDATERAD 13 januari 2021

BIOS 2.8.2 och nyare ändringar (september 2020 blockera BIOS)

  • MEM9072 (Okorrigerbart fel identifieras av Memory Patrol Scrub-processen – sidan är inte förbrukad eller används) – resulterar i att självläkning (PPR) schemaläggs för nästa omstart.  iDRAC-meddelanden har ännu inte uppdaterats för att återspegla de nya åtgärderna.
    • Rekommenderad åtgärd: Schemalägg en omstart snart. Om omstarten fördröjs kan det leda till att sidan förbrukas, vilket resulterar i ett MEM0001 fel som kan leda till att en omstart sker.  Självläkning av minne (PPR) körs under den omstarten. Bekräfta att PPR lyckades (MEM0804).
Obs! Den senaste versionen av informationsdokumentet Engineering (version 1.3 – utgivningsdatum 20 november 2020) finns på:
https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdfFör Intel Xeon E och AMD EPYC-innehåll fortsätter du att hänvisa till det ursprungliga tekniska informationsdokumentet (version 1.0) som finns på: Informationsdokument om RAS för PowerEdge YX4X-serverminne v1.0 (dell.com)

Det finns ytterligare RAS-funktionsförbättringar som eventuellt kommer att inkluderas i framtida BIOS-uppdateringar.

Obs! Detaljerad beskrivning och rekommenderade åtgärder för specifika felkodsmeddelanden finns på följande länk: Slå upp (dell.com). Eftersom felkoder (t.ex. MEM0001) gäller för flera generationer av servrar och plattformar kanske de rekommenderade åtgärderna inte är aktuella för den specifika BIOS-versionen. De nya felkoder som har lagts till (till exempel MEM0802, MEM0804, MEM0805 osv.) gäller endast servrar med Intel Xeon skalbara processorer (första eller andra generationen).

Den här artikeln kommer att uppdateras när ny information blir tillgänglig.

Se även: Vägledning om felsökning av minne genom växlingstestning – Felsöka minnesfel på PowerEdge-system genom växlingstestning

Nedladdningar och drivrutiner: Drivrutiner och nedladdningar | Dell USA

Artikelegenskaper


Berörd produkt
Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, OEMR R240, OEMR R340, OEMR R740xd2, OEMR T140, OEMR T340, OEMR XL R240, OEMR XL R340, PowerEdge C6420, PowerEdge FC640, PowerEdge M640, PowerEdge MX740C, PowerEdge R240 , PowerEdge R340, PowerEdge R440, PowerEdge R540, PowerEdge R640, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R940, PowerEdge T140, PowerEdge T340, PowerEdge T440, Dell EMC vSAN C6420 Ready Node ...
Produkt

VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F

Senaste publiceringsdatum

19 apr. 2024

Version

15

Artikeltyp

Solution