PowerEdge: Vad är DDR4 Självläkande med Intel Xeon skalbara processorer?

Summary: Korrigerbara och icke-korrigerbara minnesfel på PowerEdge-servern med DDR4 och ändringar av felsökningsstegen

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Vad är DDR4 "självläkande" på Dell PowerEdge-servrar med Intel Xeon skalbara processorer (första eller andra generationen) med BIOS-version 2.1.x eller senare?

Hur ändrar dessa "självläkande" DDR4-funktioner (BIOS-förbättringar) rekommenderade åtgärder från kund och teknisk support när minnesfel uppstår på en server?

Vilka är de "självkorrigerande" förbättringarna i de nyare BIOS-versionerna?

Cause

Det pågår förbättringar av Dell PowerEdge BIOS för att förbättra minneshändelsemeddelanden, felhantering och "självläkning" som sker vid omstart av en server. Detta förhindrar behovet av ett schemalagt underhållsfönster eller närvaro på plats för att byta ut en DDR4-minnes-DIMM som loggade felhändelser.

Resolution

Det finns två huvudsakliga minnesrelaterade "självläkande" BIOS-förbättringar som har implementerats för PowerEdge-servrar med DDR4 som kör BIOS-version 2.1.x och senare. Dessa förbättringar ändrar de rekommenderade stegen eller åtgärderna som ska vidtas om minneshändelser inträffar och loggas i livscykelloggen.

Obs!
  • Om du stöter på minnesfel med DDR4 i BIOS 2.0 eller tidigare ska du uppdatera BIOS till den senaste revisionen som innehåller många självåterställande minnesfunktioner och pågående förbättringar. Vi uppmuntrar alltid kunder att uppdatera till den senaste tillgängliga BIOS-versionen (och fast iDRAC-programvara) så att de kan dra nytta av de senaste självåterställande förbättringarna.
  • Tidigare felsökningssteg för minne omfattade att flytta felaktiga DIMM-moduler till en annan kortplats för att bekräfta om felen följer DIMM-kortet eller stannar kvar på DIMM-kortplatsen. Med BIOS 2.1.x eller senare är det första rekommenderade steget att starta om (utan att flytta DIMM-moduler till en annan kortplats). Det gör att de nya BIOS-förbättringarna kan köras, vilket kan lösa (självåtgärda) DIMM-fel utan att schemalägga några DIMM-byten.
  1. Förbättringar av återinlärning

Återinlärning som sker under start (tidigt i stegen för att konfigurera minne) optimerar signaltiden och margineringen för varje DIMM/kortplats för bästa åtkomst. Minnessignalens tidpunkt och margineringsegenskaperna hos en DIMM kan ändras med tiden av flera olika orsaker:

  • Ändringar i serverns minneskonfiguration
  • BIOS-ändringar (minnesreferenskod – MRC)
  • Olika driftstemperaturer för servern eller DIMM-modulen
  • Allmän ålder på DIMM

Tidigare resulterade BIOS-uppdateringar eller minneskonfigurationer som upptäcktes i att en återinlärning uppstod vid efterföljande start. Genom att starta med BIOS 2.1.x har ytterligare korrigerbara och icke-korrigerbara utlösare för minnesfel lagts till för schemalagd återinlärning:

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

Alla dessa fel som loggas i SEL- eller livscykelloggarna resulterar i att återinlärningen schemaläggs för nästa omstart (varm eller kall). BIOS tvingar automatiskt fram en kall omstart oavsett vad som startas.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."

 

Det här flerbitsfelet kan leda till att servern startas om på grund av ett allvarligt fel om operativsystemet inte kan hantera det felet. En återinlärning sker automatiskt under starten. Om flerbitarsfelet uppstår på en icke-kritisk minnesplats som operativsystemet kan hantera måste en omstart schemaläggas.

Återinlärning under POST kan "självläka" felaktig DIMM och tillhörande kortplats genom att optimera signaltiden och margineringen. Det är inte nödvändigt att byta DIMM på grund av dessa fel såvida inte återinlärningen misslyckas (UEFI0106) under start eller samma fel inträffar igen.
 

  1. Reparation efter paket (PPR)

Den andra "självläkande" minnesförbättringen är PPR. PPR reparerar en felaktig minnesplats genom att inaktivera platsen eller adressen i hårdvarulagret, vilket gör att en extra minnesrad kan användas i stället. Exakt antal tillgängliga rader med extra minne beror på DRAM-enheten och DIMM-storleken.

Tidigare var den här funktionen begränsad till tillverkningsprocessen. Precis som med förbättringarna av återinlärning som nämnts tidigare finns det vissa korrigerbara minnesfel som leder till att PPR schemaläggs på en specifik DIMM-kortplats för nästa omstart (varm eller kall). BIOS tvingar automatiskt fram en kall omstart oavsett vad som startas. Eftersom PPR-åtgärden schemaläggs för en viss DIMM-kortplats ska du INTEbyta DIMM-kortplats förrän PPR-åtgärden slutförts. Exempel på fel är:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

Alla dessa händelser i loggarna resulterar i att PPR schemaläggs för nästa omstart (varm eller kall) tidigt i konfigureringsfasen

Obs! Ett meddelande-ID MEM8000 (korrigerbar minnesfelsloggning inaktiverad för en minnesenhet på plats DIMM_XX.), utan motsvarande MEM0005/MEM0701/MEM0702 på samma DIMM-plats, leder inte till att en PPR schemaläggs för nästa omstart.

Se Uppdatering 10 juli 2020 för ändringar för MEM8000-händelsen och uppdaterad version 1.1 och nyare informationsdokument.

Efter omstart ska du kontrollera att PPR-åtgärden slutfördes som den ska. Ett exempel på en lyckad PPR-operation ser ut ungefär så här:

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."


En DIMM-ersättning för dessa korrigerbara minnesfel är inte nödvändig om inte PPR-åtgärden genomförs. Ett exempel på ett misslyckat kritiskt PPR-meddelande är:

UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."

 

Ett nyligen publicerat informationsdokument (version 1.0) som beskriver Dell PowerEdge-servrarnas minnesrelaterade funktioner för pålitlighet, tillgänglighet och servicemöjligheter (RAS) finns nu tillgängligt med en beskrivning av de olika RAS-funktionerna som är tillgängliga på PowerEdge-servrarna – minnesfel och Dell PowerEdge YX4X serverminnets RAS-funktioner.

 

Uppdaterad 24 april 2020

Dell fortsätter att förbättra våra "självläkande" funktioner. I följande avsnitt beskrivs de uppdateringar och förbättringar som är kopplade till de olika BIOS-versionerna.

BIOS 2.1.x – Inledande publicering av de "självåterställande" funktionerna som är tillgängliga från och med BIOS 2.1.6 och senare, inklusive exempel på felmeddelanden och rekommenderade åtgärder.

BIOS 2.4.x och senare ändringar (december 2019)

  • MEM0702 (Correctable error rate exceeded...) – Meddelandet har uppdaterats från kritisk till varning. Med rekommenderade åtgärder uppdaterade för att starta om servern så att "självläkning" kan ske – till exempel efter paketreparation.
    • iDRAC från december 2019 eller senare ska också installeras för att få det uppdaterade meddelandet
    • Rekommenderad åtgärd: Starta om servern så att PPR kan köras
  • MEM9060 – Meddelandebeskrivningen har uppdaterats för att indikera att "självläkning" har slutförts

BIOS 2.5.x och senare ändringar (februari 2020)

  • Ett BIOS-alternativ för "korrigerbar felloggning" har lagts till så att kunderna kan inaktivera all livscykel- eller SEL-loggning relaterad till korrigerbara fel. Alla "självåterställande" funktioner fortsätter att fungera – till exempel är PPR och återinlärning fortfarande schemalagda och körs under nästa omstart (tidigt i processen för att konfigurera minne).
  • Tillägg av MEM08xx-fel för RDIMM- och LRDIMM-moduler som ersätter befintliga felmeddelanden och åtgärder. Befintliga felmeddelanden används fortfarande för plattformar som inte har stöd för funktionerna för självåterställning.
    • iDRAC från februari 2020 eller senare krävs för att de nya meddelandena ska loggas.
Obs! Utan uppdaterad iDRAC är nya BIOS-meddelanden "okända" i SEL- eller livscykelloggarna.
  • MEM0802 – Ersatt MEM0702 – korrigerbar felprocent har överskridits
    • Rekommenderad åtgärd: Starta om servern så att PPR kan köras. Bekräfta att PPR lyckades (MEM0802)
  • MEM0804 – Ersattes MEM9060 vilket indikerar att PPR lyckades. Inkluderar nu DIMM-kortplats som körde PPR
    • Rekommenderad åtgärd: Inga, den här händelsen indikerar att "självläkning" har inträffat, inget byte av DIMM behövs.
  • MEM0805 – Ersatt UEFI0278 vilket indikerar att PPR misslyckades
    • Rekommenderad åtgärd: Byt ut felaktig DIMM-modul

Uppdaterad 10 juli 2020

BIOS 2.7.x och nyare ändringar (juli 2020 block-BIOS – mål i mitten av juli för webbpublicering)

  • MEM8000 (korrigerbar felloggning inaktiverad) – Från och med BIOS ~2.0.x har Dell Engineering gjort en BIOS-ändring för att öka hastigheten för korrigerbar feldetektering som kan påverka prestandan. Den här ändringen resulterade i en ökning av MEM8000 händelser som inte styrktes från resultaten från DIMM-felanalysen. Från och med BIOS 2.7.x finns det två ändringar relaterade till MEM8000. Den första är att signaleringen av den MEM8000 händelsen har ändrats. För det andra schemalägger BIOS självläkning (PPR) för nästa omstart. iDRAC-meddelanden har ännu inte uppdaterats för att återspegla de nya åtgärderna.
    • Rekommenderad åtgärd: Starta om servern så att självläkning/PPR kan köras. Bekräfta att PPR lyckades (MEM0804).
  • MEM0001 (icke-korrigerbart fel) – Resulterar i att självåterställning (PPR) schemaläggs för nästa omstart. iDRAC-meddelanden har ännu inte uppdaterats för att återspegla de nya åtgärderna.
    • Rekommenderad åtgärd: Behövs inte om MEM0001 är associerad med en kritisk sida som operativsystemet inte kan återställa – är fortfarande ett allvarligt fel som leder till en omstart. Om MEM0001 är associerad med en icke-kritisk sida som operativsystemet kan återställa från, måste en omstart schemaläggas så att all självåterställning (PPR) ska ske. Bekräfta att PPR lyckades (MEM0804).

UPPDATERAD 13 januari 2021

BIOS 2.8.2 och nyare ändringar (september 2020 blockera BIOS)

  • MEM9072 (Okorrigerbart fel identifieras av Memory Patrol Scrub-processen – sidan är inte förbrukad eller används) – resulterar i att självläkning (PPR) schemaläggs för nästa omstart. iDRAC-meddelanden har ännu inte uppdaterats för att återspegla de nya åtgärderna.
    • Rekommenderad åtgärd: Schemalägg en omstart snart. Om omstarten fördröjs kan det leda till att sidan förbrukas, vilket resulterar i ett MEM0001 fel som kan leda till att en omstart sker. Självläkning av minne (PPR) körs under den omstarten. Bekräfta att PPR lyckades (MEM0804).
Obs! Den senaste versionen av informationsdokumentet Engineering (version 1.3 – utgivningsdatum 20 november 2020) finns på:  
https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdfFör Intel Xeon E och AMD EPYC-innehåll fortsätter du att hänvisa till det ursprungliga tekniska informationsdokumentet (version 1.0) som finns på: Informationsdokument om RAS för PowerEdge YX4X-serverminne v1.0 (dell.com)

Det finns ytterligare RAS-funktionsförbättringar som eventuellt kommer att inkluderas i framtida BIOS-uppdateringar.

 
Obs! Detaljerad beskrivning och rekommenderade åtgärder för specifika felkodsmeddelanden finns på följande länk: Slå upp (dell.com). Eftersom felkoder (t.ex. MEM0001) gäller för flera generationer av servrar och plattformar kanske de rekommenderade åtgärderna inte är aktuella för den specifika BIOS-versionen. De nya felkoderna som har lagts till (till exempel MEM0802, MEM0804, MEM0805 och så vidare) gäller endast servrar med Intel Xeon skalbara processorer (första eller andra generationen).

 

Den här artikeln uppdateras när ny information blir tillgänglig.


Nedladdningar och drivrutiner: Drivrutiner och hämtningsbara filer

Affected Products

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R240, OEMR R250 , OEMR XE R250, OEMR R260, OEMR XE R260, OEMR R340, OEMR R350, OEMR XE R350, OEMR R360, OEMR XE R360, OEMR R440, PowerEdge XR2, OEMR R450, OEMR R540, OEMR R550, OEMR R5500, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R660, OEMR XL R660, OEMR R660xs, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R760, OEMR R760xa, OEMR R760XD2, OEMR XL R760, OEMR R760xs, OEMR R840, OEMR R860, OEMR R940, OEMR R940xa, OEMR R960, OEMR T140, OEMR T150, OEMR T340, OEMR T350, OEMR T360, OEMR T440, OEMR T550, OEMR T560, OEMR T640, OEMR XL T640, OEMR XL R240, OEMR XL R340, OEMR XL R660xs, OEMR XR11, OEMR XR12, OEMR XR4000r, OEMR XR4000w, OEMR XR4510c, OEMR XR4520c, OEMR XR5610, OEMR XR7620, OEMR XR8610t, OEMR XR8620t, Poweredge C4140, PowerEdge C6420, PowerEdge C6520, PowerEdge C6525, PowerEdge C6615, PowerEdge C6620, PowerEdge FC640, PowerEdge HS5610, PowerEdge HS5620, PowerEdge M640, PowerEdge MX740C, PowerEdge MX750c, PowerEdge MX760c, PowerEdge MX840C, PowerEdge R240, PowerEdge R250, PowerEdge R260, PowerEdge R340, PowerEdge R350, PowerEdge R360, PowerEdge R440, PowerEdge R450, PowerEdge R540, PowerEdge R550, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R660, PowerEdge R660xs, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R760, PowerEdge R760XA, PowerEdge R760xd2, PowerEdge R760xs, PowerEdge R840, PowerEdge R860, PowerEdge R940, PowerEdge R940xa, PowerEdge R960, PowerEdge T140, PowerEdge T150, PowerEdge T160, PowerEdge T340, PowerEdge T350, PowerEdge T360, PowerEdge T440, PowerEdge T550, PowerEdge T560, PowerEdge T640, PowerEdge XE2420, PowerEdge XE7100, PowerEdge XE7420, PowerEdge XE7440, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680, PowerEdge XE9680L, PowerEdge XR11, PowerEdge XR12, PowerEdge XR4000r, PowerEdge XR4000w, PowerEdge XR4510c, PowerEdge XR4520c, PowerEdge XR5610, PowerEdge XR7620, PowerEdge XR8610t, PowerEdge XR8620t, PowerFlex appliance R650, PowerFlex appliance R660, Powerflex appliance R750, PowerFlex appliance R760, PowerFlex custom node R650, PowerFlex custom node R660, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R860, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN C6420 Ready Node, Dell EMC vSAN MX740c Ready Node, Dell EMC vSAN MX750c Ready Node, Dell vSAN Ready Node MX760c, Dell EMC vSAN R440 Ready Node, Dell EMC vSAN R640 Ready Node, Dell EMC vSAN R650 Ready Node, vSAN Ready Node R660, Dell EMC vSAN R740 Ready Node, Dell EMC vSAN R740xd Ready Node, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R760 Ready Node, Dell EMC vSAN R840 Ready Node, Dell EMC vSAN T350 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...

Products

PowerFlex rack, VxFlex Ready Nodes, PowerFlex Appliance, PowerFlex custom node, ScaleIO, PowerFlex appliance Intelligent Catalog Software, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex custom node, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R660, PowerFlex custom node R6625, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R7625, PowerFlex rack connectivity, PowerFlex rack HW, PowerFlex rack RCM Software, PowerFlex Software, VxFlex Ready Node, VxFlex Ready Node R640, VxFlex Ready Node R740xd, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...
Article Properties
Article Number: 000053203
Article Type: Solution
Last Modified: 25 Nov 2025
Version:  26
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.