PowerEdge: DDR4 Zelfherstel op Dell PowerEdge servers met AMD Rome en Milan processors

Samenvatting: Uitleg over corrigeerbare geheugenfouten op AMD PowerEdge servers met DDR4-geheugen en wijzigingen in de stappen voor probleemoplossing

Dit artikel is van toepassing op Dit artikel is niet van toepassing op Dit artikel is niet gebonden aan een specifiek product. Niet alle productversies worden in dit artikel vermeld.

Symptomen

Wat is DDR4 "zelfherstel" op AMD Rome en Milan processorgebaseerde PowerEdge servers (R65xx, R75xx en C65xx)?

Ondersteunen de PowerEdge servers van de vorige generatie met AMD EPYC processors (R64xx en R74xx) dezelfde zelfherstellende mogelijkheden?

Hoe veranderen deze DDR4 "zelfherstel"-mogelijkheden (BIOS-verbeteringen) de aanbevolen acties voor klantenservice en technische support bij geheugenfouten op een server?

Oorzaak

Er zijn doorlopende verbeteringen en uitbreidingen in het Dell Technologies PowerEdge BIOS om de melding van geheugenfouten, de foutafhandeling en het "zelfherstel" bij het opnieuw opstarten van de server te verbeteren, waardoor een gepland onderhoudsvenster en aanwezigheid op locatie niet nodig zijn om een DDR4-geheugen-DIMM te vervangen die foutgebeurtenissen registreerde.

Oplossing

Er zijn twee belangrijke geheugengerelateerde 'zelfherstellende' BIOS-verbeteringen die zijn inbegrepen bij op AMD processor gebaseerde PowerEdge servers (65xx en 75xx) met DDR4-geheugen die beschikbaar zijn bij de productlancering. Deze verbeteringen wijzigen de aanbevolen stappen en acties die moeten worden uitgevoerd als er geheugenfouten optreden en worden vastgelegd in het Lifecycle-logboek.
 

Opmerking: De verbeteringen voor zelfherstel die in dit artikel worden besproken, zijn niet van toepassing op de vorige generatie op AMD gebaseerde PowerEdge servers met AMD EPYC processors. De 64xx en 74xx AMD PowerEdge servers bevatten geen van de "zelfherstellende" verbeteringen die in dit artikel worden beschreven. Hertraining van het geheugen vindt alleen plaats wanneer wijzigingen in de geheugenconfiguratie van de server worden gedetecteerd. In versie 1.0 van de technische whitepaper worden enkele RAS-functies beschreven die beschikbaar zijn voor AMD EPYC processors: - PowerEdge YX4X servergeheugen RAS-whitepaper v1.0 (dell.com)

 

Opmerking: De huidige stappen voor probleemoplossing in het geheugen omvatten het verplaatsen van defecte DIMM's naar een ander slot om te bevestigen of de fouten de DIMM volgen of bij de DIMM-slot blijven.

Bij AMD PowerEdge servers in Rome en Milaan is de eerste aanbevolen stap opnieuw opstarten of opnieuw opstarten (zonder DIMM's naar een ander slot te verplaatsen). Hierdoor kunnen de nieuwe BIOS-verbeteringen worden uitgevoerd, waardoor de DIMM-fouten mogelijk worden opgelost (zelfherstellend) zonder dat DIMM-vervangingen nodig zijn.

We moedigen klanten altijd aan om bij te werken naar de nieuwste beschikbare BIOS-release (en iDRAC-firmware), zodat ze kunnen profiteren van de nieuwste verbeteringen voor zelfherstel.


1. Verbeteringen in hertraining van geheugen - De hertraining van het geheugen, die plaatsvindt tijdens het opstarten, optimaliseert de timing of margebepaling van het signaal voor elke DIMM en sleuf voor de beste toegang. Timing-kenmerken van een DIMM kunnen om verschillende redenen veranderen:

  • Wijzigingen in de geheugenconfiguratie van de server
  • BIOS-wijzigingen
  • Verschillende bedrijfstemperaturen van de server of DIMM
  • De algemene leeftijd van de DIMM

De huidige AMD PowerEdge servers in Rome en Milaan (65xx en 75xx) voeren bij elke opstart een hertraining van het geheugen uit. Dit wijkt af van de huidige op Intel gebaseerde PowerEdge serverimplementatie.

Als een van de volgende fouten wordt geregistreerd in de SEL- of Lifecycle-logboeken, adviseert Dell Technologies Engineering om de server opnieuw op te starten zodat hertraining van het geheugen kan plaatsvinden.

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location(s) DIMM_XX.

Bij elk van deze corrigeerbare of oncorrigeerbare (multibit) geheugenfouten kan de resulterende hertraining van het geheugen bij opnieuw opstarten de defecte DIMM "zelfherstellen" door de timing en margebepaling van het signaal voor elke DIMM en sleuf te optimaliseren. Een DIMM-vervanging voor deze fouten is niet nodig , tenzij de hertraining van het geheugen mislukt (UEFI0106) tijdens het opstarten of dezelfde fouten blijven optreden.
 

2. Post Package Repair (PPR) - De tweede 'zelfherstellende' geheugenverbetering resulteert in het repareren van een defecte geheugenlocatie op een DIMM door de locatie of het adres in de hardwarelaag uit te schakelen, waardoor in plaats daarvan een reservegeheugenrij kan worden gebruikt. Het exacte aantal reservegeheugen-rijen dat beschikbaar is, is afhankelijk van het DRAM-apparaat en de DIMM-grootte.
 

Voorheen was deze functionaliteit beperkt tot het productieproces. Net als bij de eerder genoemde verbeteringen voor hertraining van het geheugen, zijn er bepaalde corrigeerbare en onherstelbare geheugenfouten die ertoe leiden dat PPR wordt gepland op een specifiek DIMM-slot voor de volgende herstart (warm of koud). Het BIOS dwingt automatisch een koude herstart af, ongeacht welk type herstart wordt uitgevoerd. Omdat de PPR-bewerking is gepland op een specifieke DIMM-sleuf, moet u de locaties van de DIMM-sleuven NIET wijzigen totdat de PPR-bewerking is uitgevoerd. Voorbeelden van de fouten zijn:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."
Critical - MEM9072 - "The system memory has faced an uncorrectable multi-bit memory errors in the non-execution path of a memory device at the location arg1."

Als een van deze fouten wordt geregistreerd in het SEL/Lifecycle-logboek, wordt PPR gepland voor de volgende keer opstarten (warm of koud).

Opmerking: A Message ID MEM8000 (Loggen van herstelbare geheugenfouten uitgeschakeld voor een geheugenapparaat op locatie DIMM_XX.) Zonder een bijbehorende MEM0005 of MEM0701 of MEM0702 op dezelfde DIMM-locatie leidt dit niet tot het plannen van een PPR voor de volgende keer opstarten. Nadat de computer opnieuw is opgestart, controleert u of de PPR-bewerking met succes is uitgevoerd.

Een voorbeeld van een succesvolle PPR-bewerking is vergelijkbaar met:

  • Message ID MEM9060 - "The PostPackage Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."

Een DIMM-vervanging voor deze herstelbare geheugenfouten is niet nodig tenzij de PPR-bewerking na het opnieuw opstarten is mislukt. Een voorbeeld van een bericht bij een mislukte PPR is:

  • Critical - Message ID UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."


Bijgewerkt op 24 april 2020

Dell Technologies blijft onze mogelijkheden voor zelfherstel verbeteren en uitbreiden. In het volgende gedeelte vindt u informatie over de updates/verbeteringen en in welke BIOS-versie de wijzigingen zijn doorgevoerd.

BIOS 1.0.x - Eerste publicatie van artikel over de "zelfherstel"-mogelijkheden die beschikbaar zijn vanaf BIOS 1.0.x en hoger, inclusief voorbeeldfoutberichten en aanbevolen acties.

BIOS 1.1.x en nieuwere wijzigingen (december 2019)

  • MEM0702 (corrigeerbaar foutpercentage overschreden [...]) - Bericht bijgewerkt van een kritieke naar een waarschuwingsgebeurtenis en de aanbevolen acties bijgewerkt om de server opnieuw op te starten zodat zelfherstel (PPR na pakketreparatie)) kan plaatsvinden.
    • Vereist De iDRAC van december 2019 of nieuwer moet ook worden geïnstalleerd om het bijgewerkte bericht te ontvangen
    • Aanbevolen actie: Start de server opnieuw op zodat PPR kan worden uitgevoerd
  • MEM9060 - De beschrijving van het bericht is bijgewerkt om aan te geven dat zelfherstel is voltooid

BIOS 1.2.x en nieuwere wijzigingen (februari 2020)

  • Er is een BIOS-optie "Correctable Error Logging" toegevoegd waarmee klanten alle Lifecycle- en SEL-logging met betrekking tot corrigeerbare fouten kunnen uitschakelen. Alle functies voor zelfherstel (PPR) werken nog steeds en de hertraining van het geheugen is nog steeds gepland en wordt uitgevoerd tijdens de volgende keer opstarten.
  • Toevoeging van MEM08xx-fouten voor RDIMM's en LRDIMM's ter vervanging van bestaande foutmeldingen en acties. Bestaande foutberichten worden nog steeds gebruikt voor platforms die de "zelfherstellende" mogelijkheden niet ondersteunen.
    • Vereist Februari 2020 of nieuwere iDRAC voor het registreren van berichten 

 

Opmerking: Zonder bijgewerkte iDRAC zijn nieuwe BIOS-berichten 'onbekend' in de SEL- en LC-logboeken.

 

  • MEM0802 - Vervangen MEM0702 - corrigeerbaar foutpercentage overschreden
    • Aanbevolen actie: Start de server opnieuw op zodat PPR kan worden uitgevoerd
  • MEM0804 - De MEM9060 die aangeeft dat PPR is gelukt is vervangen. Bevat nu DIMM-slotlocaties die PPR hebben uitgevoerd
    • Aanbevolen actie: Geen, het geeft aan dat er "zelfherstel" heeft plaatsgevonden, er is geen DIMM-vervanging nodig.
  • MEM0805 - Vervangen UEFI0278 wat aangeeft dat PPR is mislukt
    • Aanbevolen actie: Defecte DIMM vervangen

Bijgewerkt op 25 januari 2021

BIOS 1.7.x en nieuwere wijzigingen (december 2020)
 

  • MEM8000 (Correctable error logging disabled): Al vroeg in het BIOS heeft Dell Technologies Engineering een BIOS-wijziging aangebracht om de snelheid van corrigeerbare foutdetectie te verbeteren die van invloed kan zijn op de prestaties. Deze wijziging resulteerde in een toename van MEM8000 gebeurtenissen die niet werd onderbouwd door de resultaten van de analyse van defecten aan geheugencomponenten. Vanaf BIOS1.7.x zijn er twee wijzigingen met betrekking tot MEM8000. De eerste is dat de signalering van de MEM8000 gebeurtenis is gewijzigd. Ten tweede plant het BIOS zelfherstel (PPR) voor de volgende keer opstarten. iDRAC-berichten zijn nog niet bijgewerkt om de nieuwe acties weer te geven
    • Aanbevolen actie: Start de server opnieuw op zodat zelfherstel/PPR kan worden uitgevoerd. Controleer of PPR is geslaagd (MEM0804).



Er worden aanvullende RAS-functieverbeteringen geëvalueerd voor opname in toekomstige BIOS-updates.

Er is een whitepaper gepland waarin de Dell Technologies PowerEdge server (AMD processors in Rome en Milaan) wordt beschreven Geheugengerelateerde betrouwbaarheid, beschikbaarheid en bruikbaarheid (RAS) functies.

Dit artikel wordt bijgewerkt zodra er nieuwe informatie beschikbaar komt.

Getroffen producten

OEMR R6515, OEMR R6525, OEMR R7515, OEMR R7525, PowerEdge R6515, PowerEdge R6525, PowerEdge R7515, PowerEdge R7525, PowerFlex appliance R6525, PowerFlex custom node R6525, Dell EMC vSAN R6515 Ready Node, Dell EMC vSAN R7515 Ready Node , PowerFlex appliance R7525 ...
Artikeleigenschappen
Artikelnummer: 000062034
Artikeltype: Solution
Laatst aangepast: 13 aug. 2025
Versie:  11
Vind antwoorden op uw vragen via andere Dell gebruikers
Support Services
Controleer of uw apparaat wordt gedekt door Support Services.