PowerEdge: Was ist die automatische DDR4-Fehlerkorrektur mit skalierbaren Intel Xeon Prozessoren?

Summary: Korrigierbare und nicht korrigierbare Speicherfehler auf PowerEdge-Servern mit DDR4 und Änderungen an den Troubleshooting-Schritten

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Was ist die automatische DDR4-Fehlerkorrektur auf Dell PowerEdge-Servern mit skalierbaren Intel Xeon Prozessoren (erste oder zweite Generation) bei BIOS-Version 2.1.x und höher?

Wie wirken sich diese DDR4-Funktionen zur automatischen Fehlerkorrektur (BIOS-Verbesserungen) auf die empfohlenen Maßnahmen für KundInnen und den technischen Support aus, wenn auf einem Server Speicherfehler auftreten?

Was sind die Verbesserungen bei der „automatischen Fehlerkorrektur“ in den neueren BIOS-Versionen?

Cause

Es gibt fortlaufende Verbesserungen und Erweiterungen für das Dell PowerEdge-BIOS, um die Speicher-Ereignismeldungen, die Fehlerbehandlung und die automatische Fehlerkorrektur nach einem Serverneustart zu verbessern. Dadurch ist kein geplantes Wartungsfenster oder eine Vor-Ort-Präsenz erforderlich, um ein DDR4-Arbeitsspeicher-DIMM auszutauschen, das Fehlerereignisse protokolliert hat.

Resolution

Für PowerEdge-Server mit DDR4, auf denen BIOS-Version 2.1.x und höher ausgeführt wird, wurden zwei wichtige speicherbezogene BIOS-Verbesserungen für die „automatische Fehlerkorrektur“ implementiert. Durch diese Verbesserungen ändern sich die empfohlenen Schritte und Maßnahmen, die ausgeführt werden müssen, wenn Speicherfehler auftreten und im Lifecycle-Protokoll protokolliert werden.

Hinweis:
  • Wenn bei DDR4 Speicherfehler auftreten und BIOS 2.0 oder niedriger ausgeführt wird, aktualisieren Sie Ihr BIOS auf die neueste Version, um die automatische Fehlerkorrektur des Speichers und weitere Verbesserungen zu nutzen. Wir empfehlen KundInnen immer, auf die neueste verfügbare BIOS-Version (und iDRAC-Firmware) zu aktualisieren, damit sie von den neuesten Verbesserungen bei der automatischen Fehlerkorrektur profitieren können.
  • Die veralteten Schritte zum Troubleshooting des Arbeitsspeichers umfassten das Verschieben fehlerhafter DIMMs in einen anderen Steckplatz, um zu überprüfen, ob der Fehler beim DIMM oder beim DIMM-Steckplatz liegt. Ab BIOS 2.1.x ist der erste empfohlene Schritt ein Neustart (ohne die DIMMs in einen anderen Steckplatz zu verschieben). Somit können die neuen BIOS-Verbesserungen ausgeführt werden, wodurch möglicherweise die DIMM-Fehler behoben werden (automatische Fehlerkorrektur), ohne dass ein DIMM-Austausch erforderlich ist.
  1. Verbesserungen beim erneuten Training des Arbeitsspeichers

Dieses erfolgt während des Startvorgangs (zu Beginn der Speicherkonfigurationsschritte) und optimiert das Signal-Timing und die Signalbegrenzung für jedes DIMM/jeden Steckplatz, um den besten Zugriff zu gewährleisten. Die Signal-Timing- und Signalbegrenzungseigenschaften eines DIMMs können sich im Laufe der Zeit aus verschiedenen Gründen ändern:

  • Änderungen in der Serverspeicherkonfiguration
  • Änderungen am BIOS (Speicherreferenzcode – MRC)
  • Unterschiedliche Betriebstemperaturen des Servers oder DIMMs
  • Das allgemeine Alter des DIMM

Zuvor hatten BIOS-Aktualisierungen oder Änderungen der Speicherkonfiguration dazu geführt, dass während des nachfolgenden Startvorgangs ein erneutes Training des Speichers durchgeführt wurde. Ab BIOS 2.1.x wurden zusätzliche „Trigger“ für korrigierbare und nicht korrigierbare Speicherfehler zum erneuten Training hinzugefügt:

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

Jeder dieser Fehler, der in den SEL- oder Lifecycle-Protokollen protokolliert wird, führt dazu, dass für den nächsten Neustart (warm oder kalt) ein erneutes Training des Arbeitsspeichers geplant wird. Das BIOS erzwingt automatisch einen Kaltstart, unabhängig davon, was eingeleitet wird.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."

 

Dieser Multi-Bit-Fehler kann dazu führen, dass der Server aufgrund eines schwerwiegenden Fehlers neu gestartet wird, wenn das Betriebssystem diesen Fehler nicht beheben kann. Während dieses Startvorgangs erfolgt automatisch ein erneutes Training des Arbeitsspeichers. Wenn der Multi-Bit-Fehler an einem nicht kritischen Speicherort auftritt und das Betriebssystem diesen verarbeiten kann, muss ein Neustart geplant werden.

Durch ein erneutes Training des Arbeitsspeichers während des POST kann eine „automatische Fehlerkorrektur“ des fehlerhaften DIMMs und zugehörigen Steckplatzes durchgeführt werden, indem das Signal-Timing und die Signalbegrenzung optimiert werden. Eine DIMM-Ersatz ist bei diesen Fehlern nicht erforderlich, es sei denn, das erneute Training des Arbeitsspeichers schlägt während des Startvorgangs fehl (UEFI0106), oder es treten weiterhin dieselben Fehler auf.
 

  1. Post Package Repair (PPR)

Die zweite „automatische Fehlerkorrektur“ des Speichers ist PPR. PPR führt eine Reparatur eines fehlerhaften Speicherorts durch, indem der Speicherort bzw. die Adresse auf der Hardwareebene deaktiviert wird und stattdessen eine Ersatzspeicherzeile verwendet wird. Die genaue Anzahl der verfügbaren Ersatzspeicherzeilen hängt vom DRAM-Gerät und der DIMM-Größe ab.

Bisher war diese Funktionalität auf den Herstellungsprozess beschränkt. Genau wie bei den zuvor erwähnten Verbesserungen beim erneuten Training des Arbeitsspeichers gibt es bestimmte korrigierbare Speicherfehler, die dazu führen, dass die PPR auf einem bestimmten DIMM-Steckplatz für den nächsten Neustart (warm oder kalt) geplant wird. Das BIOS erzwingt automatisch einen Kaltstart, unabhängig davon, was eingeleitet wird. Da der PPR-Vorgang auf einem bestimmten DIMM-Steckplatz geplant ist, dürfen die DIMM Steckplatz Positionen NICHT geändert werden, bis der PPR-Vorgang ausgeführt wurde. Beispiele für die Fehler sind:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

Einer dieser Fehler in den Protokollen führt dazu, dass die PPR für den nächsten Neustart (warm oder kalt) zu Beginn der Speicherkonfiguration geplant wird.

Hinweis: Die Meldungs-ID MEM8000 (Protokollierung korrigierbarer Speicherfehler für ein Speichergerät am Speicherort DIMM_XX deaktiviert), ohne dass eine entsprechende MEM0005/MEM0701/MEM0702-Meldung auf demselben DIMM-Speicherort vorhanden ist, führt derzeit nicht dazu, dass eine PPR für den nächsten Neustart geplant wird.

In der Aktualisierung vom 10. Juli 2020 finden Sie neue Informationen zu MEM8000 sowie die aktualisierte Version 1.1 und neuere Versionen des Whitepapers.

Überprüfen Sie nach dem Neustart, ob der PPR-Vorgang erfolgreich durchgeführt wurde. Ein Beispiel für einen erfolgreichen PPR-Vorgang lautet wie folgt:

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."


Ein DIMM-Austausch für diese korrigierbaren Speicherfehler ist nur erforderlich, wenn der PPR-Vorgang nach dem Neustart fehlschlägt. Eine Beispielmeldung zu einer fehlgeschlagenen kritischen PPR lautet:

UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."

 

Es ist ein neu veröffentlichtes Whitepaper (Version 1.0) verfügbar, das die speicherbezogenen Funktionen für Zuverlässigkeit, Verfügbarkeit und Wartungsfreundlichkeit (Reliability, Availability and Serviceability, RAS) von Dell PowerEdge-Servern beschreibt und die verschiedenen RAS-Funktionen von PowerEdge-Servern erläutert: Speicherfehler und Arbeitsspeicher-RAS-Funktionen von Dell PowerEdge-YX4X-Servern.

 

Aktualisierung vom 24. April 2020

Dell verbessert und erweitert fortlaufend die Funktionen zur „automatischen Fehlerkorrektur“. Der folgende Abschnitt enthält eine Liste der Updates und Verbesserungen der verschiedenen BIOS-Versionen.

BIOS 2.1.x: Erste Artikelveröffentlichung der verfügbaren Funktionen zur automatischen Fehlerkorrektur ab BIOS 2.1.6, einschließlich Beispiel-Fehlermeldungen und empfohlener Maßnahmen.

Änderungen in BIOS 2.4.x und höher (Dezember 2019)

  • MEM0702 (Correctable error rate exceeded...): Meldung von kritisch auf Warnung aktualisiert. Die empfohlenen Maßnahmen wurden aktualisiert, sodass der Server neu gestartet werden muss, damit eine „automatische Fehlerkorrektur“ stattfinden kann, z. B. Post Package Repair.
    • iDRAC von Dezember 2019 oder neuer muss ebenfalls installiert werden, um die aktualisierte Meldung zu empfangen.
    • Empfohlene Maßnahme: Starten Sie den Server neu, damit PPR ausgeführt werden kann.
  • MEM9060 – Meldungsbeschreibung aktualisiert, um anzuzeigen, dass die „automatische Fehlerkorrektur“ erfolgreich abgeschlossen wurde

Änderungen bei BIOS 2.5.x und höher (Februar 2020)

  • Die BIOS-Option "Correctable Error Logging" wurde hinzugefügt, damit Kunden die gesamte Lifecycle- oder SEL-Protokollierung im Zusammenhang mit korrigierbaren Fehlern deaktivieren können. Alle Funktionen zur "automatischen Fehlerkorrektur" funktionieren auch weiterhin – beispielsweise werden PPR und erneutes Training des Arbeitsspeichers weiterhin geplant und während des nächsten Neustarts (zu Beginn des Speicherkonfigurationsprozesses) ausgeführt.
  • Es wurden MEM08xx-Fehler für RDIMMs und LRDIMMs hinzugefügt, die vorhandene Fehlermeldungen und Maßnahmen ersetzen. Bisherige Fehlermeldungen werden weiterhin für Plattformen verwendet, die die Funktionen zur „automatischen Fehlerkorrektur“ nicht unterstützen.
    • Februar-2020- oder höherer iDRAC erforderlich, damit die neuen Meldungen protokolliert werden.
Hinweis: Ohne den aktualisierten iDRAC werden neue BIOS-Meldungen in den SEL- oder Lifecycle-Protokollen als "unknown" angezeigt.
  • MEM0802 ersetzt MEM0702: correctable error rate exceeded
    • Empfohlene Maßnahme: Starten Sie den Server neu, damit PPR ausgeführt werden kann. Bestätigen Sie, dass die PPR erfolgreich war (MEM0802).
  • MEM0804 ersetzt MEM9060, die angibt, dass die PPR erfolgreich war. Enthält jetzt auch die DIMM-Steckplatzposition, auf der PPR ausgeführt wurde.
    • Empfohlene Maßnahme: Keine. Das Ereignis zeigt an, dass die „automatische Fehlerkorrektur“ stattgefunden hat. Es ist kein DIMM-Austausch erforderlich.
  • MEM0805 – Ersetzt UEFI0278, das anzeigt, dass die PPR fehlgeschlagen ist.
    • Empfohlene Maßnahme: Ersetzen Sie das fehlerhafte DIMM.

Aktualisierung vom 10. Juli 2020

Änderungen in BIOS 2.7.x und höher (Block-BIOS Juli 2020 – geplante Webveröffentlichung Mitte Juli)

  • MEM8000 (Protokollierung korrigierbarer Fehler deaktiviert): Ab BIOS ~2.0.x hat das Dell Engineering eine BIOS-Änderung vorgenommen, um die Erkennungsrate für korrigierbare Fehler zu verbessern, was sich auf die Performance auswirken kann. Diese Änderung führte zu einem Anstieg von MEM8000-Ereignissen, was von den Ergebnissen der DIMM-Fehleranalyse jedoch nicht untermauert wurde. Ab BIOS 2.7.x gibt es zwei Änderungen im Zusammenhang mit MEM8000. Zum einen wurde die Signalisierung des MEM8000-Ereignisses geändert. Und zum anderen plant das BIOS die automatische Fehlerkorrektur (PPR) für den nächsten Neustart. Die iDRAC-Meldungen wurden noch nicht aktualisiert, um die neuen Aktionen widerzuspiegeln.
    • Empfohlene Maßnahme: Starten Sie den Server neu, damit die automatische Fehlerkorrektur/PPR ausgeführt werden kann. Bestätigen Sie, dass die PPR erfolgreich war (MEM0804).
  • MEM0001 (nicht korrigierbarer Fehler): Führt zur Planung einer automatischen Fehlerkorrektur (PPR) für den nächsten Neustart. Die iDRAC-Meldungen wurden noch nicht aktualisiert, um die neuen Aktionen widerzuspiegeln.
    • Empfohlene Maßnahme: Keine erforderlich, wenn MEM0001 mit einer kritischen Seite in Zusammenhang steht, die das Betriebssystem nicht wiederherstellen kann. Es ist immer noch ein schwerwiegender Fehler, der zu einem Neustart führt. Wenn MEM0001 mit einer nicht kritischen Seite in Zusammenhang steht, von der das Betriebssystem wiederhergestellt werden kann, muss ein Neustart geplant werden, damit die automatische Fehlerkorrektur (PPR) durchgeführt werden kann. Bestätigen Sie, dass die PPR erfolgreich war (MEM0804).

AKTUALISIERUNG vom 13. Januar 2021

Änderungen in BIOS 2.8.2 und höher (Block-BIOS September 2020)

  • MEM9072 (nicht korrigierbarer Fehler, der durch den Speicher-Patrol-Scrub-Prozess identifiziert wurde – Seite wird derzeit nicht ausgeführt oder verwendet): Führt dazu, dass die automatische Fehlerkorrektur (PPR) für den nächsten Neustart geplant wird. Die iDRAC-Meldungen wurden noch nicht aktualisiert, um die neuen Aktionen widerzuspiegeln.
    • Empfohlene Maßnahme: Planen Sie in Kürze einen Neustart. Eine Verzögerung des Neustarts kann dazu führen, dass die Seite ausgeführt wird, was zu einem MEM0001-Fehler führt, der einen Neustart auslösen kann. Die automatische Speicherkorrektur (PPR) wird während dieses Neustarts ausgeführt. Bestätigen Sie, dass die PPR erfolgreich war (MEM0804).
Hinweis: Die neueste Version des technischen Whitepapers (Version 1.3 – Veröffentlichungsdatum 20. November 2020) finden Sie auf:  https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdf
Informationen zu Intel Xeon E und AMD EPYC finden Sie im ursprünglichen technischen Whitepaper (Version 1.0): Arbeitsspeicher-RAS-Funktionen von PowerEdge-YX4X-Servern – Whitepaper Version 1.0 (dell.com)

Es gibt zusätzliche RAS-Funktionsverbesserungen, die für die Aufnahme in zukünftige BIOS-Aktualisierungen evaluiert werden.

 
Hinweis: Eine detaillierte Beschreibung und empfohlene Maßnahmen für bestimmte Fehlermeldungen finden Sie unter dem folgenden Link: Look Up (dell.com). Da Fehlercodes (z. B. MEM0001) für mehrere Generationen von Servern und Plattformen gelten, sind die empfohlenen Maßnahmen für die jeweilige BIOS-Version möglicherweise nicht aktuell. Die neu hinzugefügten Fehlercodes (z. B. MEM0802, MEM0804, MEM0805) gelten nur für Server mit skalierbaren Intel Xeon Prozessoren (erste oder zweite Generation).

 

Dieser Artikel wird aktualisiert, sobald neue Informationen vorliegen.


Treiber und Downloads: Treiber und Downloads

Affected Products

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R240, OEMR R250 , OEMR XE R250, OEMR R260, OEMR XE R260, OEMR R340, OEMR R350, OEMR XE R350, OEMR R360, OEMR XE R360, OEMR R440, PowerEdge XR2, OEMR R450, OEMR R540, OEMR R550, OEMR R5500, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R660, OEMR XL R660, OEMR R660xs, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R760, OEMR R760xa, OEMR R760XD2, OEMR XL R760, OEMR R760xs, OEMR R840, OEMR R860, OEMR R940, OEMR R940xa, OEMR R960, OEMR T140, OEMR T150, OEMR T340, OEMR T350, OEMR T360, OEMR T440, OEMR T550, OEMR T560, OEMR T640, OEMR XL T640, OEMR XL R240, OEMR XL R340, OEMR XL R660xs, OEMR XR11, OEMR XR12, OEMR XR4000r, OEMR XR4000w, OEMR XR4510c, OEMR XR4520c, OEMR XR5610, OEMR XR7620, OEMR XR8610t, OEMR XR8620t, Poweredge C4140, PowerEdge C6420, PowerEdge C6520, PowerEdge C6525, PowerEdge C6615, PowerEdge C6620, PowerEdge FC640, PowerEdge HS5610, PowerEdge HS5620, PowerEdge M640, PowerEdge MX740C, PowerEdge MX750c, PowerEdge MX760c, PowerEdge MX840C, PowerEdge R240, PowerEdge R250, PowerEdge R260, PowerEdge R340, PowerEdge R350, PowerEdge R360, PowerEdge R440, PowerEdge R450, PowerEdge R540, PowerEdge R550, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R660, PowerEdge R660xs, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R760, PowerEdge R760XA, PowerEdge R760xd2, PowerEdge R760xs, PowerEdge R840, PowerEdge R860, PowerEdge R940, PowerEdge R940xa, PowerEdge R960, PowerEdge T140, PowerEdge T150, PowerEdge T160, PowerEdge T340, PowerEdge T350, PowerEdge T360, PowerEdge T440, PowerEdge T550, PowerEdge T560, PowerEdge T640, PowerEdge XE2420, PowerEdge XE7100, PowerEdge XE7420, PowerEdge XE7440, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680, PowerEdge XE9680L, PowerEdge XR11, PowerEdge XR12, PowerEdge XR4000r, PowerEdge XR4000w, PowerEdge XR4510c, PowerEdge XR4520c, PowerEdge XR5610, PowerEdge XR7620, PowerEdge XR8610t, PowerEdge XR8620t, PowerFlex appliance R650, PowerFlex appliance R660, Powerflex appliance R750, PowerFlex appliance R760, PowerFlex custom node R650, PowerFlex custom node R660, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R860, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN C6420 Ready Node, Dell EMC vSAN MX740c Ready Node, Dell EMC vSAN MX750c Ready Node, Dell vSAN Ready Node MX760c, Dell EMC vSAN R440 Ready Node, Dell EMC vSAN R640 Ready Node, Dell EMC vSAN R650 Ready Node, vSAN Ready Node R660, Dell EMC vSAN R740 Ready Node, Dell EMC vSAN R740xd Ready Node, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R760 Ready Node, Dell EMC vSAN R840 Ready Node, Dell EMC vSAN T350 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...

Products

PowerFlex rack, VxFlex Ready Nodes, PowerFlex Appliance, PowerFlex custom node, ScaleIO, PowerFlex appliance Intelligent Catalog Software, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex custom node, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R660, PowerFlex custom node R6625, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R7625, PowerFlex rack connectivity, PowerFlex rack HW, PowerFlex rack RCM Software, PowerFlex Software, VxFlex Ready Node, VxFlex Ready Node R640, VxFlex Ready Node R740xd, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...
Article Properties
Article Number: 000053203
Article Type: Solution
Last Modified: 25 Nov 2025
Version:  26
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.