Article Number: 000053203

Beschreibung der automatischen Fehlerkorrektur des DDR4 auf Dell PowerEdge-Servern mit skalierbaren Intel Xeon-Prozessoren

Summary: Korrigierbare und nicht korrigierbare Speicherfehler auf PowerEdge-Servern mit DDR4 und Änderungen an den Troubleshooting-Schritten

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content

Symptoms

Was ist die "automatische Fehlerkorrektur" von DDR4 auf Dell PowerEdge-Servern mit skalierbaren Intel Xeon Prozessoren (erste oder zweite Generation) mit BIOS-Version 2.1.x oder höher?

Inwiefern beeinflussen diese DDR4-Funktionen zur "automatischen Fehlerkorrektur" (BIOS-Verbesserungen) empfohlene Maßnahmen für Kunden und technischen Support, wenn Speicherfehler auf einem Server auftreten?

Welche Verbesserungen bei der automatischen Fehlerkorrektur bieten neuere BIOS-Versionen?

Cause

Es gibt fortlaufende Verbesserungen und Erweiterungen am Dell PowerEdge-BIOS, um die Speicher-Ereignismeldungen, die Fehlerbehandlung und die "automatische Fehlerkorrektur" nach einem Serverneustart zu verbessern. Dadurch wird verhindert, dass ein geplantes Wartungsfenster oder eine Vor-Ort-Präsenz erforderlich ist, um ein DDR4-Arbeitsspeicher-DIMM auszutauschen, das Fehlerereignisse protokolliert hat.

Resolution

Für PowerEdge-Server mit DDR4, auf denen BIOS-Version 2.1.x und höher ausgeführt wird, wurden zwei wichtige speicherbezogene BIOS-Verbesserungen für die „automatische Fehlerkorrektur“ implementiert. Durch diese Verbesserungen werden die empfohlenen Schritte oder Maßnahmen geändert, die ausgeführt werden müssen, wenn Speicherereignisse auftreten und im LifeCycle-Protokoll protokolliert werden.

Hinweis:

Wenn bei DDR4 unter BIOS 2.0 oder früher Speicherfehler auftreten, aktualisieren Sie das BIOS auf die neueste Version, die viele Funktionen zur automatischen Fehlerkorrektur des Speichers und fortlaufende Verbesserungen umfasst. Wir empfehlen KundInnen immer, auf die neueste verfügbare BIOS-Version (und iDRAC-Firmware) zu aktualisieren, damit sie von den neuesten Verbesserungen bei der automatischen Fehlerkorrektur profitieren können.
Zu den vorherigen Schritten für das Troubleshooting des Arbeitsspeichers gehörte das Verschieben fehlerhafter DIMMs in einen anderen Steckplatz, um zu überprüfen, ob die Fehler beim DIMM liegen oder beim DIMM-Steckplatz verbleiben. Ab BIOS 2.1.x ist der erste empfohlene Schritt ein Neustart (ohne die DIMMs in einen anderen Steckplatz zu verschieben). Somit können die neuen BIOS-Verbesserungen ausgeführt werden, wodurch möglicherweise die DIMM-Fehler behoben werden (automatische Fehlerkorrektur), ohne dass ein DIMM-Austausch erforderlich ist.

1. Verbesserungen beim erneuten Training des Arbeitsspeichers

Ein erneutes Training des Arbeitsspeichers, das während des Startvorgangs (zu Beginn der Speicherkonfigurationsschritte) durchgeführt wird, optimiert das Signal-Timing und die Signalbegrenzung für jedes DIMM/jeden Steckplatz für den besten Zugriff. Das Timing der Speichersignale und die Signalbegrenzungseigenschaften eines DIMM können sich im Laufe der Zeit aus verschiedenen Gründen ändern:

Änderungen in der Serverspeicherkonfiguration
Änderungen am BIOS (Speicherreferenzcode – MRC)
Unterschiedliche Betriebstemperaturen des Servers oder DIMMs
Das allgemeine Alter des DIMM

Zuvor hatten BIOS-Aktualisierungen oder Änderungen der Speicherkonfiguration dazu geführt, dass während des nachfolgenden Startvorgangs ein erneutes Training des Speichers durchgeführt wurde. Ab BIOS 2.1.x wurden zusätzliche „Trigger“ für korrigierbare und nicht korrigierbare Speicherfehler zum erneuten Training hinzugefügt:

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

Jeder dieser Fehler, der in den SEL/LifeCycle-Protokollen protokolliert wird, führt dazu, dass für den nächsten Neustart (warm oder kalt) ein erneutes Training des Arbeitsspeichers geplant wird. Das BIOS erzwingt automatisch einen Kaltstart, unabhängig davon, was eingeleitet wird.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."

Dieser Multi-Bit-Fehler kann dazu führen, dass der Server aufgrund eines schwerwiegenden Fehlers neu gestartet wird, wenn das Betriebssystem diesen Fehler nicht beheben kann. Während dieses Startvorgangs erfolgt automatisch ein erneutes Training des Arbeitsspeichers. Wenn der Multi-Bit-Fehler an einem nicht kritischen Speicherort auftritt und das Betriebssystem diesen verarbeiten kann, muss ein Neustart geplant werden.

Ein erneutes Training des Arbeitsspeichers während des POST kann eine "automatische Fehlerkorrektur" des fehlerhaften DIMM und des zugehörigen Steckplatzes durchführen, indem das Signal-Timing und die Signalbegrenzung optimiert werden. Eine DIMM-Ersatz ist bei diesen Fehlern nicht erforderlich, es sei denn, das erneute Training des Arbeitsspeichers schlägt während des Startvorgangs fehl (UEFI0106), oder es treten weiterhin dieselben Fehler auf.

2. Post Package Repair (PPR)

Die zweite "selbstheilende" Gedächtnisverbesserung ist die PPR. PPR repariert einen fehlerhaften Speicherort, indem der Speicherort oder die Adresse auf Hardwareebene deaktiviert wird und stattdessen eine Ersatzspeicherreihe verwendet werden kann. Die genaue Anzahl der verfügbaren Ersatzspeicherzeilen hängt vom DRAM-Gerät und der DIMM-Größe ab.

Bisher war diese Funktionalität auf den Herstellungsprozess beschränkt. Wie bei den zuvor erwähnten Verbesserungen beim erneuten Training des Arbeitsspeichers gibt es bestimmte korrigierbare Speicherfehler, die dazu führen, dass PPR auf einem bestimmten DIMM-Steckplatz für den nächsten Neustart (warm oder kalt) geplant wird. Das BIOS erzwingt automatisch einen Kaltstart, unabhängig davon, was eingeleitet wird. Da der PPR-Vorgang auf einem bestimmten DIMM-Steckplatz geplant ist, dürfen die DIMM Steckplatz Positionen NICHT geändert werden, bis der PPR-Vorgang ausgeführt wurde. Beispiele für die Fehler sind:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

Jedes dieser Ereignisse in den Protokollen führt dazu, dass PPR für den nächsten Neustart (warm oder kalt) zu Beginn der Speicherkonfigurationsphase geplant wird.

Hinweis: Eine Meldungs-ID MEM8000 (Protokollierung korrigierbarer Speicherfehler für ein Speichergerät an Position DIMM_XX deaktiviert) ohne ein entsprechendes MEM0005/MEM0701/MEM0702 am selben DIMM-Standort führt nicht dazu, dass für den nächsten Neustart ein PPR geplant wird.

Im Update vom 10. Juli 2020 finden Sie Änderungen für die MEM8000 Veranstaltung und die aktualisierte Version 1.1 und ein neueres Whitepaper.

Überprüfen Sie nach dem Neustart, ob der PPR-Vorgang erfolgreich durchgeführt wurde. Ein Beispiel für einen erfolgreichen PPR-Vorgang lautet wie folgt:

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."

Ein DIMM-Austausch für diese korrigierbaren Speicherfehler ist nur erforderlich, wenn der PPR-Vorgang ausgeführt wird. Ein Beispiel für eine fehlgeschlagene kritische PPR-Meldung ist:

UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."

Ein neu veröffentlichtes Whitepaper (Version 1.0), in dem die speicherbezogenen Funktionen für die Zuverlässigkeit, Verfügbarkeit und Betriebsfähigkeit (RAS) von Dell PowerEdge-Servern beschrieben werden, ist jetzt verfügbar, in dem die verschiedenen RAS-Funktionen und Funktionen beschrieben werden, die auf PowerEdge-Servern verfügbar sind – Speicherfehler und Dell EMC PowerEdge YX4X-Server-Arbeitsspeicher-RAS-Funktionen.

Weitere Informationen zu korrigierbaren Fehlerschwellenwertereignissen finden Sie unter 14G Intel und 15G Intel/AMD PowerEdge-Server: DDR4-Speicher: Managen korrigierbarer Fehlerschwellenwertereignisse.

Aktualisierung vom 24. April 2020

Dell verbessert kontinuierlich die Funktionen zur "automatischen Fehlerkorrektur". Der folgende Abschnitt enthält eine Liste der Updates und Verbesserungen im Zusammenhang mit den verschiedenen BIOS-Versionen.

BIOS 2.1.x: Erste Artikelveröffentlichung der verfügbaren Funktionen zur automatischen Fehlerkorrektur ab BIOS 2.1.6, einschließlich Beispiel-Fehlermeldungen und empfohlener Maßnahmen.

Änderungen in BIOS 2.4.x und höher (Dezember 2019)

MEM0702 (Correctable error rate exceeded...): Meldung von kritisch auf Warnung aktualisiert. Die empfohlenen Maßnahmen wurden aktualisiert, sodass der Server neu gestartet werden muss, damit eine „automatische Fehlerkorrektur“ stattfinden kann, z. B. Post Package Repair.
- iDRAC von Dezember 2019 oder neuer muss ebenfalls installiert werden, um die aktualisierte Meldung zu empfangen.
- Empfohlene Maßnahme: Starten Sie den Server neu, damit PPR ausgeführt werden kann.
MEM9060 – Meldungsbeschreibung aktualisiert, um anzuzeigen, dass die „automatische Fehlerkorrektur“ erfolgreich abgeschlossen wurde

Änderungen bei BIOS 2.5.x und höher (Februar 2020)

Die BIOS-Option „Correctable Error Logging“ wurde hinzugefügt, damit Kunden die gesamte LifeCycle/SEL-Protokollierung im Zusammenhang mit korrigierbaren Fehlern deaktivieren können. Alle Funktionen zur "automatischen Fehlerkorrektur" funktionieren auch weiterhin – beispielsweise werden PPR und erneutes Training des Arbeitsspeichers weiterhin geplant und während des nächsten Neustarts (zu Beginn des Speicherkonfigurationsprozesses) ausgeführt.
Es wurden MEM08xx-Fehler für RDIMMs und LRDIMMs hinzugefügt, die vorhandene Fehlermeldungen und Maßnahmen ersetzen. Bisherige Fehlermeldungen werden weiterhin für Plattformen verwendet, die die Funktionen zur „automatischen Fehlerkorrektur“ nicht unterstützen.
- Februar 2020 oder neuer iDRAC ist erforderlich , damit die neuen Meldungen protokolliert werden.

Hinweis: Ohne den aktualisierten iDRAC sind neue BIOS-Meldungen in den SEL- oder LifeCycle-Protokollen "unbekannt".

MEM0802 ersetzt MEM0702: correctable error rate exceeded
- Empfohlene Maßnahme: Starten Sie den Server neu, damit PPR ausgeführt werden kann. Bestätigen Sie, dass die PPR erfolgreich war (MEM0802).
MEM0804 ersetzt MEM9060, die angibt, dass die PPR erfolgreich war. Enthält jetzt auch die DIMM-Steckplatzposition, auf der PPR ausgeführt wurde.
- Empfohlene Maßnahme: Keine Dieses Ereignis weist darauf hin, dass eine "automatische Fehlerkorrektur" stattgefunden hat. Es ist kein DIMM-Austausch erforderlich.
MEM0805 – Ersetzt UEFI0278, das anzeigt, dass die PPR fehlgeschlagen ist.
- Empfohlene Maßnahme: Ersetzen Sie das fehlerhafte DIMM.

Aktualisierung vom 10. Juli 2020

Änderungen in BIOS 2.7.x und höher (Block-BIOS Juli 2020 – geplante Webveröffentlichung Mitte Juli)

MEM8000 (Protokollierung korrigierbarer Fehler deaktiviert) – Ab BIOS ~2.0.x hat Dell Engineering eine BIOS-Änderung vorgenommen, um die Erkennungsrate für korrigierbare Fehler zu erhöhen, die sich auf die Leistung auswirken können. Diese Änderung führte zu einem Anstieg der MEM8000 Ereignisse, die nicht durch die Ergebnisse der DIMM-Fehleranalyse untermauert wurden. Ab BIOS 2.7.x gibt es zwei Änderungen im Zusammenhang mit MEM8000. Die erste ist, dass die Signalisierung des MEM8000 Ereignisses geändert wurde. Und zum anderen plant das BIOS die automatische Fehlerkorrektur (PPR) für den nächsten Neustart. Die iDRAC-Meldungen wurden noch nicht aktualisiert, um die neuen Aktionen widerzuspiegeln.
- Empfohlene Maßnahme: Starten Sie den Server neu, damit die automatische Fehlerkorrektur/PPR ausgeführt werden kann. Bestätigen Sie, dass die PPR erfolgreich war (MEM0804).
MEM0001 (Nicht korrigierbarer Fehler): Führt dazu, dass die automatische Fehlerkorrektur (PPR) für den nächsten Neustart geplant wird. iDRAC-Meldungen wurden noch nicht aktualisiert, um die neuen Aktionen widerzuspiegeln.
- Empfohlene Maßnahme: Keine erforderlich, wenn MEM0001 mit einer kritischen Seite in Zusammenhang steht, die das Betriebssystem nicht wiederherstellen kann. Es ist immer noch ein schwerwiegender Fehler, der zu einem Neustart führt. Wenn MEM0001 mit einer nicht kritischen Seite in Zusammenhang steht, von der das Betriebssystem wiederhergestellt werden kann, muss ein Neustart geplant werden, damit die automatische Fehlerkorrektur (PPR) durchgeführt werden kann. Bestätigen Sie, dass die PPR erfolgreich war (MEM0804).

AKTUALISIERUNG vom 13. Januar 2021

Änderungen in BIOS 2.8.2 und höher (Block-BIOS September 2020)

MEM9072 (Nicht korrigierbarer Fehler, der durch den Memory Patrol Scrub-Prozess identifiziert wurde – Seite wird nicht ausgeführt oder verwendet) – Führt dazu, dass die automatische Fehlerkorrektur (PPR) für den nächsten Neustart geplant wird. Die iDRAC-Meldungen wurden noch nicht aktualisiert, um die neuen Aktionen widerzuspiegeln.
- Empfohlene Maßnahme: Planen Sie in Kürze einen Neustart. Eine Verzögerung des Neustarts kann dazu führen, dass die Seite ausgeführt wird, was zu einem MEM0001-Fehler führt, der einen Neustart auslösen kann. Die automatische Speicherkorrektur (PPR) wird während dieses Neustarts ausgeführt. Bestätigen Sie, dass die PPR erfolgreich war (MEM0804).

Hinweis: Die neueste Version des technischen Whitepapers (Version 1.3 – Veröffentlichungsdatum 20. November 2020) finden Sie auf: https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdf
Informationen zu Intel Xeon E und AMD EPYC finden Sie im ursprünglichen technischen Whitepaper (Version 1.0): Arbeitsspeicher-RAS-Funktionen von PowerEdge-YX4X-Servern – Whitepaper Version 1.0 (dell.com)

Es gibt zusätzliche RAS-Funktionsverbesserungen, die für die Aufnahme in zukünftige BIOS-Aktualisierungen evaluiert werden.

Hinweis: Eine detaillierte Beschreibung und empfohlene Maßnahmen für bestimmte Fehlermeldungen finden Sie unter dem folgenden Link: Look Up (dell.com). Da Fehlercodes (z. B. MEM0001) für mehrere Generationen von Servern und Plattformen gelten, sind die empfohlenen Maßnahmen möglicherweise nicht aktuell für die jeweilige BIOS-Version. Die neuen Fehlercodes, die hinzugefügt wurden (z. B. MEM0802, MEM0804, MEM0805 usw.), gelten nur für Server mit skalierbaren Intel Xeon Prozessoren (erste oder zweite Generation).

Dieser Artikel wird laufend aktualisiert.

Siehe auch: Anleitung zum Troubleshooting des Arbeitsspeichers durch Austauschtests – Troubleshooting von Speicherfehlern auf PowerEdge-Systemen durch Austauschtests

Downloads und Treiber: Treiber und Downloads | Dell USA

Article Properties

Affected Product

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, OEMR R240, OEMR R340, OEMR R740xd2, OEMR T140, OEMR T340, OEMR XL R240, OEMR XL R340, PowerEdge C6420, PowerEdge FC640, PowerEdge M640, PowerEdge MX740C, PowerEdge R240 , PowerEdge R340, PowerEdge R440, PowerEdge R540, PowerEdge R640, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R940, PowerEdge T140, PowerEdge T340, PowerEdge T440, Dell EMC vSAN C6420 Ready Node ...

Product

VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F

Beschreibung der automatischen Fehlerkorrektur des DDR4 auf Dell PowerEdge-Servern mit skalierbaren Intel Xeon-Prozessoren

Summary: Korrigierbare und nicht korrigierbare Speicherfehler auf PowerEdge-Servern mit DDR4 und Änderungen an den Troubleshooting-Schritten

Article Content

Symptoms

Cause

Resolution

1. Verbesserungen beim erneuten Training des Arbeitsspeichers

2. Post Package Repair (PPR)

Article Properties

Affected Product

Product

Last Published Date

Version

Article Type

Welcome

Welcome to Dell

Beschreibung der automatischen Fehlerkorrektur des DDR4 auf Dell PowerEdge-Servern mit skalierbaren Intel Xeon-Prozessoren

Summary: Korrigierbare und nicht korrigierbare Speicherfehler auf PowerEdge-Servern mit DDR4 und Änderungen an den Troubleshooting-Schritten

Article Content

Symptoms

Cause

Resolution

1. Verbesserungen beim erneuten Training des Arbeitsspeichers

2. Post Package Repair (PPR)

Article Properties

Affected Product

Product

Last Published Date

Version

Article Type