PowerEdge: Was ist die automatische DDR4-Fehlerkorrektur mit skalierbaren Intel Xeon Prozessoren?
Summary: Korrigierbare und nicht korrigierbare Speicherfehler auf PowerEdge-Servern mit DDR4 und Änderungen an den Troubleshooting-Schritten
Symptoms
Wie wirken sich diese DDR4-Funktionen zur automatischen Fehlerkorrektur (BIOS-Verbesserungen) auf die empfohlenen Maßnahmen für KundInnen und den technischen Support aus, wenn auf einem Server Speicherfehler auftreten?
Was sind die Verbesserungen bei der „automatischen Fehlerkorrektur“ in den neueren BIOS-Versionen?
Cause
Es gibt fortlaufende Verbesserungen und Erweiterungen für das Dell PowerEdge-BIOS, um die Speicher-Ereignismeldungen, die Fehlerbehandlung und die automatische Fehlerkorrektur nach einem Serverneustart zu verbessern. Dadurch ist kein geplantes Wartungsfenster oder eine Vor-Ort-Präsenz erforderlich, um ein DDR4-Arbeitsspeicher-DIMM auszutauschen, das Fehlerereignisse protokolliert hat.
Resolution
Für PowerEdge-Server mit DDR4, auf denen BIOS-Version 2.1.x und höher ausgeführt wird, wurden zwei wichtige speicherbezogene BIOS-Verbesserungen für die „automatische Fehlerkorrektur“ implementiert. Durch diese Verbesserungen ändern sich die empfohlenen Schritte und Maßnahmen, die ausgeführt werden müssen, wenn Speicherfehler auftreten und im Lifecycle-Protokoll protokolliert werden.
- Wenn bei DDR4 Speicherfehler auftreten und BIOS 2.0 oder niedriger ausgeführt wird, aktualisieren Sie Ihr BIOS auf die neueste Version, um die automatische Fehlerkorrektur des Speichers und weitere Verbesserungen zu nutzen. Wir empfehlen KundInnen immer, auf die neueste verfügbare BIOS-Version (und iDRAC-Firmware) zu aktualisieren, damit sie von den neuesten Verbesserungen bei der automatischen Fehlerkorrektur profitieren können.
- Die veralteten Schritte zum Troubleshooting des Arbeitsspeichers umfassten das Verschieben fehlerhafter DIMMs in einen anderen Steckplatz, um zu überprüfen, ob der Fehler beim DIMM oder beim DIMM-Steckplatz liegt. Ab BIOS 2.1.x ist der erste empfohlene Schritt ein Neustart (ohne die DIMMs in einen anderen Steckplatz zu verschieben). Somit können die neuen BIOS-Verbesserungen ausgeführt werden, wodurch möglicherweise die DIMM-Fehler behoben werden (automatische Fehlerkorrektur), ohne dass ein DIMM-Austausch erforderlich ist.
- Verbesserungen beim erneuten Training des Arbeitsspeichers
Dieses erfolgt während des Startvorgangs (zu Beginn der Speicherkonfigurationsschritte) und optimiert das Signal-Timing und die Signalbegrenzung für jedes DIMM/jeden Steckplatz, um den besten Zugriff zu gewährleisten. Die Signal-Timing- und Signalbegrenzungseigenschaften eines DIMMs können sich im Laufe der Zeit aus verschiedenen Gründen ändern:
- Änderungen in der Serverspeicherkonfiguration
- Änderungen am BIOS (Speicherreferenzcode – MRC)
- Unterschiedliche Betriebstemperaturen des Servers oder DIMMs
- Das allgemeine Alter des DIMM
Zuvor hatten BIOS-Aktualisierungen oder Änderungen der Speicherkonfiguration dazu geführt, dass während des nachfolgenden Startvorgangs ein erneutes Training des Speichers durchgeführt wurde. Ab BIOS 2.1.x wurden zusätzliche „Trigger“ für korrigierbare und nicht korrigierbare Speicherfehler zum erneuten Training hinzugefügt:
Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Jeder dieser Fehler, der in den SEL- oder Lifecycle-Protokollen protokolliert wird, führt dazu, dass für den nächsten Neustart (warm oder kalt) ein erneutes Training des Arbeitsspeichers geplant wird. Das BIOS erzwingt automatisch einen Kaltstart, unabhängig davon, was eingeleitet wird.
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
Dieser Multi-Bit-Fehler kann dazu führen, dass der Server aufgrund eines schwerwiegenden Fehlers neu gestartet wird, wenn das Betriebssystem diesen Fehler nicht beheben kann. Während dieses Startvorgangs erfolgt automatisch ein erneutes Training des Arbeitsspeichers. Wenn der Multi-Bit-Fehler an einem nicht kritischen Speicherort auftritt und das Betriebssystem diesen verarbeiten kann, muss ein Neustart geplant werden.
Durch ein erneutes Training des Arbeitsspeichers während des POST kann eine „automatische Fehlerkorrektur“ des fehlerhaften DIMMs und zugehörigen Steckplatzes durchgeführt werden, indem das Signal-Timing und die Signalbegrenzung optimiert werden. Eine DIMM-Ersatz ist bei diesen Fehlern nicht erforderlich, es sei denn, das erneute Training des Arbeitsspeichers schlägt während des Startvorgangs fehl (UEFI0106), oder es treten weiterhin dieselben Fehler auf.
- Post Package Repair (PPR)
Die zweite „automatische Fehlerkorrektur“ des Speichers ist PPR. PPR führt eine Reparatur eines fehlerhaften Speicherorts durch, indem der Speicherort bzw. die Adresse auf der Hardwareebene deaktiviert wird und stattdessen eine Ersatzspeicherzeile verwendet wird. Die genaue Anzahl der verfügbaren Ersatzspeicherzeilen hängt vom DRAM-Gerät und der DIMM-Größe ab.
Bisher war diese Funktionalität auf den Herstellungsprozess beschränkt. Genau wie bei den zuvor erwähnten Verbesserungen beim erneuten Training des Arbeitsspeichers gibt es bestimmte korrigierbare Speicherfehler, die dazu führen, dass die PPR auf einem bestimmten DIMM-Steckplatz für den nächsten Neustart (warm oder kalt) geplant wird. Das BIOS erzwingt automatisch einen Kaltstart, unabhängig davon, was eingeleitet wird. Da der PPR-Vorgang auf einem bestimmten DIMM-Steckplatz geplant ist, dürfen die DIMM Steckplatz Positionen NICHT geändert werden, bis der PPR-Vorgang ausgeführt wurde. Beispiele für die Fehler sind:
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Einer dieser Fehler in den Protokollen führt dazu, dass die PPR für den nächsten Neustart (warm oder kalt) zu Beginn der Speicherkonfiguration geplant wird.
In der Aktualisierung vom 10. Juli 2020 finden Sie neue Informationen zu MEM8000 sowie die aktualisierte Version 1.1 und neuere Versionen des Whitepapers.
Überprüfen Sie nach dem Neustart, ob der PPR-Vorgang erfolgreich durchgeführt wurde. Ein Beispiel für einen erfolgreichen PPR-Vorgang lautet wie folgt:
MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
Ein DIMM-Austausch für diese korrigierbaren Speicherfehler ist nur erforderlich, wenn der PPR-Vorgang nach dem Neustart fehlschlägt. Eine Beispielmeldung zu einer fehlgeschlagenen kritischen PPR lautet:
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
Es ist ein neu veröffentlichtes Whitepaper (Version 1.0) verfügbar, das die speicherbezogenen Funktionen für Zuverlässigkeit, Verfügbarkeit und Wartungsfreundlichkeit (Reliability, Availability and Serviceability, RAS) von Dell PowerEdge-Servern beschreibt und die verschiedenen RAS-Funktionen von PowerEdge-Servern erläutert: Speicherfehler und Arbeitsspeicher-RAS-Funktionen von Dell PowerEdge-YX4X-Servern.
Aktualisierung vom 24. April 2020
Dell verbessert und erweitert fortlaufend die Funktionen zur „automatischen Fehlerkorrektur“. Der folgende Abschnitt enthält eine Liste der Updates und Verbesserungen der verschiedenen BIOS-Versionen.
BIOS 2.1.x: Erste Artikelveröffentlichung der verfügbaren Funktionen zur automatischen Fehlerkorrektur ab BIOS 2.1.6, einschließlich Beispiel-Fehlermeldungen und empfohlener Maßnahmen.
Änderungen in BIOS 2.4.x und höher (Dezember 2019)
- MEM0702 (Correctable error rate exceeded...): Meldung von kritisch auf Warnung aktualisiert. Die empfohlenen Maßnahmen wurden aktualisiert, sodass der Server neu gestartet werden muss, damit eine „automatische Fehlerkorrektur“ stattfinden kann, z. B. Post Package Repair.
- iDRAC von Dezember 2019 oder neuer muss ebenfalls installiert werden, um die aktualisierte Meldung zu empfangen.
- Empfohlene Maßnahme: Starten Sie den Server neu, damit PPR ausgeführt werden kann.
- MEM9060 – Meldungsbeschreibung aktualisiert, um anzuzeigen, dass die „automatische Fehlerkorrektur“ erfolgreich abgeschlossen wurde
Änderungen bei BIOS 2.5.x und höher (Februar 2020)
- Die BIOS-Option "Correctable Error Logging" wurde hinzugefügt, damit Kunden die gesamte Lifecycle- oder SEL-Protokollierung im Zusammenhang mit korrigierbaren Fehlern deaktivieren können. Alle Funktionen zur "automatischen Fehlerkorrektur" funktionieren auch weiterhin – beispielsweise werden PPR und erneutes Training des Arbeitsspeichers weiterhin geplant und während des nächsten Neustarts (zu Beginn des Speicherkonfigurationsprozesses) ausgeführt.
- Es wurden MEM08xx-Fehler für RDIMMs und LRDIMMs hinzugefügt, die vorhandene Fehlermeldungen und Maßnahmen ersetzen. Bisherige Fehlermeldungen werden weiterhin für Plattformen verwendet, die die Funktionen zur „automatischen Fehlerkorrektur“ nicht unterstützen.
- Februar-2020- oder höherer iDRAC erforderlich, damit die neuen Meldungen protokolliert werden.
- MEM0802 ersetzt MEM0702: correctable error rate exceeded
- Empfohlene Maßnahme: Starten Sie den Server neu, damit PPR ausgeführt werden kann. Bestätigen Sie, dass die PPR erfolgreich war (MEM0802).
- MEM0804 ersetzt MEM9060, die angibt, dass die PPR erfolgreich war. Enthält jetzt auch die DIMM-Steckplatzposition, auf der PPR ausgeführt wurde.
- Empfohlene Maßnahme: Keine. Das Ereignis zeigt an, dass die „automatische Fehlerkorrektur“ stattgefunden hat. Es ist kein DIMM-Austausch erforderlich.
- MEM0805 – Ersetzt UEFI0278, das anzeigt, dass die PPR fehlgeschlagen ist.
- Empfohlene Maßnahme: Ersetzen Sie das fehlerhafte DIMM.
Aktualisierung vom 10. Juli 2020
Änderungen in BIOS 2.7.x und höher (Block-BIOS Juli 2020 – geplante Webveröffentlichung Mitte Juli)
- MEM8000 (Protokollierung korrigierbarer Fehler deaktiviert): Ab BIOS ~2.0.x hat das Dell Engineering eine BIOS-Änderung vorgenommen, um die Erkennungsrate für korrigierbare Fehler zu verbessern, was sich auf die Performance auswirken kann. Diese Änderung führte zu einem Anstieg von MEM8000-Ereignissen, was von den Ergebnissen der DIMM-Fehleranalyse jedoch nicht untermauert wurde. Ab BIOS 2.7.x gibt es zwei Änderungen im Zusammenhang mit MEM8000. Zum einen wurde die Signalisierung des MEM8000-Ereignisses geändert. Und zum anderen plant das BIOS die automatische Fehlerkorrektur (PPR) für den nächsten Neustart. Die iDRAC-Meldungen wurden noch nicht aktualisiert, um die neuen Aktionen widerzuspiegeln.
- Empfohlene Maßnahme: Starten Sie den Server neu, damit die automatische Fehlerkorrektur/PPR ausgeführt werden kann. Bestätigen Sie, dass die PPR erfolgreich war (MEM0804).
- MEM0001 (nicht korrigierbarer Fehler): Führt zur Planung einer automatischen Fehlerkorrektur (PPR) für den nächsten Neustart. Die iDRAC-Meldungen wurden noch nicht aktualisiert, um die neuen Aktionen widerzuspiegeln.
- Empfohlene Maßnahme: Keine erforderlich, wenn MEM0001 mit einer kritischen Seite in Zusammenhang steht, die das Betriebssystem nicht wiederherstellen kann. Es ist immer noch ein schwerwiegender Fehler, der zu einem Neustart führt. Wenn MEM0001 mit einer nicht kritischen Seite in Zusammenhang steht, von der das Betriebssystem wiederhergestellt werden kann, muss ein Neustart geplant werden, damit die automatische Fehlerkorrektur (PPR) durchgeführt werden kann. Bestätigen Sie, dass die PPR erfolgreich war (MEM0804).
AKTUALISIERUNG vom 13. Januar 2021
Änderungen in BIOS 2.8.2 und höher (Block-BIOS September 2020)
- MEM9072 (nicht korrigierbarer Fehler, der durch den Speicher-Patrol-Scrub-Prozess identifiziert wurde – Seite wird derzeit nicht ausgeführt oder verwendet): Führt dazu, dass die automatische Fehlerkorrektur (PPR) für den nächsten Neustart geplant wird. Die iDRAC-Meldungen wurden noch nicht aktualisiert, um die neuen Aktionen widerzuspiegeln.
- Empfohlene Maßnahme: Planen Sie in Kürze einen Neustart. Eine Verzögerung des Neustarts kann dazu führen, dass die Seite ausgeführt wird, was zu einem MEM0001-Fehler führt, der einen Neustart auslösen kann. Die automatische Speicherkorrektur (PPR) wird während dieses Neustarts ausgeführt. Bestätigen Sie, dass die PPR erfolgreich war (MEM0804).
Informationen zu Intel Xeon E und AMD EPYC finden Sie im ursprünglichen technischen Whitepaper (Version 1.0): Arbeitsspeicher-RAS-Funktionen von PowerEdge-YX4X-Servern – Whitepaper Version 1.0 (dell.com)
Es gibt zusätzliche RAS-Funktionsverbesserungen, die für die Aufnahme in zukünftige BIOS-Aktualisierungen evaluiert werden.
Dieser Artikel wird aktualisiert, sobald neue Informationen vorliegen.
Treiber und Downloads: Treiber und Downloads