Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

14G Intel und 15G Intel/AMD PowerEdge-Server: DDR4-Speicher: Verwalten korrigierbarer Fehlerschwellenwertereignisse

Summary: Aktualisierte Empfehlungen für Kunden beim Umgang mit korrigierbaren Fehlerschwellenwertereignissen (MEM0802 oder MEM5104) auf DDR4-RDIMMs oder LRDIMMs, die in Intel basierten 14G- und 15G-PowerEdge-Servern sowie AMD-basierten 15G-PowerEdge-Servern installiert sind. Hinweis: Dieser Artikel gilt nicht für AMD-basierte PowerEdge-Server der 14. Generation, wie z. B. die 64x5- oder 74x5-Plattformen, da diese nicht über diese Funktion zur Reparatur nach dem Verpacken / automatischen Fehlerkorrektur verfügen, obwohl das DIMM selbst dies unterstützt. ...

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

Durch die Weiterentwicklung von RAS-Funktionen (Zuverlässigkeit, Zugänglichkeit und Betriebsfähigkeit) in Arbeitsspeichern der Enterprise-Klasse verfolgt Dell einen konservativen Ansatz beim Reporting von Fehlern, um unseren Kunden Transparenz zu bieten. Mit dieser Weiterentwicklung entwickelt sich auch der Ansatz von Dell für das Fehlerreporting weiter, sodass wir uns auf Mitteilungen konzentrieren können, die eine dringendere Reaktion erfordern, im Gegensatz zu Mitteilungen, die primär informativer Natur sind.

Da DRAM-basierte Speichergeometrien immer kleiner werden, um Kunden die von ihnen geforderte höhere Leistung zu bieten, wird eine zunehmende Anzahl korrigierbarer Fehler als natürlicher Bestandteil einer einheitlichen Skalierung erwartet.

Cause

In der globalen Serverbranche setzt sich zunehmend die Auffassung durch, dass einige korrigierbare Fehler pro DIMM unvermeidbar sind und nicht zwangsläufig einen Austausch des Arbeitsspeichermoduls oder gar einen sofortigen Neustart zur Initiierung der automatischen Fehlerkorrektur rechtfertigen.

Resolution

Wenn Sie ein System, das korrigierbare Fehler meldet, weiter betreiben, ohne dass ein Neustart zur automatischen Fehlerkorrektur durchgeführt wird, erhöht sich das Risiko nicht korrigierbarer Fehler, die zu ungeplanten Ausfallzeiten führen können, nicht wesentlich. Tatsächlich haben andere in der Branche öffentlich mitgeteilt, dass ihre Speicherbehandlung keine korrigierbaren Fehler meldet.

In der Intel PowerEdge-BIOS-Version 2.5.4 der 14. Generation und höher wurde eine BIOS-Einstellung namens "Correctable Error Logging" hinzugefügt, um Kunden die Möglichkeit zu geben, die Berichterstattung korrigierbarer Fehler zu deaktivieren, wenn sie dies wünschen, was bei vielen der Fall ist.  Das BIOS plant weiterhin die automatische Fehlerkorrektur für korrigierbare Schwellenwertereignisse, auch ohne Protokollierung. Diese geplante automatische Fehlerkorrektur erfolgt automatisch während des nachfolgenden Systemneustarts.

Um besser auf das Feedback der Branche und der Kunden zu reagieren, wird ab März 2022 bei den Dell PowerEdge-BIOS-Updates die BIOS-Einstellung "Correctable Error Logging" standardmäßig deaktiviert.  Diese BIOS-Option kann erneut aktiviert werden, wenn Kunden weiterhin korrigierbare Speicherschwellenwertereignisse sehen möchten. BIOS-Versionen, bei denen diese Änderung der BIOS-Einstellung enthalten ist:
  • 14G Intel Plattformen – BIOS-Versionen 2.13.3 oder höher
  • 15G AMD-Plattformen: BIOS-Versionen 2.6.5 oder höher
  • 15G Intel Plattformen: BIOS-Versionen 1.5.5 oder höher.

Die Vorteile der automatischen Fehlerkorrektur des DDR4-DIMM nach einem Systemneustart:
  • Ermöglicht die Reparatur eines DDR4-DIMMs ohne Ausbau aus dem System. Alle DDR4-DIMMs von Dell unterstützen die automatische Fehlerkorrektur des Arbeitsspeichers. Hinweis: AMD PowerEdge-Server der 14. Generation verfügen nicht über diese Funktion zur automatischen Fehlerkorrektur.
  • Nutzt verfügbare Ersatzzeilen, die in den DRAM integriert sind, wobei eine fehlerhafte Reihe durch elektrische Sicherung dauerhaft durch eine bekanntermaßen funktionierende Reihe ersetzt wird.
  • Beim nachfolgenden erneuten Training des Speichers werden die "Datenaugen" optimiert, indem die Mittelpunkte neu kalibriert werden, um sicherzustellen, dass der Speicherbus mit der höchsten Signalintegrität arbeitet.


Für korrigierbare Schwellenwertereignisse mit aktivierter BIOS-Einstellung "Protokollierbare Fehlerprotokollierung" empfiehlt Dell im Falle von Speicherschwellenwertereignissen einen Neustart gemäß dem regulären Wartungsplan des Kunden, damit die geplante automatische Fehlerkorrektur oder Selbstkorrektur des Arbeitsspeichers erfolgen kann. Nach dem Neustart werden erfolgreiche oder fehlgeschlagene Ereignisse der automatischen Fehlerkorrektur für die zugehörigen DIMMs protokolliert.

Wenn die BIOS-Einstellung D für "Correctable Error Logging" aktiviert ist, empfiehlt Dell, den Neustart gemäß dem regulären Wartungsplan des Kunden durchzuführen. Beim Neustart werden alle geplanten Vorgänge zur automatischen Fehlerkorrektur automatisch ausgeführt. Das System protokolliert ein Ereignis (MEM0805 oder MEM7114 Ereignisse), wenn der Selbstheilungs-/Selbstkorrekturvorgang nicht erfolgreich war, und empfiehlt weiterhin, das betroffene DIMM physisch auszutauschen.

Empfehlung:
Dell EMC Memory Engineering empfiehlt PowerEdge-Serverkunden mit älteren BIOS-Versionen (vor dem Block 2022 im März 2022), die BIOS-Einstellung "Correctable Error Logging" in " Disabled" zu ändern. Dadurch werden die sporadischen korrigierbaren Speicherschwellenwertereignisse (z. B. Ereignisse vom Typ MEM0802 oder MEM5104) in der Serverinfrastruktur eliminiert, die Serverneustarts empfehlen, um eine automatische Fehlerkorrektur oder Fehlerkorrektur zu ermöglichen. Wie bereits erwähnt, werden alle geplanten Vorgänge zur automatischen Fehlerkorrektur oder -korrektur automatisch ausgeführt, wenn der Server neu gestartet wird, und alle Fehler werden gemeldet.
 

Die BIOS-Einstellung "Correctable Error Logging" kann entweder durch Neustart des Servers auf F2-Einstellungen oder über die iDRAC-GUI geändert werden.
 

So ändern Sie die BIOS-Einstellung mithilfe der F2-Einstellungen:

  • Starten Sie die Server neu, die bei F2-Einstellungen stoppen
  • Setzen Sie unter BIOS Settings –> Memory Settings die Option "Correctable Error Logging" auf "Disabled".
  • Speichern Sie die BIOS-Einstellungen und beenden Sie die F2-Einstellungen

So ändern Sie die BIOS-Einstellung über die iDRAC-GUI:

  • Melden Sie sich bei der iDRAC-GUI an
  • Erweitern Sie unter Konfiguration –> BIOS-Einstellungen den Abschnitt Speichereinstellungen
  • Ändern Sie die Einstellung "Correctable Error Logging" in "Disable".
  • Klicken Sie auf die Schaltfläche "Anwenden", um die Speichereinstellungen zu speichern
  • Vergessen Sie nicht, entweder die Schaltfläche Anwenden und neu starten (um sofort neu zu starten) oder die Schaltfläche Beim nächsten Neustart auszuwählen, um die BIOS-Änderungen zu übernehmen.


Vorhandene arbeitsspeicherbezogene KB-Artikel und Whitepapers werden aktualisiert, um diese empfohlene Änderung widerzuspiegeln.

HINWEIS: Die genehmigte kundenorientierte Nachricht ist als Datei an diesen Artikel angehängt: "Managen korrigierbarer Fehlerbenachrichtigungen vom Dezember 2021 v1.pdf".

Dieser Artikel wird laufend aktualisiert.

Article Properties


Affected Product
AX-6515, AX-7525, Dell EMC vSAN C6420 Ready Node, Dell EMC vSAN MX740c Ready Node, Dell EMC vSAN R440 Ready Node, Dell EMC vSAN R640 Ready Node, Dell EMC vSAN R650 Ready Node, Dell EMC vSAN R6515 Ready Node, Dell EMC vSAN R740 Ready Node , Dell EMC vSAN R740xd Ready Node ...
Product
Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R340, OEMR R440 , PowerEdge XR2, OEMR R540, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R6515, OEMR R6525, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R7515, OEMR R7525, OEMR R840, OEMR R940, OEMR R940xa, OEMR T440, OEMR T550, OEMR T640, OEMR XL T640, OEMR XL R340, PowerEdge C6420, PowerEdge C6525, PowerEdge MX740C, PowerEdge MX840C, PowerEdge R340, PowerEdge R540, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R6515, PowerEdge R6525, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R7515, PowerEdge R7525, PowerEdge R840, PowerEdge R940, PowerEdge R940xa, PowerEdge T440, PowerEdge T550, PowerEdge T640, PowerFlex appliance R650, PowerFlex appliance R6525, Powerflex appliance R750, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R750, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R7515 Ready Node, Dell EMC vSAN R840 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, Dell EMC XC Core XC7525 ...
Last Published Date

10 Feb 2022

Version

2

Article Type

Solution