PowerEdge 14G Intel und 15G Server: Managen korrigierbarer Fehlerschwellenwertereignisse
摘要: Dieser Artikel enthält aktualisierte Empfehlungen für die Verwaltung korrigierbarer Fehlerschwellenwertereignisse (MEM0802 oder MEM5104) auf DDR4-RDIMMs oder LRDIMMs, die in Intel basierten 14G und 15G PowerEdge-Servern und AMD-basierten 15G PowerEdge-Servern installiert sind. ...
症状
Durch die Weiterentwicklung von RAS-Funktionen (Reliability, Accessibility, Serviceability) in Arbeitsspeichern der Enterprise-Klasse verfolgt Dell einen konservativen Ansatz, um seinen Kunden Transparenz zu bieten. Mit dieser Weiterentwicklung entwickelt sich auch der Ansatz von Dell für das Fehlerreporting weiter. So können Sie sich auf Mitteilungen konzentrieren, die eine dringendere Reaktion erfordern, im Vergleich zu Mitteilungen, die primär informativer Natur sind.
Da DRAM-basierte Speichergeometrien immer kleiner werden und Kunden die von ihnen geforderte höhere Performance bereitstellen, ist eine zunehmende Anzahl korrigierbarer Fehler als natürlicher Bestandteil einer einheitlichen Skalierung zu erwarten.
原因
解决方案
Wenn Sie ein System, das korrigierbare Fehler meldet, weiter betreiben, ohne dass ein Neustart zur automatischen Fehlerkorrektur durchgeführt wird, erhöht sich nicht das Risiko nicht korrigierbarer Fehler, die zu ungeplanten Ausfallzeiten führen können. Andere Unternehmen in der Branche haben öffentlich mitgeteilt, dass ihre Speicherverwaltung korrigierbare Fehler nicht meldet.
In der Intel PowerEdge BIOS-Version 2.5.4 der 14. Generation und höher wurde eine BIOS-Einstellung namens "Korrigierbare Fehlerprotokollierung" hinzugefügt, um Kunden die Möglichkeit zu geben, die Berichterstattung über korrigierbare Fehler zu deaktivieren, wenn sie dies wünschen, was viele getan haben. Das BIOS plant weiterhin die automatische Neuinstallation für korrigierbare Schwellenwertereignisse, auch ohne Protokollierung. Diese geplante automatische Neuinstallation erfolgt automatisch während des nachfolgenden Systemneustarts.
Um besser auf das Feedback der Branche und der Kunden zu achten, wird ab März 2022 durch Dell PowerEdge-BIOS-Updates die BIOS-Einstellung "Correctable Error Logging" standardmäßig deaktiviert. Diese BIOS-Option kann erneut aktiviert werden, wenn Kunden weiterhin korrigierbare Speicherschwellenwertereignisse sehen möchten. BIOS-Versionen, bei denen diese Änderung der BIOS-Einstellung enthalten ist:
- 14G Intel Plattformen – BIOS-Versionen 2.13.3 oder höher
- 15G AMD-Plattformen: BIOS-Versionen 2.6.5 oder höher
- 15G Intel Plattformen: BIOS-Versionen 1.5.5 oder höher.
Die Vorteile der automatischen Fehlerkorrektur eines DDR4-DIMM durch einen Systemneustart:
- Es ermöglicht die Reparatur eines DDR4-DIMMs, ohne dass es aus dem System entfernt werden muss. Alle DDR4-DIMMs von Dell unterstützen die Funktion zur automatischen Fehlerkorrektur des Arbeitsspeichers.
- Verwendet verfügbare Ersatzzeilen, die in den DRAM integriert sind, wobei eine fehlerhafte Reihe durch elektrische Sicherung dauerhaft durch eine bekanntermaßen funktionierende Reihe ersetzt wird.
- Durch das nachfolgende erneute Training des Speichers werden die "Datenaugen" optimiert, indem die Mittelpunkte neu kalibriert werden, um sicherzustellen, dass der Speicherbus mit der höchsten Signalintegrität arbeitet.
Bei korrigierbaren Schwellenwertereignissen mit aktivierter BIOS-Einstellung "Protokollierbare Fehlerprotokollierung" empfiehlt Dell Technologies im Falle von Speicherschwellenwertereignissen einen Neustart gemäß dem regulären Wartungsplan des Kunden, damit die geplante automatische Neuinstallation oder Selbstkorrektur des Speichers durchgeführt werden kann. Nach dem Neustart werden erfolgreiche oder nicht erfolgreiche automatische Neuinstallationsereignisse für die zugehörigen DIMMs protokolliert.
Wenn die BIOS-Einstellung "Correctable Error Logging" deaktiviert ist, empfiehlt Dell Technologies einen Neustart gemäß dem regulären Wartungsplan des Kunden. Nach dem Neustart werden alle geplanten automatischen Neuinstallationsvorgänge automatisch ausgeführt. Das System protokolliert ein Ereignis (MEM0805 oder Ereignisse vom Typ MEM7114), wenn der automatische Neuinstallations- oder Selbstkorrekturvorgang nicht erfolgreich war, und empfiehlt weiterhin, das betroffene DIMM physisch auszutauschen.
Empfehlung:
Dell Memory Engineering empfiehlt PowerEdge-Serverkunden mit älteren BIOS-Versionen (vor den Blockversionen vom März 2022), die BIOS-Einstellung "Correctable Error Logging" in " Disabled" zu ändern. Dadurch werden sporadische korrigierbare Speicherschwellenwertereignisse (z. B. Ereignisse vom Typ MEM0802 oder MEM5104) in der Serverinfrastruktur eliminiert, die Serverneustarts empfehlen, um eine automatische Neuinstallation oder Selbstkorrektur zu ermöglichen. Wie bereits erwähnt, werden alle geplanten automatischen Neuinstallations- oder Selbstkorrekturvorgänge automatisch ausgeführt, wenn der Server neu gestartet und Fehler gemeldet werden.
Die BIOS-Einstellung "Correctable Error Logging" kann entweder durch einen Neustart des Servers auf die F2-Einstellungen oder über die iDRAC-WebUI geändert werden.
So ändern Sie die BIOS-Einstellung über die F2-Systemeinstellungen:
-
Starten Sie die Server neu, die bei F2-Einstellungen stoppen
-
Ändern Sie in der Auswahl BIOS Settings>Memory Settings die Option Correctable Error Logging in Disabled.
-
Speichern Sie die BIOS-Einstellungen und beenden Sie die F2-Einstellungen
So ändern Sie die BIOS-Einstellung über die iDRAC-WebUI:
- Anmelden bei der iDRAC-WebUI
- Erweitern Sie unter Konfiguration >BIOS-Einstellungen den Abschnitt Speichereinstellungen
- Ändern Sie die Einstellung "Korrigierbare Fehlerprotokollierung" in "Deaktiviert".
- Klicken Sie auf die Schaltfläche Anwenden , um die Speichereinstellungen zu speichern
- Vergessen Sie nicht, entweder die Schaltfläche Anwenden und neu starten(um sofort neu zu starten) oder die Schaltfläche Beim nächsten Neustart auszuwählen, um die BIOS-Änderungen zu übernehmen.
Vorhandene arbeitsspeicherbezogene Artikel und Whitepapers werden aktualisiert, um diese empfohlene Änderung widerzuspiegeln.
Managing Correctable Error Notices Dec 2021 v1.pdf“.
Dieser Artikel wird aktualisiert, sobald neue Informationen verfügbar sind.