PowerEdge 14G Intel und 15G Server: Managen korrigierbarer Fehlerschwellenwertereignisse

摘要: Dieser Artikel enthält aktualisierte Empfehlungen für die Verwaltung korrigierbarer Fehlerschwellenwertereignisse (MEM0802 oder MEM5104) auf DDR4-RDIMMs oder LRDIMMs, die in Intel basierten 14G und 15G PowerEdge-Servern und AMD-basierten 15G PowerEdge-Servern installiert sind. ...

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

症状

Hinweis: Dieser Artikel gilt nicht für AMD-basierte PowerEdge-Server der 14. Generation, wie z. B. die 64x5- oder 74x5-Plattformen, da diese nicht über diese automatische Neuinstallationsfunktion nach der Paketreparatur verfügen, obwohl das DIMM selbst dies unterstützt.

Durch die Weiterentwicklung von RAS-Funktionen (Reliability, Accessibility, Serviceability) in Arbeitsspeichern der Enterprise-Klasse verfolgt Dell einen konservativen Ansatz, um seinen Kunden Transparenz zu bieten. Mit dieser Weiterentwicklung entwickelt sich auch der Ansatz von Dell für das Fehlerreporting weiter. So können Sie sich auf Mitteilungen konzentrieren, die eine dringendere Reaktion erfordern, im Vergleich zu Mitteilungen, die primär informativer Natur sind.

Da DRAM-basierte Speichergeometrien immer kleiner werden und Kunden die von ihnen geforderte höhere Performance bereitstellen, ist eine zunehmende Anzahl korrigierbarer Fehler als natürlicher Bestandteil einer einheitlichen Skalierung zu erwarten.

原因

In der globalen Serverbranche setzt sich zunehmend die Auffassung durch, dass einige korrigierbare Fehler pro DIMM unvermeidbar sind und nicht zwangsläufig einen Austausch des Arbeitsspeichermoduls oder gar einen sofortigen Neustart rechtfertigen, um eine automatische Neuinstallation zu initiieren.

解决方案

Wenn Sie ein System, das korrigierbare Fehler meldet, weiter betreiben, ohne dass ein Neustart zur automatischen Fehlerkorrektur durchgeführt wird, erhöht sich nicht das Risiko nicht korrigierbarer Fehler, die zu ungeplanten Ausfallzeiten führen können. Andere Unternehmen in der Branche haben öffentlich mitgeteilt, dass ihre Speicherverwaltung korrigierbare Fehler nicht meldet.

In der Intel PowerEdge BIOS-Version 2.5.4 der 14. Generation und höher wurde eine BIOS-Einstellung namens "Korrigierbare Fehlerprotokollierung" hinzugefügt, um Kunden die Möglichkeit zu geben, die Berichterstattung über korrigierbare Fehler zu deaktivieren, wenn sie dies wünschen, was viele getan haben. Das BIOS plant weiterhin die automatische Neuinstallation für korrigierbare Schwellenwertereignisse, auch ohne Protokollierung. Diese geplante automatische Neuinstallation erfolgt automatisch während des nachfolgenden Systemneustarts.

Um besser auf das Feedback der Branche und der Kunden zu achten, wird ab März 2022 durch Dell PowerEdge-BIOS-Updates die BIOS-Einstellung "Correctable Error Logging" standardmäßig deaktiviert. Diese BIOS-Option kann erneut aktiviert werden, wenn Kunden weiterhin korrigierbare Speicherschwellenwertereignisse sehen möchten. BIOS-Versionen, bei denen diese Änderung der BIOS-Einstellung enthalten ist:

  • 14G Intel Plattformen – BIOS-Versionen 2.13.3 oder höher
  • 15G AMD-Plattformen: BIOS-Versionen 2.6.5 oder höher
  • 15G Intel Plattformen: BIOS-Versionen 1.5.5 oder höher.

Die Vorteile der automatischen Fehlerkorrektur eines DDR4-DIMM durch einen Systemneustart:

  • Es ermöglicht die Reparatur eines DDR4-DIMMs, ohne dass es aus dem System entfernt werden muss. Alle DDR4-DIMMs von Dell unterstützen die Funktion zur automatischen Fehlerkorrektur des Arbeitsspeichers.
 
Hinweis: AMD PowerEdge-Server der 14. Generation verfügen nicht über diese automatische Neuinstallationsfunktion.
 
  • Verwendet verfügbare Ersatzzeilen, die in den DRAM integriert sind, wobei eine fehlerhafte Reihe durch elektrische Sicherung dauerhaft durch eine bekanntermaßen funktionierende Reihe ersetzt wird.
  • Durch das nachfolgende erneute Training des Speichers werden die "Datenaugen" optimiert, indem die Mittelpunkte neu kalibriert werden, um sicherzustellen, dass der Speicherbus mit der höchsten Signalintegrität arbeitet.

Bei korrigierbaren Schwellenwertereignissen mit aktivierter BIOS-Einstellung "Protokollierbare Fehlerprotokollierung" empfiehlt Dell Technologies im Falle von Speicherschwellenwertereignissen einen Neustart gemäß dem regulären Wartungsplan des Kunden, damit die geplante automatische Neuinstallation oder Selbstkorrektur des Speichers durchgeführt werden kann. Nach dem Neustart werden erfolgreiche oder nicht erfolgreiche automatische Neuinstallationsereignisse für die zugehörigen DIMMs protokolliert.

Wenn die BIOS-Einstellung "Correctable Error Logging" deaktiviert ist, empfiehlt Dell Technologies einen Neustart gemäß dem regulären Wartungsplan des Kunden. Nach dem Neustart werden alle geplanten automatischen Neuinstallationsvorgänge automatisch ausgeführt. Das System protokolliert ein Ereignis (MEM0805 oder Ereignisse vom Typ MEM7114), wenn der automatische Neuinstallations- oder Selbstkorrekturvorgang nicht erfolgreich war, und empfiehlt weiterhin, das betroffene DIMM physisch auszutauschen.

Empfehlung:
Dell Memory Engineering empfiehlt PowerEdge-Serverkunden mit älteren BIOS-Versionen (vor den Blockversionen vom März 2022), die BIOS-Einstellung "Correctable Error Logging" in " Disabled" zu ändern. Dadurch werden sporadische korrigierbare Speicherschwellenwertereignisse (z. B. Ereignisse vom Typ MEM0802 oder MEM5104) in der Serverinfrastruktur eliminiert, die Serverneustarts empfehlen, um eine automatische Neuinstallation oder Selbstkorrektur zu ermöglichen. Wie bereits erwähnt, werden alle geplanten automatischen Neuinstallations- oder Selbstkorrekturvorgänge automatisch ausgeführt, wenn der Server neu gestartet und Fehler gemeldet werden.

Die BIOS-Einstellung "Correctable Error Logging" kann entweder durch einen Neustart des Servers auf die F2-Einstellungen oder über die iDRAC-WebUI geändert werden.

So ändern Sie die BIOS-Einstellung über die F2-Systemeinstellungen:

  • Starten Sie die Server neu, die bei F2-Einstellungen stoppen
  • Ändern Sie in der Auswahl BIOS Settings>Memory Settings die Option Correctable Error Logging in Disabled.
  • Speichern Sie die BIOS-Einstellungen und beenden Sie die F2-Einstellungen

So ändern Sie die BIOS-Einstellung über die iDRAC-WebUI:

  • Anmelden bei der iDRAC-WebUI
  • Erweitern Sie unter Konfiguration >BIOS-Einstellungen den Abschnitt Speichereinstellungen
  • Ändern Sie die Einstellung "Korrigierbare Fehlerprotokollierung" in "Deaktiviert".
  • Klicken Sie auf die Schaltfläche Anwenden , um die Speichereinstellungen zu speichern
  • Vergessen Sie nicht, entweder die Schaltfläche Anwenden und neu starten(um sofort neu zu starten) oder die Schaltfläche Beim nächsten Neustart auszuwählen, um die BIOS-Änderungen zu übernehmen.

Vorhandene arbeitsspeicherbezogene Artikel und Whitepapers werden aktualisiert, um diese empfohlene Änderung widerzuspiegeln.
 

Hinweis: Die genehmigte kundenorientierte Botschaft ist als Datei an diesen Artikel angehängt –"Managing Correctable Error Notices Dec 2021 v1.pdf“.


Dieser Artikel wird aktualisiert, sobald neue Informationen verfügbar sind.

受影响的产品

Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, PowerEdge XR2, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R840, OEMR R940, OEMR R940xa, Poweredge C4140, PowerEdge C6420, PowerEdge C6520 , PowerEdge C6525, PowerEdge MX740C, PowerEdge MX750c, PowerEdge MX840C, PowerEdge R350, PowerEdge R440, PowerEdge R450, PowerEdge R540, PowerEdge R550, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R6515, PowerEdge R6525, PowerEdge R740, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R7515, PowerEdge R7525, PowerEdge R840, PowerEdge R940, PowerEdge R940xa, PowerEdge T340, PowerEdge T350, PowerEdge T360, PowerEdge T440, PowerEdge T550, PowerEdge T560, PowerEdge T640, PowerEdge XE2420, PowerEdge XE7420, PowerEdge XE7440, PowerEdge XE8545, PowerEdge XR11, PowerEdge XR12, PowerEdge XR4510c, PowerEdge XR4520c, VxFlex Ready Node R740xd, Dell EMC vSAN R740 Ready Node, Dell EMC vSAN R740xd Ready Node, Dell EMC vSAN R840 Ready Node, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840 ...

产品

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R340, OEMR R440 , PowerEdge XR2, OEMR R540, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R6515, OEMR R6525, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R7515, OEMR R7525, OEMR R840, OEMR R940, OEMR R940xa, OEMR T440, OEMR T550, OEMR T640, OEMR XL T640, OEMR XL R340, PowerEdge C6420, PowerEdge C6525, PowerEdge MX740C, PowerEdge MX840C, PowerEdge R340, PowerEdge R540, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R6515, PowerEdge R6525, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R7515, PowerEdge R7525, PowerEdge R840, PowerEdge R940, PowerEdge R940xa, PowerEdge T440, PowerEdge T550, PowerEdge T640, PowerFlex appliance R650, PowerFlex appliance R6525, Powerflex appliance R750, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R750, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R7515 Ready Node, Dell EMC vSAN R840 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, Dell EMC XC Core XC7525 ...
文章属性
文章编号: 000194574
文章类型: Solution
上次修改时间: 07 11月 2025
版本:  5
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。