PowerEdge: Richtlinien zur Fehlerbehebung bei Speicherproblemen
Summary: Dieser Artikel enthält die empfohlenen Schritte zur Behebung von arbeitsspeicherbezogenen Ereignissen auf Dell PowerEdge-Servern.
Instructions
Allgemeine Speicher-Ereigniscodes
Ihr Server kann Speicherereignisse wie (aber nicht beschränkt auf) Folgendes melden:
- MEM0802
- MEM6102
- MEM6101
- MEM5100
- MEM5104
- UEFI0103 – Speicherinitialisierungsfehler am Steckplatz:
- MEM6101 – Diagnosewarnung im Speichergerät bei Geräte- und Systemkonfiguration prüfen. (Erweiterte ID: )
- MEM0001 – Nicht korrigierbares Ereignis verbraucht; Kann zu einem Neustart des Servers führen, wenn das Betriebssystem nicht wiederhergestellt werden kann.
- MEM9072 - Patrol Scrub hat nicht korrigierbaren Fehler gefunden (nicht verbraucht); keine Auswirkungen, es sei denn, das Betriebssystem verwendet den Speicher.
- MEM6104 - Nicht korrigierbarer Fehler; Erweiterte Bytes zeigen an, ob die Adresse verbraucht oder von Patrol Scrub identifiziert wurde.
Erste Schritte zum Troubleshooting
Die meisten der oben genannten Probleme werden behoben oder korrekt diagnostiziert, indem die Firmware bestimmter Komponenten aktualisiert wird. Firmwareupdates enthalten Korrekturen für bekannte Probleme und Verbesserungen, sodass sie ein wichtiger erster Schritt zur Lösung sind.
- Aktualisieren Sie die Firmware der folgenden Komponenten:
- CPLD
- iDRAC
- BIOS
Hinweis: Wenn die CPLD-Firmware für das Servermodell nicht verfügbar ist, ist dies kein Problem. Fahren Sie mit den restlichen Updates fortGewusst wie: Befolgen Sie die Schritte in PowerEdge: Anleitung zum Durchführen von Firmwareupdates für alle wichtigen Komponenten - Löschen Sie das Systemereignisprotokoll (SEL), indem Sie die Schritte im folgenden Artikel befolgen.
- Führen Sie zwei vollständige Neustarts des Servers durch.
- Erfassen Sie ein Supportprotokoll (TSR) und überprüfen Sie, ob Arbeitsspeicherereignisse gemeldet werden (PowerEdge: Exportieren einer SupportAssist-Erfassung mithilfe eines iDRAC)
Erweiterte Schritte zum Troubleshooting
Sobald die ersten Schritte abgeschlossen sind, ist das Problem möglicherweise behoben oder je nach den Informationen in den TSR-Protokollen ist möglicherweise eine weitere Fehlerbehebung erforderlich, um die defekte Komponente zu identifizieren.
Bei der Überprüfung der TSR-Protokolle werden möglicherweise die folgenden Fehlermeldungen identifiziert:
- In den Protokollen gefundene Einzelbit-Arbeitsspeicherereignisse (heruntergestufter Speicher):
- Schalten Sie das System aus, trennen Sie die Stromversorgung, drücken Sie den Netzschalter und halten Sie ihn 10 Sekunden lang, um den Reststrom zu entfernen.
- Verschleißschutzausrüstung vor elektrostatischer Entladung (ESD)
- Entfernen des gemeldeten DIMM
- Tauschen Sie das DIMM in einen anderen Steckplatz mit einem zweifelsfrei funktionierenden DIMM aus
- Schließen Sie es und schließen Sie es wieder an die Stromversorgung an
- Schalten Sie es ein.
- Starten Sie ihn zweimal neu (POST > OS > Restart > POST > OS > Restart)
- Erfassen Sie einen neuen TSR und prüfen Sie erneut auf Speicherereignisse
- In den Protokollen gefundene Multibit-Speicherereignisse (fehlerhafter Speicher):
- Schalten Sie das System aus, trennen Sie die Stromversorgung, drücken Sie den Netzschalter und halten Sie ihn 10 Sekunden lang, um den Reststrom zu entfernen.
- Verschleißschutzausrüstung vor elektrostatischer Entladung (ESD)
- Entfernen des gemeldeten DIMM
- Überprüfen Sie, ob das System über eine unterstützte Speicherkonfiguration verfügt. Andernfalls entfernen Sie zusätzliche DIMMs, bis eine unterstützte Konfiguration erreicht ist
- Schließen Sie es und schließen Sie es wieder an die Stromversorgung an
- Schalten Sie es ein.
- Erfassen Sie einen neuen TSR und prüfen Sie erneut auf Speicherereignisse
Je nach Ergebnis der Schritte zur erweiterten Fehlerbehebung ist ein Austausch von Teilen entweder für das Speicher-DIMM erforderlich, wenn das Speicherereignis den Steckplatz geändert hat, oder für die Hauptplatine, wenn das Speicherereignis auf demselben Steckplatz verbleibt.