Schritte zum Bestätigen und Beheben von DIMM-Fehlern auf einem Cisco Server der C Serie
Summary: Schritte zum Bestätigen und Beheben von DIMM-Fehlern auf einem Cisco Server der C Serie
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Instructions
Anleitung zum Löschen von DIMM-Fehlern auf einem VxBlock UCS-Server der C-Serie
Fakten
- Cisco C Serie Rack Mounted Server (können von UCSM verwaltet werden)
Problem
- Warnmeldungen werden in CIMC oder UCSM angezeigt, z. B.:
F0184
F0185
F0137
F1236
F1237
- PSOD – Violetter Bildschirm des Todes (auf KVM oder Konsole des Hosts)
Lösung
Protokollerfassung
Erfassen Sie die Protokolle des betroffenen Servers, BEVOR ein Troubleshooting durchgeführt wird. Wir benötigen eine Baseline, um den Erfolg der Schritte zur Fehlerbehebung zu bestimmen.
Rack-Server der C Serie können entweder eigenständig sein oder von UCSM verwaltet werden. Die Schritte zum Erfassen und Überprüfen der Protokolle unterscheiden sich geringfügig, je nachdem, um welche es sich handelt.
- Eigenständige.
- Verwaltet von UCSM: Wählen Sie im Feld "Optionen " "Rackmontage" anstelle von "Gehäuse" oder "ucsm" aus.
- Wenn Sie nur CIMC-Protokolle haben, können Sie erkennen, dass sie von einem UCSM-verwalteten Server stammen, da der Dateiname CIMCXXX enthält. Die Protokolldateien befinden sich außerdem in einem komprimierten Verzeichnis namens Server XX statt direkt im gezippten Hauptverzeichnis. Wenn dies angezeigt wird, sind auch UCSM-Protokolle erforderlich.
Protokollanalyse
Die Hauptunterschiede zwischen Protokollen sind die
- Zusätzliche Informationen finden Sie in der Datei UCSM sam_techsupport für mit UCSM verwaltete Server
- Speicherort der Verzeichnisse. (siehe Hinweis unter Protokollerfassung)
UCSM_X_TechSupport.tar\sam_techsupportinfo
- 'show server inventory expand' (Serverseriennummer bestätigen, PID finden). Beispiel:
Server 1:
Modell: UCSC-C220-M4S
Bestätigte Seriennummer (SN): FCHXXXXXXXXXXXXX
Bestätigter Produktname: Cisco UCS C220 M4S
Anerkannte PID: UCSC-C220-M4S
- "show fault detail" (zugehörige Fehler finden) – Beispiel:
Schweregrad: Haupt Code: F0844-KARTON Letzte Übergangszeit: 2017-05-23T12:40:40.774 Beschreibung: DIMM DIMM_B2 auf Server 24 operaState: deaktiviert
- 'show server memory detail' (betroffene DIMM-PID ausfindig machen) – Beispiel:
Standort: DIMM_A1 Produktname: 16 GB DDR4-2400-MHz-RDIMM/PC4-19200/Single Rank/x4/1,2 V PID: UCS-MR-xxxxxxxx-AHinweis: Die meisten dieser Informationen sind in sam_techsupport für UCSM-verwaltete Server
verfügbar. [ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
- Gehäuse-Infobereich
====================[ Gehäuse-Infobereich ]======================
Gehäuse-Teilenummer: [74-xxxxx-02]
Seriennummer des Gehäuses: [FCHXXXXXXXXX]
- Board-Bereich
========================[ Board-Bereich ]=========================
Produktname Platine : [UCSC-C240-MXXXXX]
Seriennummer der Platine: [FCHXXXXXXXX]
- SMBIOS-Tabellen-Speicherabbild BEGIN
Hinweis: Dies ist möglicherweise nicht die Cisco PID, kann aber korreliert werden, um sie zu finden
Speichergerät
Locator: DIMM_A1
Teilenummer: 36ASxxxxxx-2G3B1-KARTON Abschnitt Abfragen aller IPMI-Sensoren:
Korrigierbare und nicht korrigierbare Fehler: Sensorname | Lektüre | Einheit | Stand | LNR | LC | LNC | UNC | UC | UNR DDR4_P2_E1_ECC | 63250.000 | Fehler | UNR | NA | NA | NA | NA | NA | 60250.000 DDR4_P2_E2_ECC | 63750.000 | Fehler | UNR | NA | NA | NA | NA | NA | 60250.000 DDR4_P2_E3_ECC | 63250.000 | Fehler | UNR | NA | NA | NA | NA | NA | 60250.000
[ServerXX_TechSupport.tar]\var\log\sel\log
- Überprüfen Sie die Protokolle auf korrigierbare und nicht korrigierbare ECC-Fehler:
Arbeitsspeicher DDR4_P2_E2_ECC #0xb0 | Lesen von 512 korrigierbaren ECC-Fehlern auf CPU2 DIMM E2 | Behauptet
- Überprüfen Sie die Protokolle auf CATERR_N ... Bestätigt | Bestätigten Einträgen, ein Beispiel ist wie folgt:
03.06.2017 20:02:12 | CIMC | Prozessor CATERR_N #0x70 | Prognostizierter Fehler bestätigt | BehauptetHinweis: Es ist ein erwartetes Verhalten, dass CATERR_N nicht bestätigt werden | Wird in den Protokollen zur Startzeit bestätigt [ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
- Ermitteln Sie korrigierbare/nicht korrigierbare Fehlerzahlen für betroffene DIMM(s) und kopieren Sie die relevanten Felder. Ein Beispiel ist wie folgt:
================== ZUSAMMENFASSUNG DER DIMM-FEHLER =================== ------- DIMM E2----------- ANZAHL DER AKTUELLEN STECKPLATZFEHLER : Korrigierbare ECC-Fehler seit dem letzten Serverstart: 0 Kumulative korrigierbare ECC-Fehleranzahl : 2560 Nicht korrigierbare ECC-Fehler seit dem letzten Serverstart: 0 Kumulative nicht korrigierbare ECC-Fehleranzahl : 3 ANZAHL DER VORHERIGEN STECKPLATZFEHLER : Korrigierbare ECC-Fehleranzahl : 0 Nicht korrigierbare ECC-Fehleranzahl : 0
[ServerXX_TechSupport.tar]\var\sel_decode.txt
- Spiel für Spiel von SEL-Einträgen und Fehlern
eventLogMaxEntries: 1445 eventLogList: --- Id: 1440 Schweregrad: Kritisch Datetime: 2017-03-10 00:57:17 dateTimeOrder: 00005 Beschreibung: "Systemsoftware-Ereignis: POST-Sensor, DIMM-Sockel 3, Kanal E, Prozessorsockel 2. Deaktiviert, weil anderer Speicher im selben Kanal ausgefallen ist. [0xE542] geltend gemacht wurde"
Bei eigenständigen Servern:
- tmp\tech_support.frupids
====== Dumping von IPMI-FRU-Einträgen ====== Produktname: UCSC-C220-xxx Produktteilenummer: 74-xxxx-01 Produktversion: Eine Produktseriennummer: FCHxxxxxxxN – Seriennummer des Servers ====== Bestandskatalog-PIDs ====== DIMMList: Name: DIMM_A1Description: 8 GB DDR3-1333-MHz-RDIMM/PC3-10600/Dual-Rank/1,35 V PID: UCS-MR-1X082RX-A – DIMM-PID
Nach der Analyse
Stellen Sie nach der Durchführung der Analyse sicher, dass der Service-Request mit der korrekten Seriennummer des betroffenen Servers aktualisiert wird und die Datenbank nach früheren RMAs durchsucht wird, die dem untersuchten Blade zugeordnet sind. Wenn das fehlerhafte DIMM vor kurzem ausgetauscht wurde, ist möglicherweise die Hauptplatine verdächtig.
Fügen Sie Ihre Analyse dem Service-Request hinzu.
Logisches Troubleshooting
Sobald Fehler identifiziert wurden, werden wir versuchen, sie alle zu löschen und Zähler und die Fehlerregisterkarte in UCSM zu überwachen, um festzustellen, ob sie weiterhin bestehen.
Melden Sie sich bei der Server-Befehlszeile an.
Zähler für Speicherfehler löschen
Server# Bereich Gehäuse Server /Gehäuse # Reset-ECCLöschen Sie die Systemereignisprotokolle mit den folgenden Befehlen:
Server# Scope SEL Server /sel # löschen Mit diesem Vorgang wird die gesamte sel gelöscht. Weiter? [y|N]y
Setzen Sie das CIMC-Protokoll mit den folgenden Befehlen zurück:
Server# Bereich CIMC Server /cimc # Bereichsprotokoll Server /cimc/log # löschen
Überwachen Sie die Umgebung 48 Stunden lang.
Wenn der Fehler weiterhin besteht, erfassen Sie einen neuen Satz UCS- und Gehäuseprotokolle, bestätigen Sie die Analyse, formulieren Sie einen Aktionsplan basierend auf den Nachweisen und fahren Sie mit dem nächsten Abschnitt fort.
Ursache
- DIMM-Fehler werden in der Regel durch ein fehlerhaftes DIMM oder manchmal durch eine fehlerhafte Hauptplatine verursacht
Hinweise
- Keine
Additional Information
Weitere Informationen finden Sie in diesem Video:
Affected Products
Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems SeriesArticle Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version: 4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.