Schritte zum Bestätigen und Beheben von DIMM-Fehlern auf einem Cisco Server der C Serie

Summary: Schritte zum Bestätigen und Beheben von DIMM-Fehlern auf einem Cisco Server der C Serie

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

Anleitung zum Löschen von DIMM-Fehlern auf einem VxBlock UCS-Server der C-Serie

Fakten

Cisco C Serie Rack Mounted Server (können von UCSM verwaltet werden)

Problem

Warnmeldungen werden in CIMC oder UCSM angezeigt, z. B.:

F0184
F0185
F0137
F1236
F1237

PSOD – Violetter Bildschirm des Todes (auf KVM oder Konsole des Hosts)

Lösung

Protokollerfassung

Erfassen Sie die Protokolle des betroffenen Servers, BEVOR ein Troubleshooting durchgeführt wird. Wir benötigen eine Baseline, um den Erfolg der Schritte zur Fehlerbehebung zu bestimmen.

Rack-Server der C Serie können entweder eigenständig sein oder von UCSM verwaltet werden. Die Schritte zum Erfassen und Überprüfen der Protokolle unterscheiden sich geringfügig, je nachdem, um welche es sich handelt.

Eigenständige.
Verwaltet von UCSM: Wählen Sie im Feld "Optionen " "Rackmontage" anstelle von "Gehäuse" oder "ucsm" aus.
Wenn Sie nur CIMC-Protokolle haben, können Sie erkennen, dass sie von einem UCSM-verwalteten Server stammen, da der Dateiname CIMCXXX enthält. Die Protokolldateien befinden sich außerdem in einem komprimierten Verzeichnis namens Server XX statt direkt im gezippten Hauptverzeichnis. Wenn dies angezeigt wird, sind auch UCSM-Protokolle erforderlich.

Wenn auf dem Server ein PSOD aufgetreten ist, erstellen Sie einen Screenshot des PSOD und erfassen Sie vSphere-/Hostprotokolle.

Protokollanalyse

Die Hauptunterschiede zwischen Protokollen sind die

Zusätzliche Informationen finden Sie in der Datei UCSM sam_techsupport für mit UCSM verwaltete Server
Speicherort der Verzeichnisse. (siehe Hinweis unter Protokollerfassung)

Hilfreiche Protokollspeicherorte in UCSM- und CIMC-Protokollen:

UCSM_X_TechSupport.tar\sam_techsupportinfo

'show server inventory expand' (Serverseriennummer bestätigen, PID finden). Beispiel:

Server 1:
     Modell: UCSC-C220-M4S
     Bestätigte Seriennummer (SN): FCHXXXXXXXXXXXXX
     Bestätigter Produktname: Cisco UCS C220 M4S
     Anerkannte PID: UCSC-C220-M4S

"show fault detail" (zugehörige Fehler finden) – Beispiel:

Schweregrad: Haupt
Code: F0844-KARTON
Letzte Übergangszeit: 2017-05-23T12:40:40.774
Beschreibung: DIMM DIMM_B2 auf Server 24 operaState: deaktiviert

'show server memory detail' (betroffene DIMM-PID ausfindig machen) – Beispiel:

Standort: DIMM_A1
Produktname: 16 GB DDR4-2400-MHz-RDIMM/PC4-19200/Single Rank/x4/1,2 V
PID: UCS-MR-xxxxxxxx-A

Hinweis: Die meisten dieser Informationen sind in sam_techsupport für UCSM-verwaltete Server

verfügbar. [ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt

Gehäuse-Infobereich

Suchen Sie die Seriennummer des Servers, die als "Gehäuseseriennummer" aufgeführt ist. Beispiel wie folgt:

====================[ Gehäuse-Infobereich ]======================
            Gehäuse-Teilenummer: [74-xxxxx-02]
            Seriennummer des Gehäuses: [FCHXXXXXXXXX]

Board-Bereich

Suchen Sie die PID und Seriennummer der Hauptplatine. Beispiel wie folgt:

========================[ Board-Bereich ]=========================
            Produktname Platine : [UCSC-C240-MXXXXX]
            Seriennummer der Platine: [FCHXXXXXXXX]

SMBIOS-Tabellen-Speicherabbild BEGIN

Suchen Sie die DIMM-Teilenummer unter Speichergerät\Teilesuche. Beispiel wie folgt:
Hinweis: Dies ist möglicherweise nicht die Cisco PID, kann aber korreliert werden, um sie zu finden

Speichergerät
           Locator: DIMM_A1
           Teilenummer: 36ASxxxxxx-2G3B1-KARTON

Abschnitt Abfragen aller IPMI-Sensoren:

Korrigierbare und nicht korrigierbare Fehler:
Sensorname | Lektüre | Einheit | Stand | LNR | LC | LNC | UNC | UC | UNR    
DDR4_P2_E1_ECC | 63250.000 | Fehler | UNR | NA | NA | NA | NA | NA | 60250.000 DDR4_P2_E2_ECC | 63750.000 | Fehler | UNR | NA | NA | NA | NA | NA | 60250.000
DDR4_P2_E3_ECC | 63250.000 | Fehler | UNR | NA | NA | NA | NA | NA | 60250.000

[ServerXX_TechSupport.tar]\var\log\sel\log

Überprüfen Sie die Protokolle auf korrigierbare und nicht korrigierbare ECC-Fehler:

Arbeitsspeicher DDR4_P2_E2_ECC #0xb0 | Lesen von 512 korrigierbaren ECC-Fehlern auf CPU2 DIMM E2 | Behauptet

Überprüfen Sie die Protokolle auf CATERR_N ... Bestätigt | Bestätigten Einträgen, ein Beispiel ist wie folgt:

03.06.2017 20:02:12 | CIMC | Prozessor CATERR_N #0x70 | Prognostizierter Fehler bestätigt | Behauptet

Hinweis: Es ist ein erwartetes Verhalten, dass CATERR_N nicht bestätigt werden | Wird in den Protokollen zur Startzeit bestätigt [ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt

Ermitteln Sie korrigierbare/nicht korrigierbare Fehlerzahlen für betroffene DIMM(s) und kopieren Sie die relevanten Felder. Ein Beispiel ist wie folgt:

================== ZUSAMMENFASSUNG DER DIMM-FEHLER ===================
------- DIMM E2-----------
  ANZAHL DER AKTUELLEN STECKPLATZFEHLER :
      Korrigierbare ECC-Fehler seit dem letzten Serverstart: 0
      Kumulative korrigierbare ECC-Fehleranzahl : 2560
      Nicht korrigierbare ECC-Fehler seit dem letzten Serverstart: 0
      Kumulative nicht korrigierbare ECC-Fehleranzahl : 3
   ANZAHL DER VORHERIGEN STECKPLATZFEHLER :
      Korrigierbare ECC-Fehleranzahl : 0
      Nicht korrigierbare ECC-Fehleranzahl : 0

[ServerXX_TechSupport.tar]\var\sel_decode.txt

Spiel für Spiel von SEL-Einträgen und Fehlern

eventLogMaxEntries: 1445
eventLogList: 
---
Id: 1440
Schweregrad: Kritisch
Datetime: 2017-03-10 00:57:17 
dateTimeOrder: 00005
Beschreibung: "Systemsoftware-Ereignis: POST-Sensor, DIMM-Sockel 3, Kanal E, Prozessorsockel 2. Deaktiviert, weil anderer Speicher im selben Kanal ausgefallen ist. [0xE542] geltend gemacht wurde"

Bei eigenständigen Servern:

tmp\tech_support.frupids

====== Dumping von IPMI-FRU-Einträgen ======
Produktname: UCSC-C220-xxx
Produktteilenummer: 74-xxxx-01
Produktversion: Eine
 Produktseriennummer: FCHxxxxxxxN – Seriennummer des Servers

====== Bestandskatalog-PIDs ======
DIMMList: 
Name: DIMM_A1Description: 8 GB DDR3-1333-MHz-RDIMM/PC3-10600/Dual-Rank/1,35 V
PID: UCS-MR-1X082RX-A – DIMM-PID

Nach der Analyse
Stellen Sie nach der Durchführung der Analyse sicher, dass der Service-Request mit der korrekten Seriennummer des betroffenen Servers aktualisiert wird und die Datenbank nach früheren RMAs durchsucht wird, die dem untersuchten Blade zugeordnet sind. Wenn das fehlerhafte DIMM vor kurzem ausgetauscht wurde, ist möglicherweise die Hauptplatine verdächtig.

Fügen Sie Ihre Analyse dem Service-Request hinzu.

Logisches Troubleshooting

Sobald Fehler identifiziert wurden, werden wir versuchen, sie alle zu löschen und Zähler und die Fehlerregisterkarte in UCSM zu überwachen, um festzustellen, ob sie weiterhin bestehen.
Melden Sie sich bei der Server-Befehlszeile an.

Zähler für Speicherfehler löschen

Server# Bereich Gehäuse
Server /Gehäuse # Reset-ECC

Löschen Sie die Systemereignisprotokolle mit den folgenden Befehlen:

Server# Scope SEL
Server /sel # löschen 
Mit diesem Vorgang wird die gesamte sel gelöscht.
Weiter? [y|N]y

Setzen Sie das CIMC-Protokoll mit den folgenden Befehlen zurück:

Server# Bereich CIMC
Server /cimc # Bereichsprotokoll
Server /cimc/log # löschen

Überwachen Sie die Umgebung 48 Stunden lang.
Wenn der Fehler weiterhin besteht, erfassen Sie einen neuen Satz UCS- und Gehäuseprotokolle, bestätigen Sie die Analyse, formulieren Sie einen Aktionsplan basierend auf den Nachweisen und fahren Sie mit dem nächsten Abschnitt fort.

Ursache

DIMM-Fehler werden in der Regel durch ein fehlerhaftes DIMM oder manchmal durch eine fehlerhafte Hauptplatine verursacht

Hinweise

Keine

Additional Information

Weitere Informationen finden Sie in diesem Video:

Affected Products

Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems Series

Article Number: 000194450

Article Type: How To

Last Modified: 07 Jan 2025

Version: 4

Check if your device is covered by Support Services.

Schritte zum Bestätigen und Beheben von DIMM-Fehlern auf einem Cisco Server der C Serie

Summary: Schritte zum Bestätigen und Beheben von DIMM-Fehlern auf einem Cisco Server der C Serie

Instructions

Anleitung zum Löschen von DIMM-Fehlern auf einem VxBlock UCS-Server der C-Serie

Fakten

Additional Information

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Schritte zum Bestätigen und Beheben von DIMM-Fehlern auf einem Cisco Server der C Serie

Summary: Schritte zum Bestätigen und Beheben von DIMM-Fehlern auf einem Cisco Server der C Serie

Detailed Article

Instructions

Additional Info

Affected Products

Instructions

Anleitung zum Löschen von DIMM-Fehlern auf einem VxBlock UCS-Server der C-Serie

Fakten

Additional Information

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services