Schritte zum Bestätigen und Beheben von DIMM-Fehlern auf einem Cisco Server der C Serie

Summary: Schritte zum Bestätigen und Beheben von DIMM-Fehlern auf einem Cisco Server der C Serie

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Anleitung zum Löschen von DIMM-Fehlern auf einem VxBlock UCS-Server der C-Serie

Fakten

  • Cisco C Serie Rack Mounted Server (können von UCSM verwaltet werden)

Problem
  •  Warnmeldungen werden in CIMC oder UCSM angezeigt, z. B.:

F0184
F0185
F0137
F1236
F1237

  • PSOD – Violetter Bildschirm des Todes (auf KVM oder Konsole des Hosts)

Lösung

Protokollerfassung
 
Erfassen Sie die Protokolle des betroffenen Servers, BEVOR ein Troubleshooting durchgeführt wird. Wir benötigen eine Baseline, um den Erfolg der Schritte zur Fehlerbehebung zu bestimmen.

Rack-Server der C Serie können entweder eigenständig sein oder von UCSM verwaltet werden.  Die Schritte zum Erfassen und Überprüfen der Protokolle unterscheiden sich geringfügig, je nachdem, um welche es sich handelt.
  • Eigenständige.
  • Verwaltet von UCSM: Wählen Sie im Feld "Optionen " "Rackmontage" anstelle von "Gehäuse" oder "ucsm" aus.
  • Wenn Sie nur CIMC-Protokolle haben, können Sie erkennen, dass sie von einem UCSM-verwalteten Server stammen, da der Dateiname CIMCXXX enthält.  Die Protokolldateien befinden sich außerdem in einem komprimierten Verzeichnis namens Server XX statt direkt im gezippten Hauptverzeichnis.  Wenn dies angezeigt wird, sind auch UCSM-Protokolle erforderlich.
Wenn auf dem Server ein PSOD aufgetreten ist, erstellen Sie einen Screenshot des PSOD und erfassen Sie vSphere-/Hostprotokolle.

Protokollanalyse

  Die Hauptunterschiede zwischen Protokollen sind die
  • Zusätzliche Informationen finden Sie in der Datei UCSM sam_techsupport für mit UCSM verwaltete Server
  • Speicherort der Verzeichnisse. (siehe Hinweis unter Protokollerfassung)
Hilfreiche Protokollspeicherorte in UCSM- und CIMC-Protokollen:

UCSM_X_TechSupport.tar\sam_techsupportinfo
  • 'show server inventory expand' (Serverseriennummer bestätigen, PID finden). Beispiel:
Server 1:
     Modell: UCSC-C220-M4S
     Bestätigte Seriennummer (SN): FCHXXXXXXXXXXXXX
     Bestätigter Produktname: Cisco UCS C220 M4S
     Anerkannte PID: UCSC-C220-M4S
  • "show fault detail" (zugehörige Fehler finden) – Beispiel:
Schweregrad: Haupt
Code: F0844-KARTON
Letzte Übergangszeit: 2017-05-23T12:40:40.774
Beschreibung: DIMM DIMM_B2 auf Server 24 operaState: deaktiviert
  • 'show server memory detail' (betroffene DIMM-PID ausfindig machen) – Beispiel:
Standort: DIMM_A1
Produktname: 16 GB DDR4-2400-MHz-RDIMM/PC4-19200/Single Rank/x4/1,2 V
PID: UCS-MR-xxxxxxxx-A
Hinweis: Die meisten dieser Informationen sind in sam_techsupport für UCSM-verwaltete Server

verfügbar. [ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
  • Gehäuse-Infobereich
Suchen Sie die Seriennummer des Servers, die als "Gehäuseseriennummer" aufgeführt ist. Beispiel wie folgt: 
====================[ Gehäuse-Infobereich ]======================
            Gehäuse-Teilenummer: [74-xxxxx-02]
            Seriennummer des Gehäuses: [FCHXXXXXXXXX]
 
  • Board-Bereich
Suchen Sie die PID und Seriennummer der Hauptplatine. Beispiel wie folgt: 
========================[ Board-Bereich ]=========================
            Produktname Platine : [UCSC-C240-MXXXXX]
            Seriennummer der Platine: [FCHXXXXXXXX]
 
  • SMBIOS-Tabellen-Speicherabbild BEGIN    
                Suchen Sie die DIMM-Teilenummer unter Speichergerät\Teilesuche. Beispiel wie folgt: 
                Hinweis: Dies ist möglicherweise nicht die Cisco PID, kann aber korreliert werden, um sie zu finden
Speichergerät
           Locator: DIMM_A1
           Teilenummer: 36ASxxxxxx-2G3B1-KARTON
  Abschnitt Abfragen aller IPMI-Sensoren:
Korrigierbare und nicht korrigierbare Fehler:
Sensorname | Lektüre | Einheit | Stand | LNR | LC | LNC | UNC | UC | UNR    
DDR4_P2_E1_ECC | 63250.000 | Fehler | UNR | NA | NA | NA | NA | NA | 60250.000 DDR4_P2_E2_ECC | 63750.000 | Fehler | UNR | NA | NA | NA | NA | NA | 60250.000
DDR4_P2_E3_ECC | 63250.000 | Fehler | UNR | NA | NA | NA | NA | NA | 60250.000


[ServerXX_TechSupport.tar]\var\log\sel\log
  • Überprüfen Sie die Protokolle auf korrigierbare und nicht korrigierbare ECC-Fehler:
Arbeitsspeicher DDR4_P2_E2_ECC #0xb0 | Lesen von 512 korrigierbaren ECC-Fehlern auf CPU2 DIMM E2 | Behauptet
  • Überprüfen Sie die Protokolle auf CATERR_N ... Bestätigt | Bestätigten Einträgen, ein Beispiel ist wie folgt:
03.06.2017 20:02:12 | CIMC | Prozessor CATERR_N #0x70 | Prognostizierter Fehler bestätigt | Behauptet
  Hinweis: Es ist ein erwartetes Verhalten, dass CATERR_N nicht bestätigt werden | Wird in den Protokollen zur Startzeit bestätigt [ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
  • Ermitteln Sie korrigierbare/nicht korrigierbare Fehlerzahlen für betroffene DIMM(s) und kopieren Sie die relevanten Felder. Ein Beispiel ist wie folgt:
================== ZUSAMMENFASSUNG DER DIMM-FEHLER ===================
------- DIMM E2-----------
  ANZAHL DER AKTUELLEN STECKPLATZFEHLER :
      Korrigierbare ECC-Fehler seit dem letzten Serverstart: 0
      Kumulative korrigierbare ECC-Fehleranzahl : 2560
      Nicht korrigierbare ECC-Fehler seit dem letzten Serverstart: 0
      Kumulative nicht korrigierbare ECC-Fehleranzahl : 3
   ANZAHL DER VORHERIGEN STECKPLATZFEHLER :
      Korrigierbare ECC-Fehleranzahl : 0
      Nicht korrigierbare ECC-Fehleranzahl : 0

[ServerXX_TechSupport.tar]\var\sel_decode.txt
  • Spiel für Spiel von SEL-Einträgen und Fehlern
eventLogMaxEntries: 1445
eventLogList: 
---
Id: 1440
Schweregrad: Kritisch
Datetime: 2017-03-10 00:57:17 
dateTimeOrder: 00005
Beschreibung: "Systemsoftware-Ereignis: POST-Sensor, DIMM-Sockel 3, Kanal E, Prozessorsockel 2. Deaktiviert, weil anderer Speicher im selben Kanal ausgefallen ist. [0xE542] geltend gemacht wurde"

Bei eigenständigen Servern:
  • tmp\tech_support.frupids
====== Dumping von IPMI-FRU-Einträgen ======
Produktname: UCSC-C220-xxx
Produktteilenummer: 74-xxxx-01
Produktversion: Eine
 Produktseriennummer: FCHxxxxxxxN – Seriennummer des Servers

====== Bestandskatalog-PIDs ======
DIMMList: 
Name: DIMM_A1Description: 8 GB DDR3-1333-MHz-RDIMM/PC3-10600/Dual-Rank/1,35 V
PID: UCS-MR-1X082RX-A – DIMM-PID


Nach der Analyse
Stellen Sie nach der Durchführung der Analyse sicher, dass der Service-Request mit der korrekten Seriennummer des betroffenen Servers aktualisiert wird und die Datenbank nach früheren RMAs durchsucht wird, die dem untersuchten Blade zugeordnet sind.  Wenn das fehlerhafte DIMM vor kurzem ausgetauscht wurde, ist möglicherweise die Hauptplatine verdächtig.

Fügen Sie Ihre Analyse dem Service-Request hinzu.

Logisches Troubleshooting
 
Sobald Fehler identifiziert wurden, werden wir versuchen, sie alle zu löschen und Zähler und die Fehlerregisterkarte in UCSM zu überwachen, um festzustellen, ob sie weiterhin bestehen.
Melden Sie sich bei der Server-Befehlszeile an.

Zähler für Speicherfehler löschen
Server# Bereich Gehäuse
Server /Gehäuse # Reset-ECC
Löschen Sie die Systemereignisprotokolle mit den folgenden Befehlen:
Server# Scope SEL
Server /sel # löschen 
Mit diesem Vorgang wird die gesamte sel gelöscht.
Weiter? [y|N]y

 Setzen Sie das CIMC-Protokoll mit den folgenden Befehlen zurück:
Server# Bereich CIMC
Server /cimc # Bereichsprotokoll
Server /cimc/log # löschen

Überwachen Sie die Umgebung 48 Stunden lang.
Wenn der Fehler weiterhin besteht, erfassen Sie einen neuen Satz UCS- und Gehäuseprotokolle, bestätigen Sie die Analyse, formulieren Sie einen Aktionsplan basierend auf den Nachweisen und fahren Sie mit dem nächsten Abschnitt fort.

Ursache
  • DIMM-Fehler werden in der Regel durch ein fehlerhaftes DIMM oder manchmal durch eine fehlerhafte Hauptplatine verursacht

Hinweise
  • Keine

Additional Information

Weitere Informationen finden Sie in diesem Video:

Affected Products

Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems Series
Article Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.