Steg för att bekräfta och felsöka DIMM-fel på en server i Cisco C-serien

Summary: Steg för att bekräfta och felsöka DIMM-fel på en server i Cisco C-serien

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Så här rensar du DIMM-fel på VxBlock UCS C-seriens server

Fakta

  • Rackmonterade servrar i Cisco C-serien (hanteras eventuellt inte av UCSM)

Symptom
  •  Aviseringar visas i CIMC eller UCSM, till exempel:

F0184
F0185
F0137
F1236
F1237

  • PSOD – Purple Screen of Death (på KVM eller konsol för värden)

Lösning

Logginsamling
 
Samla in loggar från den berörda servern INNAN någon felsökning utförs. Vi behöver en baslinje för att avgöra hur lyckade felsökningsstegen är.

C-seriens rackservrar kan antingen vara fristående eller hanteras av UCSM.  Stegen för att samla in och granska loggarna skiljer sig något beroende på vilket det är.
  • Fristående.
  • Hanteras av UCSM – Välj "Rackmontering" istället för "chassi" eller "ucsm" i fältet Alternativ
  • Om du bara har CIMC-loggar kan du se att de kommer från en UCSM-hanterad server eftersom filnamnet kommer att innehålla CIMCXXX.  Loggfilerna kommer också att finnas i en zippad katalog som heter Server XX, istället för direkt i den zippade huvudkatalogen.  Om du ser detta krävs även UCSM-loggar.
Om servern upplevde en PSOD tar du en skärmbild av PSOD och samlar in vSphere-/värdloggar.

Logganalys

  De viktigaste skillnaderna mellan stockar är
  • Ytterligare information finns i UCSM-sam_techsupport filen för UCSM-hanterade servrar
  • Plats för katalogerna. (se anmärkning under loggsamling)
Användbara loggplatser i UCSM- och CIMC-loggar:

UCSM_X_TechSupport.tar\sam_techsupportinfo
  • "show server inventory expand" (bekräfta serverns serienummer, leta reda på PID). Exempel:
Server 1:
     Modell: UCSC-C220-M4S
     Erkänd seriell port (SN): FCHXXXXXXXXXX
     Bekräftat produktnamn: Cisco UCS C220 M4S
     Erkänd PID: UCSC-C220-M4S
  • "visa felinformation" (hitta associerade fel) – Exempel:
Allvarlighetsgrad: Stora
Koden: F0844
Sista övergångstid: 2017-05-23T12:40:40.774
Beskrivning: DIMM DIMM_B2 på server 24 operaState: inaktiverat
  • "show server memory details" (lokalisera påverkad DIMM PID) – exempel:
Plats: DIMM_A1
Produktnamn: 16 GB DDR4 – 2 400 MHz RDIMM/PC4-19200/enkel rank/x4/1,2 V
PID: UCS-MR-xxxxxxxx-A
Obs! Det mesta av den här informationen finns tillgänglig på sam_techsupport för UCSM-hanterade servrar

[ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
  • Informationsområde för chassi
Hitta serverns serienummer som anges som "chassits serienummer". Exempel enligt följande: 
====================[ Område med chassiinformation ]======================
            Chassi del nummer: [74-xxxxx-02]
            Chassi serienum: [FCHXXXXXXXXX]
 
  • Styrelsens område
Hitta moderkortets PID och serienummer. Exempel enligt följande: 
========================[ Område på anslagstavlan ]=========================
            Kortets produktnamn: [UCSC-C240-Mxxxx]
            Kortets serienummer: [FCHXXXXXXXX]
 
  • SMBIOS-tabelldump BÖRJAR    
                Hitta DIMM-komponentnumret under Memory Device\Part Locator. Exempel enligt följande: 
                Obs: detta kanske inte är Cisco PID, men kan korreleras för att hitta det
Minnesenhet
           Locator: DIMM_A1
           Komponentnummer: 36ASxxxxxx-2G3B1
  Fråga efter alla IPMI-sensorer, avsnitt:
Korrigerbara och icke-korrigerbara fel:
Sensorns namn | Läsning | Enhet | Tillstånd | LNR | LC | LNC | UNC | UC | UNR (på engelska)    
DDR4_P2_E1_ECC | 63250.000 | fel | UNR | EJ TILLÄMPLIGT | EJ TILLÄMPLIGT | EJ TILLÄMPLIGT | EJ TILLÄMPLIGT | EJ TILLÄMPLIGT | 60250.000 DDR4_P2_E2_ECC | 63750.000 | fel | UNR | EJ TILLÄMPLIGT | EJ TILLÄMPLIGT | EJ TILLÄMPLIGT | EJ TILLÄMPLIGT | EJ TILLÄMPLIGT | 60250.000
DDR4_P2_E3_ECC | 63250.000 | fel | UNR | EJ TILLÄMPLIGT | EJ TILLÄMPLIGT | EJ TILLÄMPLIGT | EJ TILLÄMPLIGT | EJ TILLÄMPLIGT | 60250.000


[ServerXX_TechSupport.tar]\var\log\sel\log
  • Kontrollera om det finns några korrigerbara och icke-korrigerbara ECC-fel i loggarna:
Minne DDR4_P2_E2_ECC #0xb0 | Läs 512 korrigerbara ECC-fel på CPU2 DIMM E2 | Hävdade
  • Granska loggarna för eventuella CATERR_N ... Bekräftad | Bekräftade poster är ett exempel följande:
03/06/2017 20:02:12 | CIMC | Processor CATERR_N #0x70 | Prediktivt fel bekräftat | Hävdade
  Observera: det förväntas att CATERR_N avasseras | Anges i loggarna vid start[ ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
  • Leta reda på korrigerbara/icke-korrigerbara fel för påverkade DIMM-moduler och kopiera relevanta fält. Ett exempel är följande:
================== SAMMANFATTNING AV DIMM-FEL ===================
------- DIMM E2-----------
  AKTUELLT ANTAL KORTPLATSFEL:
      Korrigerbara ECC-fel sedan senaste serverstart: 0
      Kumulativt korrigerbart ECC-felantal: 2560
      ECC-fel som inte kan korrigeras sedan senaste serverstart: 0
      Kumulativt icke-korrigerbart ECC-felantal: 3
   ANTAL TIDIGARE KORTPLATSFEL:
      Korrigerbart ECC-felantal: 0
      Antal ECC-fel som inte kan korrigeras: 0

[ServerXX_TechSupport.tar]\var\sel_decode.txt
  • Spel för spel av sel poster och fel
eventLogMaxEntries: 1445
eventLogList: 
---
Id: 1440
Svårighetsgrad: Kritiska
Datetime: 2017-03-10 00:57:17 
dateTimeOrder: 00005
Beskrivning: "Systemprogramvaruhändelse: Eftersensor, DIMM-sockel 3, kanal E, processorsockel 2. Inaktiverat på grund av att annat minne inte fungerar i samma kanal. [0xE542] hävdades"

För fristående servrar:
  • tmp\tech_support.frupids
====== Dumpning av IPMI FRU-poster ======
Produktnamn: UCSC-C220-xxx
Produktens artikelnummer: 74-xxxx-01
Produktversion: A
 Produktserienummer: FCHxxxxxxxN – Serverns serienummer

====== Dumpning av lagerkatalog PID:er ======
DIMMList: 
Name: DIMM_A1Description: 8 GB DDR3 − 1 333 MHz RDIMM/PC3-10600/dubbel rank/1,35 V
PID: UCS-MR-1X082RX-A – DIMM PID


Efteranalys
När du har utfört analysen kontrollerar du att tjänstbegäran uppdateras med rätt serienummer för den berörda servern och att databasen genomsöks efter tidigare RMA:er som är associerade med bladet som undersöks.  Om den DIMM som visar fel nyligen har bytts ut kan moderkortet vara misstänkt.

Lägg till analysen i tjänstbegäran.

Logisk felsökning
 
När fel har identifierats kommer vi att försöka rensa dem alla och övervaka räknare och fliken fel i UCSM för att se om de kvarstår.
Logga in på serverkommandoraden.

Rensa räknare för minnesfel
Server# Scope-chassi
Server /chassi # återställning-ECC
Rensa systemhändelseloggar kommandona nedan:
Server# omfång sel
Server /sel # rensa 
Den här åtgärden rensar hela sel.
Fortsätta? [y|Inte

 Återställ CIMC-loggen med hjälp av kommandona nedan:
Server# omfång cimc
Server /cimc # omfångslogg
Server /cimc/log # rensa

Övervaka miljön i 48 timmar.
Om felen kvarstår samlar du in en ny uppsättning UCS- och chassiloggar, bekräftar analysen, formulerar en åtgärdsplan baserat på bevisen och går vidare till nästa avsnitt.

Orsaka
  • DIMM-fel orsakas vanligtvis av en felaktig DIMM-modul, eller ibland av ett felaktigt moderkort

Anteckningar
  • Inget

Additional Information

Titta på den här videon:

Affected Products

Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems Series
Article Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.