Trinn for hvordan du bekrefter og feilsøker DIMM-feil på en server i Cisco C-serien

Summary: Trinn for hvordan du bekrefter og feilsøker DIMM-feil på en server i Cisco C-serien

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Slik fjerner du DIMM-feil på serveren i VxBlock UCS C-serien

Fakta

  • Cisco C-seriens rackmonterte servere (kan administreres av UCSM eller ikke)

Symptomer
  •  Varsler vises i CIMC eller UCSM, for eksempel:

F0184
, F0185
, F0137
, F1236
, F1237

  • PSOD – lilla skjerm av død (på KVM eller konsollen til verten)

Løsning

Innsamling
 
av loggerRegistrer logger fra den berørte serveren FØR feilsøking utføres. Vi trenger en grunnleggende støtte for å fastslå hvor vellykket feilsøkingstrinnene er.

Rackservere i C-serien kan enten være frittstående eller administreres av UCSM.  Fremgangsmåten for å samle inn og gjennomgå loggene vil være litt forskjellig avhengig av hvilken den er.
  • Frittstående.
  • Administrert av UCSM – Velg "Rack Mount" i stedet for "chassis" eller "ucsm" i Alternativer-feltet
  • Hvis du bare har CIMC-logger, kan du se at de er fra en UCSM-administrert server fordi filnavnet vil inneholde CIMCXXX.  Loggfilene vil også være i en komprimert katalog kalt Server XX, i stedet for direkte i den zippede hovedkatalogen.  Hvis du ser dette, vil UCSM-logger også være påkrevd.
Hvis serveren opplevde en PSOD, tok du et skjermbilde av PSOD og samlet inn vSphere-/vertslogger.

Logg analyse

  De viktigste forskjellene mellom loggene er
  • Ytterligere informasjon er tilgjengelig i UCSM sam_techsupport-filen for UCSM-administrerte servere
  • Plassering av katalogene. (se merknad under logginnsamling)
Nyttige loggplasseringer i UCSM- og CIMC-logger:

UCSM_X_TechSupport.tar\sam_techsupportinfo
  • 'vis serverbeholdning utvides' (bekreft serverens serienummer, finn PID). Eksempel:
Server 1:
     Modell: UCSC-C220-M4S
     Acknowledged Serial (SN): FCHXXXXXXXXXX
     Anerkjent produktnavn: Cisco UCS C220 M4S
     Anerkjent PID: UCSC-C220-M4S
  • 'vis feildetaljer' (finn feil tilknyttet) - Eksempel:
Alvorsgrad: Store
Koden: F0844
Siste overgangstid: 2017-05-23T12:40:40.774
Beskrivelse: DIMM DIMM_B2 på server 24 operaState: deaktivert
  • "vis informasjon om serverminne" (finn berørt DIMM PID) – eksempel:
Plasseringen: DIMM_A1
Produktnavn: 16 GB DDR4-2400 MHz RDIMM/PC4-19200/enkeltrad/x4/1.2v
PID: UCS-MR-xxxxxxxx-A
Merk – mesteparten av denne informasjonen er tilgjengelig i sam_techsupport for UCSM-administrerte servere

[ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
  • Informasjonsområde for kabinett
Finn serverens serienummer oppført som "Chassis Serial Number". Eksempel som følger: 
====================[ Informasjonsområde for kabinett ]======================
            Kabinettdel Num: [74-xxxxx-02]
            Serienummer for kabinett : [FCHXXXXXXXXX]
 
  • Styrets område
Finn PID og serienummer for hovedkort. Eksempel som følger: 
========================[ Styreområde]=========================
            Kortets produktnavn: [UCSC-C240-Mxxxx]
            Kortets serienummer: [FCHXXXXXXXX]
 
  • SMBIOS-tabelldump BEGIN    
                Finn DIMM-delenummer under Memory Device\Part Locator. Eksempel som følger: 
                Merk: Dette kan ikke være Cisco PID, men kan korreleres for å finne den
Minneenhet
           Locator: DIMM_A1
           Delenummer: 36ASxxxxxx-2G3B1
  Spørre alle IPMI-sensorer-delen:
Korrigerbare og ikke-korrigerbare feil:
Navn på sensor | Lesing | Enhet | Status | LNR | LC | LNC | UNC | UC | UNR    
DDR4_P2_E1_ECC | 63250.000 | Feil | UNR | NA | NA | NA | NA | NA | 60250.000 DDR4_P2_E2_ECC | 63750.000 | Feil | UNR | NA | NA | NA | NA | NA | 60250.000
DDR4_P2_E3_ECC | 63250.000 | Feil | UNR | NA | NA | NA | NA | NA | 60250.000


[ServerXX_TechSupport.tar]\var\log\sel\log
  • Se gjennom loggene for å finne ut om det finnes korrigerbare og ikke-korrigerbare ECC-feil.
Minne DDR4_P2_E2_ECC #0xb0 | lese 512 korrigerbare ECC-feil på CPU2 DIMM E2 | Hevdet
  • Se gjennom loggene for eventuelle CATERR_N ... Hevdet | Hevdet oppføringer, et eksempel er som følger:
03/06/2017 20:02:12 | CIMC | Prosessor CATERR_N #0x70 | Påstått prediktiv svikt | Hevdet
  Merk: det er forventet atferd å se CATERR_N de-hevdet | Hevdet i loggene ved oppstart[ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt 
  • Finn korrigerbare/ikke-korrigerbare feiltellinger for berørte DIMM-er, og kopier de relevante feltene, et eksempel er som følger:
================== SAMMENDRAG AV DIMM-FEIL ===================
------- DIMM E2 ----------
  GJELDENDE SPORFEIL TELLER:
      Korrigerbare ECC-feil siden siste serveroppstart: 0
      Kumulativt korrigerbart antall ECC-feil : 2560
      Uopprettelige ECC-feil siden siste serveroppstart: 0
      Kumulativt antall ECC-feil som ikke kan rettes opp: 3
   FORRIGE SPORFEIL TELLER:
      Korrigerbar ECC-feiltelling: 0
      Uncorrectable ECC Error Count : 0

[ServerXX_TechSupport.tar]\var\sel_decode.txt
  • Spill av spill av sel oppføringer og feil
eventLogMaxEntries: 1445
eventLogList: 
---
Id: 1440
Alvorlighetsgraden: Kritisk
Datetime: 2017-03-10 00:57:17 
dateTimeOrder: 00005
Beskrivelse: "Hendelse for systemprogramvare: Stolpesensor, DIMM-kontakt 3, kanal E, prosessorkontakt 2. Deaktivert på grunn av at annet minne mislyktes i samme kanal. [0xE542] ble hevdet"

For frittstående servere:
  • tmp\tech_support.frupids
====== Dumping IPMI FRU Records ======
Produktnavn: UCSC-C220-xxx
Produktdelenummer: 74-xxxx-01
Produktversjon: A
 Produktseriell: FCHxxxxxxxN – serienummer for server

====== Dumping Inventory Catalog PIDs ======
DIMMList: 
Name: DIMM_A1Description: 8 GB DDR3-1333-MHz RDIMM/PC3-10600/dobbeltrangering/1,35 V
PID: UCS-MR-1X082RX-A – DIMM PID


Post-analyse
Når du har utført analysen, må du sørge for at serviceforespørselen er oppdatert med riktig serienummer for den berørte serveren, og at det søkes i databasen etter eventuelle tidligere RMA-er som er tilknyttet bladet som undersøkes.  Hvis DIMM-en som viser feil, nylig ble byttet ut, kan hovedkortet mistenkes.

Legg til analysen i serviceforespørselen.

Logisk feilsøking
 
Når feil er identifisert, vil vi forsøke å fjerne dem alle og overvåke tellere og feilfanen i UCSM for å se om de vedvarer.
Logg på serverens kommandolinje.

Slett minnefeiltellere
Server# Omfangskabinett
Server /chassis # reset-ecc
Fjern systemhendelseslogger kommandoene nedenfor:
Server# scope sel
Server /sel # clear 
Denne operasjonen vil fjerne hele sel.
Fortsette? [y|N]y

 Tilbakestill CIMC-loggen ved hjelp av kommandoene nedenfor:
Server# scope cimc
Server /cimc # scope log
Server / cimc / log # clear

Overvåk miljøet i 48 timer.
Hvis feilen vedvarer, kan du registrere et nytt sett med UCS- og kabinettlogger, bekrefte analysen, formulere en handlingsplan basert på bevisene, og gå videre til neste avsnitt.

Forårsake
  • DIMM-feil skyldes vanligvis feil DIMM eller et dårlig hovedkort

Merknader
  • None

Additional Information

Se denne videoen:

Affected Products

Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems Series
Article Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.