Trinn for hvordan du bekrefter og feilsøker DIMM-feil på en server i Cisco C-serien
Summary: Trinn for hvordan du bekrefter og feilsøker DIMM-feil på en server i Cisco C-serien
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Instructions
Slik fjerner du DIMM-feil på serveren i VxBlock UCS C-serien
Fakta
- Cisco C-seriens rackmonterte servere (kan administreres av UCSM eller ikke)
Symptomer
- Varsler vises i CIMC eller UCSM, for eksempel:
F0184
, F0185
, F0137
, F1236
, F1237
- PSOD – lilla skjerm av død (på KVM eller konsollen til verten)
Løsning
Innsamling
av loggerRegistrer logger fra den berørte serveren FØR feilsøking utføres. Vi trenger en grunnleggende støtte for å fastslå hvor vellykket feilsøkingstrinnene er.
Rackservere i C-serien kan enten være frittstående eller administreres av UCSM. Fremgangsmåten for å samle inn og gjennomgå loggene vil være litt forskjellig avhengig av hvilken den er.
- Frittstående.
- Administrert av UCSM – Velg "Rack Mount" i stedet for "chassis" eller "ucsm" i Alternativer-feltet
- Hvis du bare har CIMC-logger, kan du se at de er fra en UCSM-administrert server fordi filnavnet vil inneholde CIMCXXX. Loggfilene vil også være i en komprimert katalog kalt Server XX, i stedet for direkte i den zippede hovedkatalogen. Hvis du ser dette, vil UCSM-logger også være påkrevd.
Logg analyse
De viktigste forskjellene mellom loggene er
- Ytterligere informasjon er tilgjengelig i UCSM sam_techsupport-filen for UCSM-administrerte servere
- Plassering av katalogene. (se merknad under logginnsamling)
UCSM_X_TechSupport.tar\sam_techsupportinfo
- 'vis serverbeholdning utvides' (bekreft serverens serienummer, finn PID). Eksempel:
Server 1:
Modell: UCSC-C220-M4S
Acknowledged Serial (SN): FCHXXXXXXXXXX
Anerkjent produktnavn: Cisco UCS C220 M4S
Anerkjent PID: UCSC-C220-M4S
- 'vis feildetaljer' (finn feil tilknyttet) - Eksempel:
Alvorsgrad: Store Koden: F0844 Siste overgangstid: 2017-05-23T12:40:40.774 Beskrivelse: DIMM DIMM_B2 på server 24 operaState: deaktivert
- "vis informasjon om serverminne" (finn berørt DIMM PID) – eksempel:
Plasseringen: DIMM_A1 Produktnavn: 16 GB DDR4-2400 MHz RDIMM/PC4-19200/enkeltrad/x4/1.2v PID: UCS-MR-xxxxxxxx-AMerk – mesteparten av denne informasjonen er tilgjengelig i sam_techsupport for UCSM-administrerte servere
[ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
- Informasjonsområde for kabinett
====================[ Informasjonsområde for kabinett ]======================
Kabinettdel Num: [74-xxxxx-02]
Serienummer for kabinett : [FCHXXXXXXXXX]
- Styrets område
========================[ Styreområde]=========================
Kortets produktnavn: [UCSC-C240-Mxxxx]
Kortets serienummer: [FCHXXXXXXXX]
- SMBIOS-tabelldump BEGIN
Merk: Dette kan ikke være Cisco PID, men kan korreleres for å finne den
Minneenhet
Locator: DIMM_A1
Delenummer: 36ASxxxxxx-2G3B1 Spørre alle IPMI-sensorer-delen:
Korrigerbare og ikke-korrigerbare feil: Navn på sensor | Lesing | Enhet | Status | LNR | LC | LNC | UNC | UC | UNR DDR4_P2_E1_ECC | 63250.000 | Feil | UNR | NA | NA | NA | NA | NA | 60250.000 DDR4_P2_E2_ECC | 63750.000 | Feil | UNR | NA | NA | NA | NA | NA | 60250.000 DDR4_P2_E3_ECC | 63250.000 | Feil | UNR | NA | NA | NA | NA | NA | 60250.000
[ServerXX_TechSupport.tar]\var\log\sel\log
- Se gjennom loggene for å finne ut om det finnes korrigerbare og ikke-korrigerbare ECC-feil.
Minne DDR4_P2_E2_ECC #0xb0 | lese 512 korrigerbare ECC-feil på CPU2 DIMM E2 | Hevdet
- Se gjennom loggene for eventuelle CATERR_N ... Hevdet | Hevdet oppføringer, et eksempel er som følger:
03/06/2017 20:02:12 | CIMC | Prosessor CATERR_N #0x70 | Påstått prediktiv svikt | HevdetMerk: det er forventet atferd å se CATERR_N de-hevdet | Hevdet i loggene ved oppstart[ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
- Finn korrigerbare/ikke-korrigerbare feiltellinger for berørte DIMM-er, og kopier de relevante feltene, et eksempel er som følger:
================== SAMMENDRAG AV DIMM-FEIL =================== ------- DIMM E2 ---------- GJELDENDE SPORFEIL TELLER: Korrigerbare ECC-feil siden siste serveroppstart: 0 Kumulativt korrigerbart antall ECC-feil : 2560 Uopprettelige ECC-feil siden siste serveroppstart: 0 Kumulativt antall ECC-feil som ikke kan rettes opp: 3 FORRIGE SPORFEIL TELLER: Korrigerbar ECC-feiltelling: 0 Uncorrectable ECC Error Count : 0
[ServerXX_TechSupport.tar]\var\sel_decode.txt
- Spill av spill av sel oppføringer og feil
eventLogMaxEntries: 1445 eventLogList: --- Id: 1440 Alvorlighetsgraden: Kritisk Datetime: 2017-03-10 00:57:17 dateTimeOrder: 00005 Beskrivelse: "Hendelse for systemprogramvare: Stolpesensor, DIMM-kontakt 3, kanal E, prosessorkontakt 2. Deaktivert på grunn av at annet minne mislyktes i samme kanal. [0xE542] ble hevdet"
For frittstående servere:
- tmp\tech_support.frupids
====== Dumping IPMI FRU Records ====== Produktnavn: UCSC-C220-xxx Produktdelenummer: 74-xxxx-01 Produktversjon: A Produktseriell: FCHxxxxxxxN – serienummer for server ====== Dumping Inventory Catalog PIDs ====== DIMMList: Name: DIMM_A1Description: 8 GB DDR3-1333-MHz RDIMM/PC3-10600/dobbeltrangering/1,35 V PID: UCS-MR-1X082RX-A – DIMM PID
Post-analyse
Når du har utført analysen, må du sørge for at serviceforespørselen er oppdatert med riktig serienummer for den berørte serveren, og at det søkes i databasen etter eventuelle tidligere RMA-er som er tilknyttet bladet som undersøkes. Hvis DIMM-en som viser feil, nylig ble byttet ut, kan hovedkortet mistenkes.
Legg til analysen i serviceforespørselen.
Logisk feilsøking
Når feil er identifisert, vil vi forsøke å fjerne dem alle og overvåke tellere og feilfanen i UCSM for å se om de vedvarer.
Logg på serverens kommandolinje.
Slett minnefeiltellere
Server# Omfangskabinett Server /chassis # reset-eccFjern systemhendelseslogger kommandoene nedenfor:
Server# scope sel Server /sel # clear Denne operasjonen vil fjerne hele sel. Fortsette? [y|N]y
Tilbakestill CIMC-loggen ved hjelp av kommandoene nedenfor:
Server# scope cimc Server /cimc # scope log Server / cimc / log # clear
Overvåk miljøet i 48 timer.
Hvis feilen vedvarer, kan du registrere et nytt sett med UCS- og kabinettlogger, bekrefte analysen, formulere en handlingsplan basert på bevisene, og gå videre til neste avsnitt.
Forårsake
- DIMM-feil skyldes vanligvis feil DIMM eller et dårlig hovedkort
Merknader
- None
Additional Information
Se denne videoen:
Affected Products
Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems SeriesArticle Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version: 4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.