Trin til, hvordan du bekræfter og foretager fejlfinding af DIMM-fejl på en server i Cisco C-serien
Summary: Trin til, hvordan du bekræfter og foretager fejlfinding af DIMM-fejl på en server i Cisco C-serien
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Instructions
Sådan ryddes DIMM-fejl på VXBLOCK UCS C-seriens server
Fakta
- Cisco C-Series rackmonterede servere (administreres muligvis af UCSM)
Symptomer
- Advarsler vises i CIMC eller UCSM, såsom:
F0184
F0185
F0137
F1236
F1237
- PSOD - lilla skærm af død (på KVM eller konsol af vært)
Løsning
Indsamling af logfiler
Hent logfiler fra den berørte server, FØR der udføres fejlfinding. Vi har brug for en basislinje for at afgøre, om fejlfindingstrinnene lykkes.
C-Series Rack-servere kan enten være standalone eller administreres af UCSM. Trinnene til indsamling og gennemgang af logfilerne vil være lidt forskellige, afhængigt af hvad det er.
- Standalone.
- Administreres af UCSM – Vælg "Rackmontering" i stedet for "Kabinet" eller "UCSM" i feltet Indstillinger
- Hvis du kun har CIMC-logfiler, kan du se, at de er fra en UCSM-administreret server, fordi filnavnet indeholder CIMCXXX. Logfilerne vil også være i en zippet mappe kaldet Server XX i stedet for direkte i den primære zip-mappe. Hvis du ser dette, kræves der også UCSM-logfiler.
Log analyse
De vigtigste forskelle mellem logfiler er
- Du kan finde yderligere oplysninger i UCSM-sam_techsupport filen til UCSM-administrerede servere
- Placering af mapperne. (se bemærkning under logsamling)
UCSM_X_TechSupport.tar\sam_techsupportinfo
- 'show server inventory expand' (bekræft serverens serienummer, find PID). Eksempel:
Server 1:
Model: UCSC-C220-M4S
Anerkendt seriel (SN): FCHXXXXXXXXXX
Anerkendt produktnavn: Cisco UCS C220 M4S
Anerkendt PID: UCSC-C220-M4S
- "show fault detail" (lokalisere tilknyttede fejl) – eksempel:
Alvorsgrad: Store Kode: F0844 Sidste overgangstid: 2017-05-23T12:40:40.774 Beskrivelse: DIMM-DIMM_B2 på server 24 operaState: deaktiveret
- "show server memory detail" (find påvirket DIMM PID) – eksempel:
Placering: DIMM_A1 Produktnavn: 16 GB DDR4-2400 MHz RDIMM/PC4-19200/enkelt rang/x4/1,2 v PID: UCS-MR-xxxxxxxx-ABemærk – de fleste af disse oplysninger er tilgængelige i sam_techsupport for UCSM-administrerede servere
[ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
- Informationsområde for kabinet
====================[ kabinetinfoområde ]======================
Kabinet del nr : [74-xxxxx-02]
Kabinettets serienummer : [FCHXXXXXXXXX]
- Bestyrelsesområde
========================[ Bestyrelsesområde ]=========================
Boardets produktnavn: [UCSC-C240-Mxxxx]
Kortets serienummer: [FCHXXXXXXXX]
- SMBIOS Tabel Dump BEGYND
Bemærk: Dette er muligvis ikke Cisco PID, men kan korreleres for at finde det
Hukommelsesenhed
Locator: DIMM_A1
Varenummer: 36ASxxxxxx-2G3B1 Forespørgsel til alle IPMI-sensorer sektion:
Fejl, der kan rettes og ikke kan rettes: Sensornavn | Læsning | Enhed | Status | LNR | LC | LNC | UNC | UC | UNR DDR4_P2_E1_ECC | 63250.000 | Fejl | UNR | na | na | na | na | na | 60250.000 DDR4_P2_E2_ECC | 63750.000 | Fejl | UNR | na | na | na | na | na | 60250.000 DDR4_P2_E3_ECC | 63250.000 | Fejl | UNR | na | na | na | na | na | 60250.000
[ServerXX_TechSupport.tar]\var\log\sel\log
- Gennemgå logfilerne for eventuelle ECC-fejl, der kan rettes og ikke kan rettes:
Hukommelse DDR4_P2_E2_ECC #0xb0 | læs 512 korrigerbare ECC-fejl på CPU2 DIMM E2 | Hævdede
- Gennemgå logfilerne for eventuelle CATERR_N ... Påstået | Påståede poster, et eksempel er som følger:
03/06/2017 20:02:12 | CIMC | Processorens CATERR_N #0x70 | Forudsigende fejl hævdet | HævdedeBemærk: Det forventes, at adfærd ser CATERR_N afbekræftet | Hævdet i logfilerne ved opstart[ ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
- Find fejltællinger, der kan rettes/ikke kan rettes for påvirkede DIMM-moduler, og kopier de relevante felter. Et eksempel er som følger:
================== OVERSIGT OVER DIMM-FEJL =================== ------- DIMM E2 ---------- ANTAL AKTUELLE SLOTFEJL: ECC-fejl, der kan rettes siden sidste serverstart: 0 Kumulativ korrigerbar ECC-fejltælling: 2560 Uoprettelige ECC-fejl siden sidste serverstart : 0 Kumulativ ikke-korrigerbar ECC-fejltælling: 3 ANTAL TIDLIGERE SLOTSFEJL: Antal ECC-fejl, der kan rettes: 0 Antal ECC-fejl, der ikke kan rettes: 0
[ServerXX_TechSupport.tar]\var\sel_decode.txt
- Spil efter spil af sel-poster og fejl
eventLogMaxEntries: 1445 eventLogList: --- Id: 1440 Sværhedsgraden: Kritiske Datetime: 2017-03-10 00:57:17 dateTimeOrder: 00005 Beskrivelse: "Systemsoftwarehændelse: Postsensor, DIMM-stik 3, kanal E, processorsokkel 2. deaktiveret på grund af anden hukommelse mislykkedes i samme kanal. [0xE542] blev hævdet"
For standalone-servere:
- TMP\tech_support.frupids
====== dumping IPMI FRU-poster ====== Produktnavn: UCSC-C220-xxx Produktdelnummer: 74-xxxx-01 Produktversion: A Produktseriel: FCHxxxxxxxN – serverens serienummer ====== Dumping Inventory Catalog PID'er ====== DIMMList: Navn: DIMM_A1Description: 8 GB DDR3-1333-MHz RDIMM/PC3-10600/dobbelt rangering/1,35 V PID: UCS-MR-1X082RX-A – DIMM-PID
Efter analyse
Når du har udført analysen, skal du sørge for, at serviceanmodningen er opdateret med det korrekte serienummer på den berørte server, og at der søges i databasen efter tidligere RMA er, der er tilknyttet den blade, der undersøges. Hvis DIMM-modulet, der viser fejl, er blevet udskiftet for nylig, kan bundkortet være mistænkeligt.
Føj din analyse til serviceanmodningen.
Logisk fejlfinding
Når fejl er identificeret, vil vi forsøge at rydde dem alle og overvåge tællere og fejlfanen i UCSM for at se, om de vedvarer.
Log på serverkommandolinjen.
Ryd tællere for hukommelsesfejl
Server#-omfangskabinet Server/kabinet # reset-ECCRyd systemets hændelseslogs kommandoerne nedenfor:
Server# omfang sel Server /sel # clear Denne handling rydder hele sel. Fortsætte? [y|N]y
Nulstil CIMC-loggen ved hjælp af nedenstående kommandoer:
Server# omfang cimc Server/cimc # områdelog Server /cimc/log # clear
Overvåg miljøet i 48 timer.
Hvis fejlene fortsætter, skal du registrere et nyt sæt UCS- og kabinetlogfiler, bekræfte analysen, formulere en handlingsplan baseret på dokumentationen og gå videre til næste afsnit.
Forårsage
- DIMM-fejl skyldes normalt et defekt DIMM-modul eller nogle gange et dårligt bundkort
Bemærkninger
- Ingen
Additional Information
Se denne video:
Affected Products
Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems SeriesArticle Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version: 4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.