Trin til, hvordan du bekræfter og foretager fejlfinding af DIMM-fejl på en server i Cisco C-serien

Summary: Trin til, hvordan du bekræfter og foretager fejlfinding af DIMM-fejl på en server i Cisco C-serien

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Sådan ryddes DIMM-fejl på VXBLOCK UCS C-seriens server

Fakta

  • Cisco C-Series rackmonterede servere (administreres muligvis af UCSM)

Symptomer
  •  Advarsler vises i CIMC eller UCSM, såsom:

F0184
F0185
F0137
F1236
F1237

  • PSOD - lilla skærm af død (på KVM eller konsol af vært)

Løsning

Indsamling af logfiler
 
Hent logfiler fra den berørte server, FØR der udføres fejlfinding. Vi har brug for en basislinje for at afgøre, om fejlfindingstrinnene lykkes.

C-Series Rack-servere kan enten være standalone eller administreres af UCSM.  Trinnene til indsamling og gennemgang af logfilerne vil være lidt forskellige, afhængigt af hvad det er.
  • Standalone.
  • Administreres af UCSM – Vælg "Rackmontering" i stedet for "Kabinet" eller "UCSM" i feltet Indstillinger
  • Hvis du kun har CIMC-logfiler, kan du se, at de er fra en UCSM-administreret server, fordi filnavnet indeholder CIMCXXX.  Logfilerne vil også være i en zippet mappe kaldet Server XX i stedet for direkte i den primære zip-mappe.  Hvis du ser dette, kræves der også UCSM-logfiler.
Hvis serveren oplevede en PSOD, skal du tage et skærmbillede af PSOD'en samt indsamle vSphere/værtslogfiler.

Log analyse

  De vigtigste forskelle mellem logfiler er
  • Du kan finde yderligere oplysninger i UCSM-sam_techsupport filen til UCSM-administrerede servere
  • Placering af mapperne. (se bemærkning under logsamling)
Nyttige logplaceringer i UCSM- og CIMC-logfiler:

UCSM_X_TechSupport.tar\sam_techsupportinfo
  • 'show server inventory expand' (bekræft serverens serienummer, find PID). Eksempel:
Server 1:
     Model: UCSC-C220-M4S
     Anerkendt seriel (SN): FCHXXXXXXXXXX
     Anerkendt produktnavn: Cisco UCS C220 M4S
     Anerkendt PID: UCSC-C220-M4S
  • "show fault detail" (lokalisere tilknyttede fejl) – eksempel:
Alvorsgrad: Store
Kode: F0844
Sidste overgangstid: 2017-05-23T12:40:40.774
Beskrivelse: DIMM-DIMM_B2 på server 24 operaState: deaktiveret
  • "show server memory detail" (find påvirket DIMM PID) – eksempel:
Placering: DIMM_A1
Produktnavn: 16 GB DDR4-2400 MHz RDIMM/PC4-19200/enkelt rang/x4/1,2 v
PID: UCS-MR-xxxxxxxx-A
Bemærk – de fleste af disse oplysninger er tilgængelige i sam_techsupport for UCSM-administrerede servere

[ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
  • Informationsområde for kabinet
Find serverens serienummer, der er angivet som "Kabinettets serienummer". Eksempel som følger: 
====================[ kabinetinfoområde ]======================
            Kabinet del nr : [74-xxxxx-02]
            Kabinettets serienummer : [FCHXXXXXXXXX]
 
  • Bestyrelsesområde
Find bundkortets PID og serienummer. Eksempel som følger: 
========================[ Bestyrelsesområde ]=========================
            Boardets produktnavn: [UCSC-C240-Mxxxx]
            Kortets serienummer: [FCHXXXXXXXX]
 
  • SMBIOS Tabel Dump BEGYND    
                Find DIMM-varenummer under Hukommelsesenhed\Reservedelsfinder. Eksempel som følger: 
                Bemærk: Dette er muligvis ikke Cisco PID, men kan korreleres for at finde det
Hukommelsesenhed
           Locator: DIMM_A1
           Varenummer: 36ASxxxxxx-2G3B1
  Forespørgsel til alle IPMI-sensorer sektion:
Fejl, der kan rettes og ikke kan rettes:
Sensornavn | Læsning | Enhed | Status | LNR | LC | LNC | UNC | UC | UNR    
DDR4_P2_E1_ECC | 63250.000 | Fejl | UNR | na | na | na | na | na | 60250.000 DDR4_P2_E2_ECC | 63750.000 | Fejl | UNR | na | na | na | na | na | 60250.000
DDR4_P2_E3_ECC | 63250.000 | Fejl | UNR | na | na | na | na | na | 60250.000


[ServerXX_TechSupport.tar]\var\log\sel\log
  • Gennemgå logfilerne for eventuelle ECC-fejl, der kan rettes og ikke kan rettes:
Hukommelse DDR4_P2_E2_ECC #0xb0 | læs 512 korrigerbare ECC-fejl på CPU2 DIMM E2 | Hævdede
  • Gennemgå logfilerne for eventuelle CATERR_N ... Påstået | Påståede poster, et eksempel er som følger:
03/06/2017 20:02:12 | CIMC | Processorens CATERR_N #0x70 | Forudsigende fejl hævdet | Hævdede
  Bemærk: Det forventes, at adfærd ser CATERR_N afbekræftet | Hævdet i logfilerne ved opstart[ ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
  • Find fejltællinger, der kan rettes/ikke kan rettes for påvirkede DIMM-moduler, og kopier de relevante felter. Et eksempel er som følger:
================== OVERSIGT OVER DIMM-FEJL ===================
------- DIMM E2 ----------
  ANTAL AKTUELLE SLOTFEJL:
      ECC-fejl, der kan rettes siden sidste serverstart: 0
      Kumulativ korrigerbar ECC-fejltælling: 2560
      Uoprettelige ECC-fejl siden sidste serverstart : 0
      Kumulativ ikke-korrigerbar ECC-fejltælling: 3
   ANTAL TIDLIGERE SLOTSFEJL:
      Antal ECC-fejl, der kan rettes: 0
      Antal ECC-fejl, der ikke kan rettes: 0

[ServerXX_TechSupport.tar]\var\sel_decode.txt
  • Spil efter spil af sel-poster og fejl
eventLogMaxEntries: 1445
eventLogList: 
---
Id: 1440
Sværhedsgraden: Kritiske
Datetime: 2017-03-10 00:57:17 
dateTimeOrder: 00005
Beskrivelse: "Systemsoftwarehændelse: Postsensor, DIMM-stik 3, kanal E, processorsokkel 2. deaktiveret på grund af anden hukommelse mislykkedes i samme kanal. [0xE542] blev hævdet"

For standalone-servere:
  • TMP\tech_support.frupids
====== dumping IPMI FRU-poster ======
Produktnavn: UCSC-C220-xxx
Produktdelnummer: 74-xxxx-01
Produktversion: A
 Produktseriel: FCHxxxxxxxN – serverens serienummer

====== Dumping Inventory Catalog PID'er ======
DIMMList: 
Navn: DIMM_A1Description: 8 GB DDR3-1333-MHz RDIMM/PC3-10600/dobbelt rangering/1,35 V
PID: UCS-MR-1X082RX-A – DIMM-PID


Efter analyse
Når du har udført analysen, skal du sørge for, at serviceanmodningen er opdateret med det korrekte serienummer på den berørte server, og at der søges i databasen efter tidligere RMA er, der er tilknyttet den blade, der undersøges.  Hvis DIMM-modulet, der viser fejl, er blevet udskiftet for nylig, kan bundkortet være mistænkeligt.

Føj din analyse til serviceanmodningen.

Logisk fejlfinding
 
Når fejl er identificeret, vil vi forsøge at rydde dem alle og overvåge tællere og fejlfanen i UCSM for at se, om de vedvarer.
Log på serverkommandolinjen.

Ryd tællere for hukommelsesfejl
Server#-omfangskabinet
Server/kabinet # reset-ECC
Ryd systemets hændelseslogs kommandoerne nedenfor:
Server# omfang sel
Server /sel # clear 
Denne handling rydder hele sel.
Fortsætte? [y|N]y

 Nulstil CIMC-loggen ved hjælp af nedenstående kommandoer:
Server# omfang cimc
Server/cimc # områdelog
Server /cimc/log # clear

Overvåg miljøet i 48 timer.
Hvis fejlene fortsætter, skal du registrere et nyt sæt UCS- og kabinetlogfiler, bekræfte analysen, formulere en handlingsplan baseret på dokumentationen og gå videre til næste afsnit.

Forårsage
  • DIMM-fejl skyldes normalt et defekt DIMM-modul eller nogle gange et dårligt bundkort

Bemærkninger
  • Ingen

Additional Information

Se denne video:

Affected Products

Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems Series
Article Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.