Steg för att bekräfta och felsöka DIMM-fel på en server i Cisco C-serien
Summary: Steg för att bekräfta och felsöka DIMM-fel på en server i Cisco C-serien
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Instructions
Så här rensar du DIMM-fel på VxBlock UCS C-seriens server
Fakta
- Rackmonterade servrar i Cisco C-serien (hanteras eventuellt inte av UCSM)
Symptom
- Aviseringar visas i CIMC eller UCSM, till exempel:
F0184
F0185
F0137
F1236
F1237
- PSOD – Purple Screen of Death (på KVM eller konsol för värden)
Lösning
Logginsamling
Samla in loggar från den berörda servern INNAN någon felsökning utförs. Vi behöver en baslinje för att avgöra hur lyckade felsökningsstegen är.
C-seriens rackservrar kan antingen vara fristående eller hanteras av UCSM. Stegen för att samla in och granska loggarna skiljer sig något beroende på vilket det är.
- Fristående.
- Hanteras av UCSM – Välj "Rackmontering" istället för "chassi" eller "ucsm" i fältet Alternativ
- Om du bara har CIMC-loggar kan du se att de kommer från en UCSM-hanterad server eftersom filnamnet kommer att innehålla CIMCXXX. Loggfilerna kommer också att finnas i en zippad katalog som heter Server XX, istället för direkt i den zippade huvudkatalogen. Om du ser detta krävs även UCSM-loggar.
Logganalys
De viktigaste skillnaderna mellan stockar är
- Ytterligare information finns i UCSM-sam_techsupport filen för UCSM-hanterade servrar
- Plats för katalogerna. (se anmärkning under loggsamling)
UCSM_X_TechSupport.tar\sam_techsupportinfo
- "show server inventory expand" (bekräfta serverns serienummer, leta reda på PID). Exempel:
Server 1:
Modell: UCSC-C220-M4S
Erkänd seriell port (SN): FCHXXXXXXXXXX
Bekräftat produktnamn: Cisco UCS C220 M4S
Erkänd PID: UCSC-C220-M4S
- "visa felinformation" (hitta associerade fel) – Exempel:
Allvarlighetsgrad: Stora Koden: F0844 Sista övergångstid: 2017-05-23T12:40:40.774 Beskrivning: DIMM DIMM_B2 på server 24 operaState: inaktiverat
- "show server memory details" (lokalisera påverkad DIMM PID) – exempel:
Plats: DIMM_A1 Produktnamn: 16 GB DDR4 – 2 400 MHz RDIMM/PC4-19200/enkel rank/x4/1,2 V PID: UCS-MR-xxxxxxxx-AObs! Det mesta av den här informationen finns tillgänglig på sam_techsupport för UCSM-hanterade servrar
[ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
- Informationsområde för chassi
====================[ Område med chassiinformation ]======================
Chassi del nummer: [74-xxxxx-02]
Chassi serienum: [FCHXXXXXXXXX]
- Styrelsens område
========================[ Område på anslagstavlan ]=========================
Kortets produktnamn: [UCSC-C240-Mxxxx]
Kortets serienummer: [FCHXXXXXXXX]
- SMBIOS-tabelldump BÖRJAR
Obs: detta kanske inte är Cisco PID, men kan korreleras för att hitta det
Minnesenhet
Locator: DIMM_A1
Komponentnummer: 36ASxxxxxx-2G3B1 Fråga efter alla IPMI-sensorer, avsnitt:
Korrigerbara och icke-korrigerbara fel: Sensorns namn | Läsning | Enhet | Tillstånd | LNR | LC | LNC | UNC | UC | UNR (på engelska) DDR4_P2_E1_ECC | 63250.000 | fel | UNR | EJ TILLÄMPLIGT | EJ TILLÄMPLIGT | EJ TILLÄMPLIGT | EJ TILLÄMPLIGT | EJ TILLÄMPLIGT | 60250.000 DDR4_P2_E2_ECC | 63750.000 | fel | UNR | EJ TILLÄMPLIGT | EJ TILLÄMPLIGT | EJ TILLÄMPLIGT | EJ TILLÄMPLIGT | EJ TILLÄMPLIGT | 60250.000 DDR4_P2_E3_ECC | 63250.000 | fel | UNR | EJ TILLÄMPLIGT | EJ TILLÄMPLIGT | EJ TILLÄMPLIGT | EJ TILLÄMPLIGT | EJ TILLÄMPLIGT | 60250.000
[ServerXX_TechSupport.tar]\var\log\sel\log
- Kontrollera om det finns några korrigerbara och icke-korrigerbara ECC-fel i loggarna:
Minne DDR4_P2_E2_ECC #0xb0 | Läs 512 korrigerbara ECC-fel på CPU2 DIMM E2 | Hävdade
- Granska loggarna för eventuella CATERR_N ... Bekräftad | Bekräftade poster är ett exempel följande:
03/06/2017 20:02:12 | CIMC | Processor CATERR_N #0x70 | Prediktivt fel bekräftat | HävdadeObservera: det förväntas att CATERR_N avasseras | Anges i loggarna vid start[ ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
- Leta reda på korrigerbara/icke-korrigerbara fel för påverkade DIMM-moduler och kopiera relevanta fält. Ett exempel är följande:
================== SAMMANFATTNING AV DIMM-FEL =================== ------- DIMM E2----------- AKTUELLT ANTAL KORTPLATSFEL: Korrigerbara ECC-fel sedan senaste serverstart: 0 Kumulativt korrigerbart ECC-felantal: 2560 ECC-fel som inte kan korrigeras sedan senaste serverstart: 0 Kumulativt icke-korrigerbart ECC-felantal: 3 ANTAL TIDIGARE KORTPLATSFEL: Korrigerbart ECC-felantal: 0 Antal ECC-fel som inte kan korrigeras: 0
[ServerXX_TechSupport.tar]\var\sel_decode.txt
- Spel för spel av sel poster och fel
eventLogMaxEntries: 1445 eventLogList: --- Id: 1440 Svårighetsgrad: Kritiska Datetime: 2017-03-10 00:57:17 dateTimeOrder: 00005 Beskrivning: "Systemprogramvaruhändelse: Eftersensor, DIMM-sockel 3, kanal E, processorsockel 2. Inaktiverat på grund av att annat minne inte fungerar i samma kanal. [0xE542] hävdades"
För fristående servrar:
- tmp\tech_support.frupids
====== Dumpning av IPMI FRU-poster ====== Produktnamn: UCSC-C220-xxx Produktens artikelnummer: 74-xxxx-01 Produktversion: A Produktserienummer: FCHxxxxxxxN – Serverns serienummer ====== Dumpning av lagerkatalog PID:er ====== DIMMList: Name: DIMM_A1Description: 8 GB DDR3 − 1 333 MHz RDIMM/PC3-10600/dubbel rank/1,35 V PID: UCS-MR-1X082RX-A – DIMM PID
Efteranalys
När du har utfört analysen kontrollerar du att tjänstbegäran uppdateras med rätt serienummer för den berörda servern och att databasen genomsöks efter tidigare RMA:er som är associerade med bladet som undersöks. Om den DIMM som visar fel nyligen har bytts ut kan moderkortet vara misstänkt.
Lägg till analysen i tjänstbegäran.
Logisk felsökning
När fel har identifierats kommer vi att försöka rensa dem alla och övervaka räknare och fliken fel i UCSM för att se om de kvarstår.
Logga in på serverkommandoraden.
Rensa räknare för minnesfel
Server# Scope-chassi Server /chassi # återställning-ECCRensa systemhändelseloggar kommandona nedan:
Server# omfång sel Server /sel # rensa Den här åtgärden rensar hela sel. Fortsätta? [y|Inte
Återställ CIMC-loggen med hjälp av kommandona nedan:
Server# omfång cimc Server /cimc # omfångslogg Server /cimc/log # rensa
Övervaka miljön i 48 timmar.
Om felen kvarstår samlar du in en ny uppsättning UCS- och chassiloggar, bekräftar analysen, formulerar en åtgärdsplan baserat på bevisen och går vidare till nästa avsnitt.
Orsaka
- DIMM-fel orsakas vanligtvis av en felaktig DIMM-modul, eller ibland av ett felaktigt moderkort
Anteckningar
- Inget
Additional Information
Titta på den här videon:
Affected Products
Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems SeriesArticle Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version: 4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.