Stappen voor het bevestigen en oplossen van DIMM-fouten op een Cisco C-serie server
Summary: Stappen voor het bevestigen en oplossen van DIMM-fouten op een Cisco C-serie server
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Instructions
DIMM-fouten op VxBlock UCS C serie server wissen
Feiten
- Cisco C-Series Rack Mounted Servers (kan al dan niet worden beheerd door UCSM)
Symptomen
- Meldingen worden weergegeven in CIMC of UCSM, zoals:
F0184
F0185
F0137
F1236
F1237
- PSOD: Purple Screen of death (op KVM of console van host)
Oplossing
Logboekverzameling
Leg logboeken van de getroffen server vast VOORDAT er een probleemoplossing wordt uitgevoerd. We hebben een basislijn nodig om het succes van stappen voor probleemoplossing te bepalen.
Rackservers uit de C-serie kunnen standalone zijn of door UCSM worden beheerd. De stappen voor het verzamelen en bekijken van de logboeken zullen enigszins verschillen, afhankelijk van welke het is.
- Standalone.
- Beheerd door UCSM - Selecteer Rack Mount in plaats van Chassis of UCSM in het veld Options
- Als u alleen CIMC-logboeken hebt, kunt u zien dat ze afkomstig zijn van een door UCSM beheerde server, omdat de bestandsnaam CIMCXXX bevat. De logbestanden bevinden zich ook in een gecomprimeerde map met de naam Server XX, in plaats van rechtstreeks in de hoofdmap met de naam XX. Als u dit ziet, zijn ook UCSM-logboeken vereist.
Analyse van logboeken
De belangrijkste verschillen tussen logboeken zijn de
- Aanvullende informatie is beschikbaar in het UCSM-bestand sam_techsupport voor door UCSM beheerde servers
- Locatie van de mappen. (zie opmerking onder logboekverzameling)
UCSM_X_TechSupport.tar\sam_techsupportinfo
- 'show server inventory expand' (bevestig serienummer van server, zoek PID). Voorbeeld:
Server 1:
Model: UCSC-C220-M4S
Erkend serieel (SN): FCHXXXXXXXXXX
Erkende productnaam: Cisco UCS C220 M4S
Erkende PID: UCSC-C220-M4S
- 'show fault detail' (lokaliseer gekoppelde fouten) - Voorbeeld:
Ernst: Belangrijke Code: F0844 NL Laatste overgangstijd: 2017-05-23T12:40:40.774 Beschrijving: DIMM DIMM_B2 op server 24 operaState: disabled
- 'show server memory detail' (zoek de getroffen DIMM PID) - Voorbeeld:
Locatie: DIMM_A1 Productnaam: 16 GB DDR4-2400 MHz RDIMM/PC4-19200/single rank/x4/1,2 V PID: UCS-MR-xxxxxxxx-AOpmerking: de meeste van deze informatie is beschikbaar in sam_techsupport voor door UCSM beheerde servers
[ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
- Infogebied chassis
====================[ Chassis infogebied ]======================
Chassisdeel aantal : [74-xxxxx-02]
Serienummer chassis : [FCHXXXXXXXXX]
- Bestuursgebied
========================[ Bestuursgebied ]=========================
Productnaam van de raad : [UCSC-C240-MXXXX]
Serienummer van de kaart : [FCHXXXXXXXXX]
- SMBIOS Table Dump BEGIN
Opmerking: dit is mogelijk niet de Cisco PID, maar kan worden gecorreleerd om deze te vinden
Geheugenapparaat
Locator: DIMM_A1
Onderdeelnummer: 36ASxxxxxx-2G3B1 Querying All IPMI Sensors section:
Corrigeerbare en niet-corrigeerbare fouten: Naam sensor | Lezing | Eenheid | Toestand | LNR | LC | LNC | UNC | UC | UNR DDR4_P2_E1_ECC | 63250.000 | Fout | UNR | n.v.t. | n.v.t. | n.v.t. | n.v.t. | n.v.t. | 60250.000 DDR4_P2_E2_ECC | 63750.000 | Fout | UNR | n.v.t. | n.v.t. | n.v.t. | n.v.t. | n.v.t. | 60250.000 DDR4_P2_E3_ECC | 63250.000 | Fout | UNR | n.v.t. | n.v.t. | n.v.t. | n.v.t. | n.v.t. | 60250.000
[ServerXX_TechSupport.tar]\var\log\sel\log
- Controleer de logboeken op corrigeerbare en onherstelbare ECC-fouten:
Geheugen DDR4_P2_E2_ECC #0xb0 | lees 512 corrigeerbare ECC-fouten op CPU2 DIMM E2 | Beweerde
- Controleer de logboeken op eventuele CATERR_N ... Beweerd | Beweerde vermeldingen, een voorbeeld is als volgt:
03/06/2017 20:02:12 | CIMC | Processor CATERR_N #0x70 | Voorspelde fout bevestigd | BeweerdeOpmerking: het is normaal gedrag om te zien CATERR_N de-asserted | Bevestigd in de logboeken tijdens het opstarten[ ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
- Zoek het aantal corrigeerbare/niet-corrigeerbare fouten voor getroffen DIMM( s) en kopieer de relevante velden, een voorbeeld is als volgt:
================== OVERZICHT VAN DIMM-FOUTEN =================== ------- DIMM E2 ---------- HUIDIGE AANTAL FOUTEN IN HET SLOT: Corrigeerbare ECC-fouten sinds de laatste keer opstarten van de server: 0 Cummulative Correctable ECC Error Count : 2560 Niet te corrigeren ECC-fouten sinds de laatste opstart van de server: 0 Cummulative Uncorrectable ECC Error Count : 3 VORIGE SLOT FOUT TELLINGEN : Aantal corrigeerbare ECC-fouten : 0 Aantal niet-corrigeerbare ECC-fouten : 0
[ServerXX_TechSupport.tar]\var\sel_decode.txt
- Spel voor spel van sel-inzendingen en fouten
eventLogMaxEntries: 1445 eventLogList: --- Id: 1440 Ernst: Kritische Datetime: 2017-03-10 00:57:17 dateTimeOrder: 00005 Beschrijving: "Systeemsoftware gebeurtenis: Postsensor, DIMM-socket 3, Channel E, Processor-socket 2. Uitgeschakeld omdat ander geheugen is mislukt in hetzelfde kanaal. [0xE542] werd beweerd"
Voor standalone servers:
- tmp\tech_support.frupids
====== Dumping IPMI FRU Records ====== Productnaam: UCSC-C220-xxx Onderdeelnummer van het product: 74-xxxx-01 Product Version: A Serieel product: FCHxxxxxxxN: serienummer van de server ====== Dumpen van inventariscatalogus PID's ====== DIMMList: Name: DIMM_A1Description: 8 GB DDR3-1333 MHz RDIMM/PC3-10600/dual rank/1,35 V PID: UCS-MR-1X082RX-A – DIMM PID
Na analyse
Zorg er na het uitvoeren van de analyse voor dat de serviceaanvraag wordt bijgewerkt met het juiste serienummer van de getroffen server en dat de database wordt doorzocht op eerdere RMA's die zijn gekoppeld aan de blade die wordt onderzocht. Als de DIMM die fouten weergeeft onlangs is vervangen, kan het moederbord verdacht zijn.
Voeg uw analyse toe aan de serviceaanvraag.
Logische probleemoplossing
Zodra fouten zijn geïdentificeerd, proberen we ze allemaal te wissen en controleren we tellers en het tabblad Fouten in UCSM om te zien of ze blijven bestaan.
Meld u aan bij de Server-opdrachtregel.
Tellers voor geheugenfouten wissen
server# scope chassis Server /chassis # reset-eccWis systeemgebeurtenislogboeken De onderstaande opdrachten:
Server# scope sel Server /sel # clear Met deze bewerking wordt de hele sel gewist. Blijven? [Y|N]y
Reset het CIMC-logboek met behulp van de onderstaande opdrachten:
Server# scope cimc Server /cimc # scope log Server /cimc/log # clear
Houd de omgeving 48 uur in de gaten.
Als de fouten zich blijven voordoen, legt u een nieuwe set UCS- en chassislogboeken vast, bevestigt u de analyse, formuleert u een actieplan op basis van het bewijs en gaat u verder met de volgende sectie.
Oorzaak
- DIMM-fouten worden meestal veroorzaakt door een defecte DIMM of soms door een slecht moederbord
Opmerkingen
- Geen
Additional Information
Raadpleeg deze video:
Affected Products
Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems SeriesArticle Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version: 4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.