Stappen voor het bevestigen en oplossen van DIMM-fouten op een Cisco C-serie server

Summary: Stappen voor het bevestigen en oplossen van DIMM-fouten op een Cisco C-serie server

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

DIMM-fouten op VxBlock UCS C serie server wissen

Feiten

  • Cisco C-Series Rack Mounted Servers (kan al dan niet worden beheerd door UCSM)

Symptomen
  •  Meldingen worden weergegeven in CIMC of UCSM, zoals:

F0184
F0185
F0137
F1236
F1237

  • PSOD: Purple Screen of death (op KVM of console van host)

Oplossing

Logboekverzameling
 
Leg logboeken van de getroffen server vast VOORDAT er een probleemoplossing wordt uitgevoerd. We hebben een basislijn nodig om het succes van stappen voor probleemoplossing te bepalen.

Rackservers uit de C-serie kunnen standalone zijn of door UCSM worden beheerd.  De stappen voor het verzamelen en bekijken van de logboeken zullen enigszins verschillen, afhankelijk van welke het is.
  • Standalone.
  • Beheerd door UCSM - Selecteer Rack Mount in plaats van Chassis of UCSM in het veld Options
  • Als u alleen CIMC-logboeken hebt, kunt u zien dat ze afkomstig zijn van een door UCSM beheerde server, omdat de bestandsnaam CIMCXXX bevat.  De logbestanden bevinden zich ook in een gecomprimeerde map met de naam Server XX, in plaats van rechtstreeks in de hoofdmap met de naam XX.  Als u dit ziet, zijn ook UCSM-logboeken vereist.
Als de server een PSOD heeft ondervonden, maakt u een screenshot van de PSOD en verzamelt u vSphere/host-logboeken.

Analyse van logboeken

  De belangrijkste verschillen tussen logboeken zijn de
  • Aanvullende informatie is beschikbaar in het UCSM-bestand sam_techsupport voor door UCSM beheerde servers
  • Locatie van de mappen. (zie opmerking onder logboekverzameling)
Handige logboeklocaties in UCSM- en CIMC-logboeken:

UCSM_X_TechSupport.tar\sam_techsupportinfo
  • 'show server inventory expand' (bevestig serienummer van server, zoek PID). Voorbeeld:
Server 1:
     Model: UCSC-C220-M4S
     Erkend serieel (SN): FCHXXXXXXXXXX
     Erkende productnaam: Cisco UCS C220 M4S
     Erkende PID: UCSC-C220-M4S
  • 'show fault detail' (lokaliseer gekoppelde fouten) - Voorbeeld:
Ernst: Belangrijke
Code: F0844 NL
Laatste overgangstijd: 2017-05-23T12:40:40.774
Beschrijving: DIMM DIMM_B2 op server 24 operaState: disabled
  • 'show server memory detail' (zoek de getroffen DIMM PID) - Voorbeeld:
Locatie: DIMM_A1
Productnaam: 16 GB DDR4-2400 MHz RDIMM/PC4-19200/single rank/x4/1,2 V
PID: UCS-MR-xxxxxxxx-A
Opmerking: de meeste van deze informatie is beschikbaar in sam_techsupport voor door UCSM beheerde servers

[ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
  • Infogebied chassis
Zoek het serienummer van de server dat wordt vermeld als "Chassis Serial Number". Voorbeeld als volgt: 
====================[ Chassis infogebied ]======================
            Chassisdeel aantal : [74-xxxxx-02]
            Serienummer chassis : [FCHXXXXXXXXX]
 
  • Bestuursgebied
Zoek de PID en het serienummer van het moederbord. Voorbeeld als volgt: 
========================[ Bestuursgebied ]=========================
            Productnaam van de raad : [UCSC-C240-MXXXX]
            Serienummer van de kaart : [FCHXXXXXXXXX]
 
  • SMBIOS Table Dump BEGIN    
                Zoek het DIMM-onderdeelnummer onder Memory Device\Part Locator. Voorbeeld als volgt: 
                Opmerking: dit is mogelijk niet de Cisco PID, maar kan worden gecorreleerd om deze te vinden
Geheugenapparaat
           Locator: DIMM_A1
           Onderdeelnummer: 36ASxxxxxx-2G3B1
  Querying All IPMI Sensors section:
Corrigeerbare en niet-corrigeerbare fouten:
Naam sensor | Lezing | Eenheid | Toestand | LNR | LC | LNC | UNC | UC | UNR    
DDR4_P2_E1_ECC | 63250.000 | Fout | UNR | n.v.t. | n.v.t. | n.v.t. | n.v.t. | n.v.t. | 60250.000 DDR4_P2_E2_ECC | 63750.000 | Fout | UNR | n.v.t. | n.v.t. | n.v.t. | n.v.t. | n.v.t. | 60250.000
DDR4_P2_E3_ECC | 63250.000 | Fout | UNR | n.v.t. | n.v.t. | n.v.t. | n.v.t. | n.v.t. | 60250.000


[ServerXX_TechSupport.tar]\var\log\sel\log
  • Controleer de logboeken op corrigeerbare en onherstelbare ECC-fouten:
Geheugen DDR4_P2_E2_ECC #0xb0 | lees 512 corrigeerbare ECC-fouten op CPU2 DIMM E2 | Beweerde
  • Controleer de logboeken op eventuele CATERR_N ... Beweerd | Beweerde vermeldingen, een voorbeeld is als volgt:
03/06/2017 20:02:12 | CIMC | Processor CATERR_N #0x70 | Voorspelde fout bevestigd | Beweerde
  Opmerking: het is normaal gedrag om te zien CATERR_N de-asserted | Bevestigd in de logboeken tijdens het opstarten[ ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
  • Zoek het aantal corrigeerbare/niet-corrigeerbare fouten voor getroffen DIMM( s) en kopieer de relevante velden, een voorbeeld is als volgt:
================== OVERZICHT VAN DIMM-FOUTEN ===================
------- DIMM E2 ----------
  HUIDIGE AANTAL FOUTEN IN HET SLOT:
      Corrigeerbare ECC-fouten sinds de laatste keer opstarten van de server: 0
      Cummulative Correctable ECC Error Count : 2560
      Niet te corrigeren ECC-fouten sinds de laatste opstart van de server: 0
      Cummulative Uncorrectable ECC Error Count : 3
   VORIGE SLOT FOUT TELLINGEN :
      Aantal corrigeerbare ECC-fouten : 0
      Aantal niet-corrigeerbare ECC-fouten : 0

[ServerXX_TechSupport.tar]\var\sel_decode.txt
  • Spel voor spel van sel-inzendingen en fouten
eventLogMaxEntries: 1445
eventLogList: 
---
Id: 1440
Ernst: Kritische
Datetime: 2017-03-10 00:57:17 
dateTimeOrder: 00005
Beschrijving: "Systeemsoftware gebeurtenis: Postsensor, DIMM-socket 3, Channel E, Processor-socket 2. Uitgeschakeld omdat ander geheugen is mislukt in hetzelfde kanaal. [0xE542] werd beweerd"

Voor standalone servers:
  • tmp\tech_support.frupids
====== Dumping IPMI FRU Records ======
Productnaam: UCSC-C220-xxx
Onderdeelnummer van het product: 74-xxxx-01
Product Version: A
 Serieel product: FCHxxxxxxxN: serienummer van de server

====== Dumpen van inventariscatalogus PID's ======
DIMMList: 
Name: DIMM_A1Description: 8 GB DDR3-1333 MHz RDIMM/PC3-10600/dual rank/1,35 V
PID: UCS-MR-1X082RX-A – DIMM PID


Na analyse
Zorg er na het uitvoeren van de analyse voor dat de serviceaanvraag wordt bijgewerkt met het juiste serienummer van de getroffen server en dat de database wordt doorzocht op eerdere RMA's die zijn gekoppeld aan de blade die wordt onderzocht.  Als de DIMM die fouten weergeeft onlangs is vervangen, kan het moederbord verdacht zijn.

Voeg uw analyse toe aan de serviceaanvraag.

Logische probleemoplossing
 
Zodra fouten zijn geïdentificeerd, proberen we ze allemaal te wissen en controleren we tellers en het tabblad Fouten in UCSM om te zien of ze blijven bestaan.
Meld u aan bij de Server-opdrachtregel.

Tellers voor geheugenfouten wissen
server# scope chassis
Server /chassis # reset-ecc
Wis systeemgebeurtenislogboeken De onderstaande opdrachten:
Server# scope sel
Server /sel # clear 
Met deze bewerking wordt de hele sel gewist.
Blijven? [Y|N]y

 Reset het CIMC-logboek met behulp van de onderstaande opdrachten:
Server# scope cimc
Server /cimc # scope log
Server /cimc/log # clear

Houd de omgeving 48 uur in de gaten.
Als de fouten zich blijven voordoen, legt u een nieuwe set UCS- en chassislogboeken vast, bevestigt u de analyse, formuleert u een actieplan op basis van het bewijs en gaat u verder met de volgende sectie.

Oorzaak
  • DIMM-fouten worden meestal veroorzaakt door een defecte DIMM of soms door een slecht moederbord

Opmerkingen
  • Geen

Additional Information

Raadpleeg deze video:

Affected Products

Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems Series
Article Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.