DIMM-virheiden vahvistamisen ja vianmäärityksen vaiheet Cisco C-Series -palvelimessa

Summary: DIMM-virheiden vahvistamisen ja vianmäärityksen vaiheet Cisco C-Series -palvelimessa

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

DIMM-virheiden poistaminen VxBlock UCS C Series -palvelimesta

Tosiasiat

  • Cisco C-Series -kehikkoon asennetut palvelimet (UCSM ei ehkä hallitse niitä)

Oireet
  •  CIMC:ssä tai UCSM:ssä näkyy hälytyksiä, kuten:

F0184
, F0185
, F0137
, F1236
, F1237

  • PSOD – Kuoleman violetti näyttö (KVM:ssä tai isännän konsolissa)

Ratkaisu

Lokien kerääminen
 
Tallenna haavoittuvuuden sisältävän palvelimen lokit ENNEN vianmäärityksen aloittamista. Tarvitsemme lähtötason, joka määrittää vianmääritysvaiheiden onnistumisen.

C-sarjan kehikkopalvelimet voivat olla joko itsenäisiä tai UCSM:n hallinnoimia.  Lokien keräämisen ja tarkistamisen vaiheet ovat hieman erilaiset sen mukaan, mikä niistä on kyse.
  • Standalone.
  • UCSM:n hallinnoima - Valitse Options-kentästä Rack Mount eikä chassis- tai ucsm-tila
  • Jos sinulla on vain CIMC-lokeja, voit kertoa, että ne ovat peräisin UCSM: n hallitsemasta palvelimesta, koska tiedostonimi sisältää CIMCXXX.  Lokitiedostot ovat myös pakatussa hakemistossa nimeltä Server XX suoraan pakatun päähakemiston sijaan.  Jos näet tämän, tarvitaan myös UCSM-lokit.
Jos palvelimessa on PSOD, ota näyttökuva PSOD: sta ja kerää vSphere / isäntälokit.

Lokianalyysi

  Tärkeimmät erot tukkien välillä ovat
  • Lisätietoja on UCSM:n hallinnoimien palvelimien UCSM-sam_techsupport tiedostossa
  • Hakemistojen sijainti. (katso huomautus kohdassa Lokien kerääminen)
Hyödyllisiä lokisijainteja UCSM- ja CIMC-lokeissa:

UCSM_X_TechSupport.tar\sam_techsupportinfo
  • 'show server inventory expand' (vahvista palvelimen sarjanumero, etsi PID). Esimerkki:
Palvelin 1:
     Malli: UCSC-C220-M4S
     Tunnustettu sarjaportti (SN): FCHXXXXXXXXXXXXX
     Tunnustettu tuotenimi: Cisco UCS C220 M4S
     Kuittattu PID: UCSC-C220-M4S
  • 'show fault detail' (paikanna siihen liittyvät viat) - Esimerkki:
Vakavuusaste: Suuri
Koodi: F0844
Viimeinen siirtymäaika: 2017-05-23T12:40:40.774
Kuvaus: DIMM-DIMM_B2 palvelimessa 24 operaState: disabled
  • 'show server memory details' (paikanna DIMM-pid, johon ongelma vaikuttaa)- Esimerkki:
Paikka: DIMM_A1
Tuotenimi: 16 Gt:n DDR4-2400 MHz:n RDIMM / PC4-19200 / single rank / x4 / 1,2v
PID: UCS-MR-xxxxxxxx-A
Huomaa - suurin osa näistä tiedoista on saatavana UCSM: n hallitsemien palvelimien

sam_techsupport: ssä [ServerXX_TechSupport.tar]\TMP\ ServerXX_TechSupport.txt
  • Kotelon tietoalue
Etsi palvelimen sarjanumero, joka on kotelon sarjanumero. Esimerkki seuraavasti: 
====================[ Kotelon tietoalue ]======================
            Kotelon osanumero : [74-xxxxx-02]
            Kotelon sarjanumero: [FCHXXXXXXXXX]
 
  • Hallituksen alue
Etsi emolevyn PID-tunnus ja sarjanumero. Esimerkki seuraavasti: 
========================[ Hallituksen alue ]=========================
            Levyn tuotenimi : [UCSC-C240-MXXXX]
            Kortin sarjanumero: [FCHXXXXXXXX]
 
  • SMBIOS-taulukon vedos BEGIN    
                Etsi DIMM-moduulin osanumero kohdasta Memory Device\Part Locator. Esimerkki seuraavasti: 
                Huomautus: tämä ei ehkä ole Cisco PID, mutta se voidaan korreloida sen löytämiseksi
Muistilaite
           Locator: DIMM_A1
           Osanumero: 36ASxxxxxx-2G3B1
  Kaikkien IPMI-antureiden kysely -osio:
Korjattavissa ja korjauskelvottomat virheet:
Anturin nimi | Lukeminen | Yksikkö | Tila | LNR | LC | LNC | UNC | UC | UNR    
DDR4_P2_E1_ECC | 63250 000 | Virhe | UNR | NA | NA | NA | NA | NA | 60250 000 DDR4_P2_E2_ECC | 63750 000 | Virhe | UNR | NA | NA | NA | NA | NA | 60250.000
DDR4_P2_E3_ECC | 63250 000 | Virhe | UNR | NA | NA | NA | NA | NA | 60250.000


[ServerXX_TechSupport.tar]\var\log\sel\log
  • Tarkista lokit korjattavien ja korjauskelvottomien ECC-virheiden varalta:
Muistin DDR4_P2_E2_ECC #0xb0 | Lue 512 korjattavaa ECC-virhettä CPU2 DIMM E2 -moduulissa | Väittänyt
  • Tarkista lokit mahdollisten CATERR_N varalta... Vahvistettu | Väitetyt merkinnät, esimerkki on seuraava:
3.6.2017 20:02:12 | CIMC | Prosessorin CATERR_N #0x70 | Ennakoiva epäonnistuminen vahvistettu | Väittänyt
  Huomautus: on odotettua nähdä CATERR_N vahvistettu | Väitetään lokeissa käynnistyksen aikana [ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
  • Etsi korjattavissa/korjauskelvottomat virhemäärät DIMM-moduuleille, joihin ongelma vaikuttaa, ja kopioi tarvittavat kentät. Esimerkki on seuraava:
================== YHTEENVETO DIMM-VIRHEISTÄ ===================
------- DIMM E2 ----------
  NYKYISTEN KORTTIPAIKKAVIRHEIDEN MÄÄRÄ:
      Korjattavissa olevat ECC-virheet palvelimen edellisen käynnistyksen jälkeen: 0
      Kummulatiivinen korjattavissa oleva ECC-virheiden määrä: 2560
      ECC-virheet, joita ei voi korjata palvelimen edellisen käynnistyksen jälkeen: 0
      Cummulative Korjaamaton ECC-virheiden määrä : 3
   AIEMPIEN KORTTIPAIKKOJEN VIRHEIDEN MÄÄRÄ :
      Korjattavissa olevien ECC-virheiden määrä: 0
      ECC-virheiden määrä, jota ei voi korjata: 0

[ServerXX_TechSupport.tar]\var\sel_decode.txt
  • Pelaa pelaamalla sel-merkintöjä ja vikoja
eventLogMaxEntries: 1445
eventLogList: 
---
Tunnus: 1440
Vakavuus: Kriittinen
Datetime: 2017-03-10 00:57:17 
dateTimeOrder: 00005
Kuvaus: "Järjestelmäohjelmistotapahtuma: Pylväsanturi, DIMM-kanta 3, kanava E, suorittimen kanta 2. Ei käytössä, koska saman kanavan toinen muisti vioittui. [0xE542] väitettiin"

Erilliset palvelimet:
  • TMP\tech_support.Frupids
====== Polkumyynti IPMI FRU -tietueet ======
Tuotenimi: UCSC-C220-xxx
Tuotteen osanumero: 74-xxxx-01
Tuoteversio: A
 Tuotesarja: FCHxxxxxxxN – palvelimen sarjanumero

====== Polkumyyntivarastoluettelon PID-tunnukset ======
DIMMList: 
Name: DIMM_A1Description: 8 Gt:n DDR3-1333 MHz:n RDIMM / PC3-10600 / dual rank / 1,35 V
PID: UCS-MR-1X082RX-A – DIMM-PID


Jälkianalyysi
Varmista analyysin jälkeen, että palvelupyyntöön on päivitetty ongelman kohteena olevan palvelimen oikea sarjanumero ja että tietokannasta etsitään tutkittavaan korttiin liittyviä aiempia RMA:ita.  Jos vikoja osoittava DIMM-moduuli on vaihdettu äskettäin, emolevy saattaa olla epäilyttävä.

Lisää analyysisi palvelupyyntöön.

Looginen vianmääritys
 
Kun virheet on tunnistettu, yritämme tyhjentää ne kaikki ja seurata laskureita ja UCSM: n vikavälilehteä nähdäksemme, jatkuvatko ne.
Kirjaudu palvelimen komentoriville.

Tyhjennä muistivirhelaskurit
Server# scope -kotelo
Palvelin/kotelo # Reset-ECC
Tyhjennä järjestelmän tapahtumalokit ja käytä seuraavia komentoja:
Palvelin# laajuus, sel
Palvelin /sel # clear 
Tämä toimenpide tyhjentää koko sel.
Jatkaa? [y|N]y

 Nollaa CIMC-loki seuraavilla komennoilla:
Palvelin# laajuus cimc
Palvelin /cimc # laajuusloki
Palvelin /cimc/log # clear

Tarkkaile ympäristöä 48 tuntia.
Jos virheet jatkuvat, tallenna uudet UCS- ja kotelolokit, vahvista analyysi, laadi näyttöön perustuva toimintasuunnitelma ja siirry seuraavaan osaan.

Aiheuttaa
  • DIMM-virheet johtuvat yleensä viallisesta DIMM-moduulista tai joskus viallisesta emolevystä

Huomautukset
  • None

Additional Information

Katso tämä video:

Affected Products

Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems Series
Article Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.