DIMM-virheiden vahvistamisen ja vianmäärityksen vaiheet Cisco C-Series -palvelimessa
Summary: DIMM-virheiden vahvistamisen ja vianmäärityksen vaiheet Cisco C-Series -palvelimessa
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Instructions
DIMM-virheiden poistaminen VxBlock UCS C Series -palvelimesta
Tosiasiat
- Cisco C-Series -kehikkoon asennetut palvelimet (UCSM ei ehkä hallitse niitä)
Oireet
- CIMC:ssä tai UCSM:ssä näkyy hälytyksiä, kuten:
F0184
, F0185
, F0137
, F1236
, F1237
- PSOD – Kuoleman violetti näyttö (KVM:ssä tai isännän konsolissa)
Ratkaisu
Lokien kerääminen
Tallenna haavoittuvuuden sisältävän palvelimen lokit ENNEN vianmäärityksen aloittamista. Tarvitsemme lähtötason, joka määrittää vianmääritysvaiheiden onnistumisen.
C-sarjan kehikkopalvelimet voivat olla joko itsenäisiä tai UCSM:n hallinnoimia. Lokien keräämisen ja tarkistamisen vaiheet ovat hieman erilaiset sen mukaan, mikä niistä on kyse.
- Standalone.
- UCSM:n hallinnoima - Valitse Options-kentästä Rack Mount eikä chassis- tai ucsm-tila
- Jos sinulla on vain CIMC-lokeja, voit kertoa, että ne ovat peräisin UCSM: n hallitsemasta palvelimesta, koska tiedostonimi sisältää CIMCXXX. Lokitiedostot ovat myös pakatussa hakemistossa nimeltä Server XX suoraan pakatun päähakemiston sijaan. Jos näet tämän, tarvitaan myös UCSM-lokit.
Lokianalyysi
Tärkeimmät erot tukkien välillä ovat
- Lisätietoja on UCSM:n hallinnoimien palvelimien UCSM-sam_techsupport tiedostossa
- Hakemistojen sijainti. (katso huomautus kohdassa Lokien kerääminen)
UCSM_X_TechSupport.tar\sam_techsupportinfo
- 'show server inventory expand' (vahvista palvelimen sarjanumero, etsi PID). Esimerkki:
Palvelin 1:
Malli: UCSC-C220-M4S
Tunnustettu sarjaportti (SN): FCHXXXXXXXXXXXXX
Tunnustettu tuotenimi: Cisco UCS C220 M4S
Kuittattu PID: UCSC-C220-M4S
- 'show fault detail' (paikanna siihen liittyvät viat) - Esimerkki:
Vakavuusaste: Suuri Koodi: F0844 Viimeinen siirtymäaika: 2017-05-23T12:40:40.774 Kuvaus: DIMM-DIMM_B2 palvelimessa 24 operaState: disabled
- 'show server memory details' (paikanna DIMM-pid, johon ongelma vaikuttaa)- Esimerkki:
Paikka: DIMM_A1 Tuotenimi: 16 Gt:n DDR4-2400 MHz:n RDIMM / PC4-19200 / single rank / x4 / 1,2v PID: UCS-MR-xxxxxxxx-AHuomaa - suurin osa näistä tiedoista on saatavana UCSM: n hallitsemien palvelimien
sam_techsupport: ssä [ServerXX_TechSupport.tar]\TMP\ ServerXX_TechSupport.txt
- Kotelon tietoalue
====================[ Kotelon tietoalue ]======================
Kotelon osanumero : [74-xxxxx-02]
Kotelon sarjanumero: [FCHXXXXXXXXX]
- Hallituksen alue
========================[ Hallituksen alue ]=========================
Levyn tuotenimi : [UCSC-C240-MXXXX]
Kortin sarjanumero: [FCHXXXXXXXX]
- SMBIOS-taulukon vedos BEGIN
Huomautus: tämä ei ehkä ole Cisco PID, mutta se voidaan korreloida sen löytämiseksi
Muistilaite
Locator: DIMM_A1
Osanumero: 36ASxxxxxx-2G3B1 Kaikkien IPMI-antureiden kysely -osio:
Korjattavissa ja korjauskelvottomat virheet: Anturin nimi | Lukeminen | Yksikkö | Tila | LNR | LC | LNC | UNC | UC | UNR DDR4_P2_E1_ECC | 63250 000 | Virhe | UNR | NA | NA | NA | NA | NA | 60250 000 DDR4_P2_E2_ECC | 63750 000 | Virhe | UNR | NA | NA | NA | NA | NA | 60250.000 DDR4_P2_E3_ECC | 63250 000 | Virhe | UNR | NA | NA | NA | NA | NA | 60250.000
[ServerXX_TechSupport.tar]\var\log\sel\log
- Tarkista lokit korjattavien ja korjauskelvottomien ECC-virheiden varalta:
Muistin DDR4_P2_E2_ECC #0xb0 | Lue 512 korjattavaa ECC-virhettä CPU2 DIMM E2 -moduulissa | Väittänyt
- Tarkista lokit mahdollisten CATERR_N varalta... Vahvistettu | Väitetyt merkinnät, esimerkki on seuraava:
3.6.2017 20:02:12 | CIMC | Prosessorin CATERR_N #0x70 | Ennakoiva epäonnistuminen vahvistettu | VäittänytHuomautus: on odotettua nähdä CATERR_N vahvistettu | Väitetään lokeissa käynnistyksen aikana [ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
- Etsi korjattavissa/korjauskelvottomat virhemäärät DIMM-moduuleille, joihin ongelma vaikuttaa, ja kopioi tarvittavat kentät. Esimerkki on seuraava:
================== YHTEENVETO DIMM-VIRHEISTÄ =================== ------- DIMM E2 ---------- NYKYISTEN KORTTIPAIKKAVIRHEIDEN MÄÄRÄ: Korjattavissa olevat ECC-virheet palvelimen edellisen käynnistyksen jälkeen: 0 Kummulatiivinen korjattavissa oleva ECC-virheiden määrä: 2560 ECC-virheet, joita ei voi korjata palvelimen edellisen käynnistyksen jälkeen: 0 Cummulative Korjaamaton ECC-virheiden määrä : 3 AIEMPIEN KORTTIPAIKKOJEN VIRHEIDEN MÄÄRÄ : Korjattavissa olevien ECC-virheiden määrä: 0 ECC-virheiden määrä, jota ei voi korjata: 0
[ServerXX_TechSupport.tar]\var\sel_decode.txt
- Pelaa pelaamalla sel-merkintöjä ja vikoja
eventLogMaxEntries: 1445 eventLogList: --- Tunnus: 1440 Vakavuus: Kriittinen Datetime: 2017-03-10 00:57:17 dateTimeOrder: 00005 Kuvaus: "Järjestelmäohjelmistotapahtuma: Pylväsanturi, DIMM-kanta 3, kanava E, suorittimen kanta 2. Ei käytössä, koska saman kanavan toinen muisti vioittui. [0xE542] väitettiin"
Erilliset palvelimet:
- TMP\tech_support.Frupids
====== Polkumyynti IPMI FRU -tietueet ====== Tuotenimi: UCSC-C220-xxx Tuotteen osanumero: 74-xxxx-01 Tuoteversio: A Tuotesarja: FCHxxxxxxxN – palvelimen sarjanumero ====== Polkumyyntivarastoluettelon PID-tunnukset ====== DIMMList: Name: DIMM_A1Description: 8 Gt:n DDR3-1333 MHz:n RDIMM / PC3-10600 / dual rank / 1,35 V PID: UCS-MR-1X082RX-A – DIMM-PID
Jälkianalyysi
Varmista analyysin jälkeen, että palvelupyyntöön on päivitetty ongelman kohteena olevan palvelimen oikea sarjanumero ja että tietokannasta etsitään tutkittavaan korttiin liittyviä aiempia RMA:ita. Jos vikoja osoittava DIMM-moduuli on vaihdettu äskettäin, emolevy saattaa olla epäilyttävä.
Lisää analyysisi palvelupyyntöön.
Looginen vianmääritys
Kun virheet on tunnistettu, yritämme tyhjentää ne kaikki ja seurata laskureita ja UCSM: n vikavälilehteä nähdäksemme, jatkuvatko ne.
Kirjaudu palvelimen komentoriville.
Tyhjennä muistivirhelaskurit
Server# scope -kotelo Palvelin/kotelo # Reset-ECCTyhjennä järjestelmän tapahtumalokit ja käytä seuraavia komentoja:
Palvelin# laajuus, sel Palvelin /sel # clear Tämä toimenpide tyhjentää koko sel. Jatkaa? [y|N]y
Nollaa CIMC-loki seuraavilla komennoilla:
Palvelin# laajuus cimc Palvelin /cimc # laajuusloki Palvelin /cimc/log # clear
Tarkkaile ympäristöä 48 tuntia.
Jos virheet jatkuvat, tallenna uudet UCS- ja kotelolokit, vahvista analyysi, laadi näyttöön perustuva toimintasuunnitelma ja siirry seuraavaan osaan.
Aiheuttaa
- DIMM-virheet johtuvat yleensä viallisesta DIMM-moduulista tai joskus viallisesta emolevystä
Huomautukset
- None
Additional Information
Katso tämä video:
Affected Products
Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems SeriesArticle Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version: 4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.