Postup potvrzení a odstraňování chyb DIMM na serveru Cisco řady C
Summary: Postup potvrzení a odstraňování chyb DIMM na serveru Cisco řady C
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Instructions
Jak vymazat chyby DIMM na serveru VxBlock UCS řady C
Fakta
- Rackové servery Cisco řady C (mohou, ale nemusí být spravovány pomocí UCSM)
Příznaky
- V CIMC nebo UCSM se zobrazí výstrahy, například:
F0184
, F0185
, F0137
, F1236
, F1237
- PSOD – fialová obrazovka smrti (na KVM nebo konzoli hostitele)
Řešení
Shromažďování
protokolůPřed odstraněním jakéhokoli problému zachyťte protokoly z dotčeného serveru. Potřebujeme směrný plán, abychom mohli určit úspěšnost kroků odstraňování problémů.
Rackové servery řady C mohou být buď samostatně, nebo spravované pomocí UCSM. Postup shromáždění a kontroly protokolů se bude mírně lišit v závislosti na tom, o které protokoly se jedná.
- Samostatné.
- Spravuje UCSM – V poli Options vyberte "Rack Mount" namísto "chassis" nebo "ucsm".
- Pokud máte pouze protokoly CIMC, můžete zjistit, že pocházejí ze serveru spravovaného UCSM, protože název souboru bude obsahovat CIMCXXX. Soubory protokolu budou také v komprimovaném adresáři s názvem Server XX, nikoli přímo v hlavním komprimovaném adresáři. Pokud se toto zobrazí, budou vyžadovány také protokoly UCSM.
Analýza
protokolů Hlavní rozdíly mezi protokoly jsou:
- Další informace jsou k dispozici v souboru UCSM sam_techsupport pro servery spravované UCSM.
- Umístění adresářů. (viz poznámka v části Shromažďování protokolů)
UCSM_X_TechSupport.tar\sam_techsupportinfo
- "show server inventory expand" (potvrzení sériového čísla serveru, vyhledání PID). Příklad:
Server 1:
Model: UCSC-C220-M4S
Potvrzovaný sériový port (SN): FCHXXXXXXXXXX
Uznávaný název produktu: Cisco UCS C220 M4S
Poznané PID: UCSC-C220-M4S
- "show fault detail" (vyhledání přidružených chyb) – příklad:
Severity: Hlavní Kód: Katalogové číslo F0844 Čas posledního přechodu: 2017-05-23T12:40:40.774 Popis: DIMM_B2 modulu DIMM na serveru 24 operaState: disabled
- "show server memory detail" (vyhledání dotčeného identifikátoru PID modulu DIMM) – příklad:
Location: DIMM_A1 Název produktu: 16 GB paměti DDR4-2 400 MHz RDIMM / PC4-19200 / single rank / x4 / 1,2 V PID: UCS-MR-xxxxxxxx-APoznámka – většina těchto informací je k dispozici v sam_techsupport pro servery
spravované UCSM. [ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
- Informační oblast šasi
====================[ informační oblast o šasi]======================
Číslo dílu šasi: [74-XXXXX-02]
Sériové číslo šasi: [FCHXXXXXXXXX]
- Oblast desky
========================[ oblast desky]=========================
Deska Název produktu: [UCSC-C240-Mxxxx]
Sériové číslo desky: [FCHXXXXXXXX]
- Výpis tabulky SMBIOS ZAČÁTEK
Poznámka: Nemusí se jednat o identifikátor PID společnosti Cisco, ale lze jej najít pomocí korelace
Paměťové zařízení
Lokátor: DIMM_A1
Číslo dílu: 36ASxxxxxx-2G3B1 Část Dotazování na všechny snímače IPMI:
Opravitelné a neopravitelné chyby: Název senzoru | Čtení | Jednotka | Stav | LNR | LC | LNC | UNC | Sjednocená komunikace | UNR DDR4_P2_E1_ECC | 63250.000 | Chyba | UNR | Nejsou k dispozici | Nejsou k dispozici | Nejsou k dispozici | Nejsou k dispozici | Nejsou k dispozici | 60250.000 DDR4_P2_E2_ECC | 63750.000 | Chyba | UNR | Nejsou k dispozici | Nejsou k dispozici | Nejsou k dispozici | Nejsou k dispozici | Nejsou k dispozici | 60250.000 DDR4_P2_E3_ECC | 63250.000 | Chyba | UNR | Nejsou k dispozici | Nejsou k dispozici | Nejsou k dispozici | Nejsou k dispozici | Nejsou k dispozici | 60250.000
[ServerXX_TechSupport.tar]\var\log\sel\log
- Zkontrolujte, zda protokoly neobsahují všechny opravitelné či neopravitelné chyby ECC:
Paměťový DDR4_P2_E2_ECC #0xb0 | čtení 512 opravitelných chyb ECC na CPU2 DIMM E2 | Tvrdil
- Zkontrolujte, zda v protokolech nejsou nějaké CATERR_N... Uplatnil | Uplatňované položky, příklad je následující:
03/06/2017 20:02:12 | CIMC | CATERR_N #0x70 procesoru | Uplatňováno prediktivní selhání | TvrdilPoznámka: Očekává se, že dojde k tomu, že CATERR_N zrušeno | Assert v protokolech v době bootování [ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
- Najděte opravitelné/neopravitelné počty dotčených modulů DIMM a zkopírujte příslušná pole. Příklad je následující:
================== SOUHRN CHYB MODULŮ DIMM =================== ------- DIMM E2 ---------- POČET AKTUÁLNÍCH CHYB SLOTU: Opravitelné chyby ECC od posledního spuštění serveru : 0 Kumulativní opravitelný počet chyb ECC: 2560 Neopravitelné chyby ECC od posledního spuštění serveru : 0 Kumulativní neopravitelný počet chyb ECC: 3 PŘEDCHOZÍ POČTY CHYB SLOTU : Opravitelný počet chyb ECC: 0 Neopravitelný počet chyb ECC: 0
[ServerXX_TechSupport.tar]\var\sel_decode.txt
- Hra hrou sel záznamů a závad
eventLogMaxEntries: 1445 eventLogList: --- Id: 1440 Závažnosti: Kritické Datetime: 2017-03-10 00:57:17 dateTimeOrder: 00005 Popis: "System Software event: Snímač POST, socket DIMM 3, kanál E, socket procesoru 2. Zakázáno z důvodu selhání jiné paměti ve stejném kanálu. [0xE542] bylo uplatněno"
Pro samostatné servery:
- tmp\tech_support.frupids
====== výpis záznamů IPMI FRU ====== Název produktu: UCSC-C220-xxx Číslo dílu produktu: 74-xxxx-01 Verze produktu: A Sériové číslo produktu: FCHxxxxxxxN – sériové číslo serveru ====== PID výpisu zásob katalogu ====== DIMMList: Name: DIMM_A1Description: 8 GB paměti DDR3-1 333 MHz RDIMM / PC3-10600 / duální zařazení / 1,35 V PID: UCS-MR-1X082RX-A – DIMM PID
Následná analýza
Po provedení analýzy se ujistěte, že je servisní požadavek aktualizován o správné sériové číslo dotčeného serveru a že se v databázi vyhledají všechny předchozí RMA přidružené k prošetřovanému blade. Pokud byl modul DIMM vykazující závady nedávno vyměněn, může jít o podezřelou základní desku.
Přidejte analýzu k servisnímu požadavku.
Logické řešení potíží
Jakmile budou chyby identifikovány, pokusíme se je všechny odstranit a sledovat čítače a kartu chyb v UCSM, abychom zjistili, zda přetrvávají.
Přihlaste se k příkazovému řádku serveru.
Vymazání čítačů chyb paměti
Šasi oboru server# Server /chassis # reset-ECCVymažte protokoly systémových událostí pomocí následujících příkazů:
Server# scope sel Server /sel # clear Tato operace vymaže celý sel. Pokračovat? [y|N]y
Resetujte protokol CIMC pomocí následujících příkazů:
Obor serveru# cimc Protokol oboru serveru /cimc # Server /cimc/log # smazat
Monitorujte prostředí po dobu 48 hodin.
Pokud chyby přetrvávají, zaznamenejte novou sadu protokolů USS a šasi, potvrďte analýzu, zformulujte akční plán na základě důkazů a pokračujte další částí.
Způsobit
- Chyby modulu DIMM jsou obvykle způsobeny vadným modulem DIMM nebo někdy špatnou základní deskou.
Poznámky
- Žádné
Additional Information
Zhlédněte následující video:
Affected Products
Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems SeriesArticle Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version: 4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.