Postup potvrzení a odstraňování chyb DIMM na serveru Cisco řady C

Summary: Postup potvrzení a odstraňování chyb DIMM na serveru Cisco řady C

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Jak vymazat chyby DIMM na serveru VxBlock UCS řady C

Fakta

  • Rackové servery Cisco řady C (mohou, ale nemusí být spravovány pomocí UCSM)

Příznaky
  •  V CIMC nebo UCSM se zobrazí výstrahy, například:

F0184
, F0185
, F0137
, F1236
, F1237

  • PSOD – fialová obrazovka smrti (na KVM nebo konzoli hostitele)

Řešení

Shromažďování
 
protokolůPřed odstraněním jakéhokoli problému zachyťte protokoly z dotčeného serveru. Potřebujeme směrný plán, abychom mohli určit úspěšnost kroků odstraňování problémů.

Rackové servery řady C mohou být buď samostatně, nebo spravované pomocí UCSM.  Postup shromáždění a kontroly protokolů se bude mírně lišit v závislosti na tom, o které protokoly se jedná.
  • Samostatné.
  • Spravuje UCSM – V poli Options vyberte "Rack Mount" namísto "chassis" nebo "ucsm".
  • Pokud máte pouze protokoly CIMC, můžete zjistit, že pocházejí ze serveru spravovaného UCSM, protože název souboru bude obsahovat CIMCXXX.  Soubory protokolu budou také v komprimovaném adresáři s názvem Server XX, nikoli přímo v hlavním komprimovaném adresáři.  Pokud se toto zobrazí, budou vyžadovány také protokoly UCSM.
Pokud na serveru došlo k vytvoření PSOD, pořiďte snímek obrazovky PSOD a shromážděte protokoly vSphere/hostitele.

Analýza

protokolů  Hlavní rozdíly mezi protokoly jsou:
  • Další informace jsou k dispozici v souboru UCSM sam_techsupport pro servery spravované UCSM.
  • Umístění adresářů. (viz poznámka v části Shromažďování protokolů)
Užitečná umístění protokolů v protokolech UCSM a CIMC:

UCSM_X_TechSupport.tar\sam_techsupportinfo
  • "show server inventory expand" (potvrzení sériového čísla serveru, vyhledání PID). Příklad:
Server 1:
     Model: UCSC-C220-M4S
     Potvrzovaný sériový port (SN): FCHXXXXXXXXXX
     Uznávaný název produktu: Cisco UCS C220 M4S
     Poznané PID: UCSC-C220-M4S
  • "show fault detail" (vyhledání přidružených chyb) – příklad:
Severity: Hlavní
Kód: Katalogové číslo F0844
Čas posledního přechodu: 2017-05-23T12:40:40.774
Popis: DIMM_B2 modulu DIMM na serveru 24 operaState: disabled
  • "show server memory detail" (vyhledání dotčeného identifikátoru PID modulu DIMM) – příklad:
Location: DIMM_A1
Název produktu: 16 GB paměti DDR4-2 400 MHz RDIMM / PC4-19200 / single rank / x4 / 1,2 V
PID: UCS-MR-xxxxxxxx-A
Poznámka – většina těchto informací je k dispozici v sam_techsupport pro servery

spravované UCSM. [ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
  • Informační oblast šasi
Vyhledejte sériové číslo serveru uvedené jako "Chassis Serial Number". Příklad následovně: 
====================[ informační oblast o šasi]======================
            Číslo dílu šasi: [74-XXXXX-02]
            Sériové číslo šasi: [FCHXXXXXXXXX]
 
  • Oblast desky
Vyhledejte PID a sériové číslo základní desky. Příklad následovně: 
========================[ oblast desky]=========================
            Deska Název produktu: [UCSC-C240-Mxxxx]
            Sériové číslo desky: [FCHXXXXXXXX]
 
  • Výpis tabulky SMBIOS ZAČÁTEK    
                Vyhledejte číslo dílu DIMM v části Paměťové zařízení\Lokátor dílů. Příklad následovně: 
                Poznámka: Nemusí se jednat o identifikátor PID společnosti Cisco, ale lze jej najít pomocí korelace
Paměťové zařízení
           Lokátor: DIMM_A1
           Číslo dílu: 36ASxxxxxx-2G3B1
  Část Dotazování na všechny snímače IPMI:
Opravitelné a neopravitelné chyby:
Název senzoru | Čtení | Jednotka | Stav | LNR | LC | LNC | UNC | Sjednocená komunikace | UNR    
DDR4_P2_E1_ECC | 63250.000 | Chyba | UNR | Nejsou k dispozici | Nejsou k dispozici | Nejsou k dispozici | Nejsou k dispozici | Nejsou k dispozici | 60250.000 DDR4_P2_E2_ECC | 63750.000 | Chyba | UNR | Nejsou k dispozici | Nejsou k dispozici | Nejsou k dispozici | Nejsou k dispozici | Nejsou k dispozici | 60250.000
DDR4_P2_E3_ECC | 63250.000 | Chyba | UNR | Nejsou k dispozici | Nejsou k dispozici | Nejsou k dispozici | Nejsou k dispozici | Nejsou k dispozici | 60250.000


[ServerXX_TechSupport.tar]\var\log\sel\log
  • Zkontrolujte, zda protokoly neobsahují všechny opravitelné či neopravitelné chyby ECC:
Paměťový DDR4_P2_E2_ECC #0xb0 | čtení 512 opravitelných chyb ECC na CPU2 DIMM E2 | Tvrdil
  • Zkontrolujte, zda v protokolech nejsou nějaké CATERR_N... Uplatnil | Uplatňované položky, příklad je následující:
03/06/2017 20:02:12 | CIMC | CATERR_N #0x70 procesoru | Uplatňováno prediktivní selhání | Tvrdil
  Poznámka: Očekává se, že dojde k tomu, že CATERR_N zrušeno | Assert v protokolech v době bootování [ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
  • Najděte opravitelné/neopravitelné počty dotčených modulů DIMM a zkopírujte příslušná pole. Příklad je následující:
================== SOUHRN CHYB MODULŮ DIMM ===================
------- DIMM E2 ----------
  POČET AKTUÁLNÍCH CHYB SLOTU:
      Opravitelné chyby ECC od posledního spuštění serveru : 0
      Kumulativní opravitelný počet chyb ECC: 2560
      Neopravitelné chyby ECC od posledního spuštění serveru : 0
      Kumulativní neopravitelný počet chyb ECC: 3
   PŘEDCHOZÍ POČTY CHYB SLOTU :
      Opravitelný počet chyb ECC: 0
      Neopravitelný počet chyb ECC: 0

[ServerXX_TechSupport.tar]\var\sel_decode.txt
  • Hra hrou sel záznamů a závad
eventLogMaxEntries: 1445
eventLogList: 
---
Id: 1440
Závažnosti: Kritické
Datetime: 2017-03-10 00:57:17 
dateTimeOrder: 00005
Popis: "System Software event: Snímač POST, socket DIMM 3, kanál E, socket procesoru 2. Zakázáno z důvodu selhání jiné paměti ve stejném kanálu. [0xE542] bylo uplatněno"

Pro samostatné servery:
  • tmp\tech_support.frupids
====== výpis záznamů IPMI FRU ======
Název produktu: UCSC-C220-xxx
Číslo dílu produktu: 74-xxxx-01
Verze produktu: A
 Sériové číslo produktu: FCHxxxxxxxN – sériové číslo serveru

====== PID výpisu zásob katalogu ======
DIMMList: 
Name: DIMM_A1Description: 8 GB paměti DDR3-1 333 MHz RDIMM / PC3-10600 / duální zařazení / 1,35 V
PID: UCS-MR-1X082RX-A – DIMM PID


Následná analýza
Po provedení analýzy se ujistěte, že je servisní požadavek aktualizován o správné sériové číslo dotčeného serveru a že se v databázi vyhledají všechny předchozí RMA přidružené k prošetřovanému blade.  Pokud byl modul DIMM vykazující závady nedávno vyměněn, může jít o podezřelou základní desku.

Přidejte analýzu k servisnímu požadavku.

Logické řešení potíží
 
Jakmile budou chyby identifikovány, pokusíme se je všechny odstranit a sledovat čítače a kartu chyb v UCSM, abychom zjistili, zda přetrvávají.
Přihlaste se k příkazovému řádku serveru.

Vymazání čítačů chyb paměti
Šasi oboru server#
Server /chassis # reset-ECC
Vymažte protokoly systémových událostí pomocí následujících příkazů:
Server# scope sel
Server /sel # clear 
Tato operace vymaže celý sel.
Pokračovat? [y|N]y

 Resetujte protokol CIMC pomocí následujících příkazů:
Obor serveru# cimc
Protokol oboru serveru /cimc #
Server /cimc/log # smazat

Monitorujte prostředí po dobu 48 hodin.
Pokud chyby přetrvávají, zaznamenejte novou sadu protokolů USS a šasi, potvrďte analýzu, zformulujte akční plán na základě důkazů a pokračujte další částí.

Způsobit
  • Chyby modulu DIMM jsou obvykle způsobeny vadným modulem DIMM nebo někdy špatnou základní deskou.

Poznámky
  • Žádné

Additional Information

Zhlédněte následující video:

Affected Products

Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems Series
Article Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.