Procedura su come confermare e risolvere gli errori DIMM su un server Cisco serie C

Summary: Procedura su come confermare e risolvere gli errori DIMM su un server Cisco serie C

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Come cancellare gli errori DIMM sul server VxBlock UCS serie C

Fatti

  • Server Cisco serie C montati su rack (possono essere gestiti o meno da UCSM)

Sintomi
  •  Gli avvisi verranno visualizzati in CIMC o UCSM, ad esempio:

F0184
F0185
F0137
F1236
F1237

  • PSOD - Schermata viola di errore (su KVM o console dell host)

Soluzione

Raccolta dei
 
registriAcquisire i registri dal server interessato PRIMA di eseguire qualsiasi operazione di risoluzione dei problemi. È necessaria una baseline per determinare l'esito positivo delle procedure di risoluzione dei problemi.

I server rack serie C possono essere autonomi o gestiti da UCSM.  I passaggi per raccogliere ed esaminare i registri saranno leggermente diversi a seconda del tipo di registro.
  • Autonomo.
  • Gestito da UCSM - Selezionare "Rack Mount" anziché "chassis" o "ucsm" nel campo Options
  • Se si dispone solo di registri CIMC, è possibile verificare che provengano da un server gestito da UCSM perché il nome del file conterrà CIMCXXX.  I file di registro si troveranno inoltre in una directory compressa denominata Server XX, anziché direttamente nella directory compressa principale.  In questo caso, saranno necessari anche i registri UCSM.
Se il server ha riscontrato un PSOD, acquisire uno screenshot del PSOD e raccogliere i registri di vSphere/host.

Analisi dei

log  Le principali differenze tra i log sono
  • Ulteriori informazioni sono disponibili nel file di sam_techsupport UCSM per i server gestiti da UCSM.
  • Posizione delle directory. (vedere la nota nella sezione Raccolta dei registri)
Percorsi dei registri utili nei registri UCSM e CIMC:

UCSM_X_TechSupport.tar\sam_techsupportinfo
  • "show server inventory expand" (confermare il numero di serie del server e individuare il PID). Esempio:
Server 1:
     Modello: UCSC-C220-M4S
     Numero di serie (SN) riconosciuto: FCHXXXXXXXXXX
     Nome del prodotto riconosciuto: Cisco UCS C220 M4S
     PID riconosciuto: UCSC-C220-M4S
  • 'show fault detail' (individuare i guasti associati) - Esempio:
Livello di gravità: Principali
Codice: F0844
Ora ultima transizione: 2017-05-23T12:40:40.774
Descrizione: DIMM DIMM_B2 sul server 24 operaState: disabilitato
  • "show server memory detail" (individuare il PID del DIMM interessato): esempio:
Percorso: DIMM_A1
Nome del prodotto: DDR4 da 16 GB - 2400 MHz RDIMM/PC4-19200/single rank/x4/1,2 V
PID: UCS-MR-xxxxxxxx-A
Nota: la maggior parte di queste informazioni è disponibile in sam_techsupport per i server

gestiti da UCSM [ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
  • Area informazioni chassis
Individuare il numero di serie del server elencato come "Chassis Serial Number". Esempio seguente: 
====================[ Area informazioni chassis]======================
            Numero parte chassis : [74-XXXXX-02]
            Numero di serie chassis : [FCHXXXXXXXXX]
 
  • Area della scheda
Trova il PID e il numero di serie della scheda madre. Esempio seguente: 
========================[ Area Consiglio]=========================
            Nome del prodotto della scheda : [UCSC-C240-Mxxxx]
            Numero di serie della scheda: [FCHXXXXXXXX]
 
  • Dump della tabella SMBIOS BEGIN    
                Trovare il numero parte del modulo DIMM in Dispositivi di memoria\Localizzatore parte. Esempio seguente: 
                Nota: potrebbe non essere il PID Cisco, ma può essere correlato per trovarlo
Dispositivo di memoria
           Locator: DIMM_A1
           Numero di parte: 36ASxxxxxx-2G3B1
  Sezione Interrogazione di tutti i sensori IPMI:
Errori correggibili e non correggibili:
Nome sensore | Lettura | Unità | Stato | LNR | LC | LNC | UNC | UC | UNR (UNR)    
DDR4_P2_E1_ECC | 63250.000 | Errore | UNR | na | na | na | na | na | 60250.000 DDR4_P2_E2_ECC | 63750.000 | Errore | UNR | na | na | na | na | na | 60250.000
DDR4_P2_E3_ECC | 63250.000 | Errore | UNR | na | na | na | na | na | 60250.000


[ServerXX_TechSupport.tar]\var\log\sel\log
  • Esaminare i registri per individuare eventuali errori ECC correggibili e non correggibili:
Memoria DDR4_P2_E2_ECC #0xb0 | leggere 512 errori ECC correggibili su CPU2 DIMM E2 | Affermato
  • Esaminare i registri per verificare la presenza di eventuali CATERR_N ... Con assert | Voci asserted, un esempio è il seguente:
03/06/2017 20:02:12 | CIMC | Processore CATERR_N #0x70 | Errore predittivo asserito | Affermato
  Nota: è previsto un comportamento per vedere CATERR_N deasserted | Asserted nei log al momento dell'avvio [ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
  • Trovare il numero di errori correggibili/non correggibili per i DIMM interessati e copiare i campi pertinenti, un esempio è il seguente:
================== RIEPILOGO DEGLI ERRORI DIMM ===================
------- DIMM E2 ----------
  CONTEGGI DEGLI ERRORI DEGLI SLOT CORRENTI:
      Errori ECC correggibili dall'ultimo avvio del server: 0
      Conteggio errori ECC correggibili cumulativi: 2560
      Errori ECC non correggibili dall'ultimo avvio del server: 0
      Conteggio cumulativo degli errori ECC non correggibili: 3
   CONTEGGI DEGLI ERRORI DEGLI SLOT PRECEDENTI:
      Conteggio errori ECC correggibili: 0
      Conteggio errori ECC irreversibili: 0

[ServerXX_TechSupport.tar]\var\sel_decode.txt
  • Gioco per gioco di entrate e falli di sel
eventLogMaxEntries: 1445
eventLogList: 
---
Id: 1440
Gravità: Critico
Datetime: 2017-03-10 00:57:17 
dateTimeOrder: 00005
Descrizione: "Evento sul software di sistema: Post sensore, socket DIMM 3, canale E, socket processore 2. Disabilitato a causa di un'altra memoria non riuscita nello stesso canale. [0xE542] è stato affermato"

Per i server standalone:
  • tmp\tech_support.frupids
====== Dumping dei record FRU IPMI ======
Nome del prodotto: UCSC-C220-xxx
Numero di parte del prodotto: 74-xxxx-01
Versione prodotto: Un
 Numero di serie del prodotto: FCHxxxxxxxN: numero di serie del server

====== Dumping dei PID del catalogo di inventario ======
DIMMList: 
Name: DIMM_A1Description: 8 GB DDR3 - 1333 MHz RDIMM/PC3-10600/dual rank/1,35 V
PID: UCS-MR-1X082RX-A - PID DIMM


Post-analisi
Dopo aver eseguito l'analisi, assicurarsi che la Service Request sia aggiornata con il numero di serie corretto del server interessato e che nel database vengano ricercati eventuali RMA precedenti associati al blade in esame.  Se il modulo DIMM che mostra errori è stato sostituito di recente, la scheda madre potrebbe essere sospetta.

Aggiungere l'analisi alla Service Request.

Risoluzione dei problemi
 
logiciUna volta identificati gli errori, si tenterà di cancellarli tutti e si monitoreranno i contatori e la scheda degli errori in UCSM per verificare se persistono.
Accedere alla riga di comando del server.

Cancellare i contatori degli errori di memoria
server# ambito chassis
Server/Chassis # reset-ECC
Cancellare System Event Logs con i comandi riportati di seguito:
Server# scope sel
Server /sel # clear 
Questa operazione eliminerà l'intera selezione.
Continuare? [y|N]y

 Reimpostare il registro CIMC utilizzando i comandi riportati di seguito:
Server# ambito cimc
Server /cimc # registro ambito
Server /cimc/log # clear

Monitorare l'ambiente per 48 ore.
Se l'errore persiste, acquisire un nuovo set di registri UCS e dello chassis, confermare l'analisi, formulare un piano d'azione basato sulle prove e procedere alla sezione successiva.

Causa
  • Generalmente, gli errori DIMM sono causati da un DIMM difettoso o, talvolta, da una scheda madre difettosa

Note
  • None

Additional Information

Fare riferimento a questo video:

Affected Products

Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems Series
Article Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.