Procedura su come confermare e risolvere gli errori DIMM su un server Cisco serie C

Riepilogo: Procedura su come confermare e risolvere gli errori DIMM su un server Cisco serie C

Questo articolo si applica a Questo articolo non si applica a Questo articolo non è legato a un prodotto specifico. Non tutte le versioni del prodotto sono identificate in questo articolo.

Istruzioni

Come cancellare gli errori DIMM sul server VxBlock UCS serie C

Fatti

  • Server Cisco serie C montati su rack (possono essere gestiti o meno da UCSM)

Sintomi
  •  Gli avvisi verranno visualizzati in CIMC o UCSM, ad esempio:

F0184
F0185
F0137
F1236
F1237

  • PSOD - Schermata viola di errore (su KVM o console dell host)

Soluzione

Raccolta dei
 
registriAcquisire i registri dal server interessato PRIMA di eseguire qualsiasi operazione di risoluzione dei problemi. È necessaria una baseline per determinare l'esito positivo delle procedure di risoluzione dei problemi.

I server rack serie C possono essere autonomi o gestiti da UCSM.  I passaggi per raccogliere ed esaminare i registri saranno leggermente diversi a seconda del tipo di registro.
  • Autonomo.
  • Gestito da UCSM - Selezionare "Rack Mount" anziché "chassis" o "ucsm" nel campo Options
  • Se si dispone solo di registri CIMC, è possibile verificare che provengano da un server gestito da UCSM perché il nome del file conterrà CIMCXXX.  I file di registro si troveranno inoltre in una directory compressa denominata Server XX, anziché direttamente nella directory compressa principale.  In questo caso, saranno necessari anche i registri UCSM.
Se il server ha riscontrato un PSOD, acquisire uno screenshot del PSOD e raccogliere i registri di vSphere/host.

Analisi dei

log  Le principali differenze tra i log sono
  • Ulteriori informazioni sono disponibili nel file di sam_techsupport UCSM per i server gestiti da UCSM.
  • Posizione delle directory. (vedere la nota nella sezione Raccolta dei registri)
Percorsi dei registri utili nei registri UCSM e CIMC:

UCSM_X_TechSupport.tar\sam_techsupportinfo
  • "show server inventory expand" (confermare il numero di serie del server e individuare il PID). Esempio:
Server 1:
     Modello: UCSC-C220-M4S
     Numero di serie (SN) riconosciuto: FCHXXXXXXXXXX
     Nome del prodotto riconosciuto: Cisco UCS C220 M4S
     PID riconosciuto: UCSC-C220-M4S
  • 'show fault detail' (individuare i guasti associati) - Esempio:
Livello di gravità: Principali
Codice: F0844
Ora ultima transizione: 2017-05-23T12:40:40.774
Descrizione: DIMM DIMM_B2 sul server 24 operaState: disabilitato
  • "show server memory detail" (individuare il PID del DIMM interessato): esempio:
Percorso: DIMM_A1
Nome del prodotto: DDR4 da 16 GB - 2400 MHz RDIMM/PC4-19200/single rank/x4/1,2 V
PID: UCS-MR-xxxxxxxx-A
Nota: la maggior parte di queste informazioni è disponibile in sam_techsupport per i server

gestiti da UCSM [ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
  • Area informazioni chassis
Individuare il numero di serie del server elencato come "Chassis Serial Number". Esempio seguente: 
====================[ Area informazioni chassis]======================
            Numero parte chassis : [74-XXXXX-02]
            Numero di serie chassis : [FCHXXXXXXXXX]
 
  • Area della scheda
Trova il PID e il numero di serie della scheda madre. Esempio seguente: 
========================[ Area Consiglio]=========================
            Nome del prodotto della scheda : [UCSC-C240-Mxxxx]
            Numero di serie della scheda: [FCHXXXXXXXX]
 
  • Dump della tabella SMBIOS BEGIN    
                Trovare il numero parte del modulo DIMM in Dispositivi di memoria\Localizzatore parte. Esempio seguente: 
                Nota: potrebbe non essere il PID Cisco, ma può essere correlato per trovarlo
Dispositivo di memoria
           Locator: DIMM_A1
           Numero di parte: 36ASxxxxxx-2G3B1
  Sezione Interrogazione di tutti i sensori IPMI:
Errori correggibili e non correggibili:
Nome sensore | Lettura | Unità | Stato | LNR | LC | LNC | UNC | UC | UNR (UNR)    
DDR4_P2_E1_ECC | 63250.000 | Errore | UNR | na | na | na | na | na | 60250.000 DDR4_P2_E2_ECC | 63750.000 | Errore | UNR | na | na | na | na | na | 60250.000
DDR4_P2_E3_ECC | 63250.000 | Errore | UNR | na | na | na | na | na | 60250.000


[ServerXX_TechSupport.tar]\var\log\sel\log
  • Esaminare i registri per individuare eventuali errori ECC correggibili e non correggibili:
Memoria DDR4_P2_E2_ECC #0xb0 | leggere 512 errori ECC correggibili su CPU2 DIMM E2 | Affermato
  • Esaminare i registri per verificare la presenza di eventuali CATERR_N ... Con assert | Voci asserted, un esempio è il seguente:
03/06/2017 20:02:12 | CIMC | Processore CATERR_N #0x70 | Errore predittivo asserito | Affermato
  Nota: è previsto un comportamento per vedere CATERR_N deasserted | Asserted nei log al momento dell'avvio [ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
  • Trovare il numero di errori correggibili/non correggibili per i DIMM interessati e copiare i campi pertinenti, un esempio è il seguente:
================== RIEPILOGO DEGLI ERRORI DIMM ===================
------- DIMM E2 ----------
  CONTEGGI DEGLI ERRORI DEGLI SLOT CORRENTI:
      Errori ECC correggibili dall'ultimo avvio del server: 0
      Conteggio errori ECC correggibili cumulativi: 2560
      Errori ECC non correggibili dall'ultimo avvio del server: 0
      Conteggio cumulativo degli errori ECC non correggibili: 3
   CONTEGGI DEGLI ERRORI DEGLI SLOT PRECEDENTI:
      Conteggio errori ECC correggibili: 0
      Conteggio errori ECC irreversibili: 0

[ServerXX_TechSupport.tar]\var\sel_decode.txt
  • Gioco per gioco di entrate e falli di sel
eventLogMaxEntries: 1445
eventLogList: 
---
Id: 1440
Gravità: Critico
Datetime: 2017-03-10 00:57:17 
dateTimeOrder: 00005
Descrizione: "Evento sul software di sistema: Post sensore, socket DIMM 3, canale E, socket processore 2. Disabilitato a causa di un'altra memoria non riuscita nello stesso canale. [0xE542] è stato affermato"

Per i server standalone:
  • tmp\tech_support.frupids
====== Dumping dei record FRU IPMI ======
Nome del prodotto: UCSC-C220-xxx
Numero di parte del prodotto: 74-xxxx-01
Versione prodotto: Un
 Numero di serie del prodotto: FCHxxxxxxxN: numero di serie del server

====== Dumping dei PID del catalogo di inventario ======
DIMMList: 
Name: DIMM_A1Description: 8 GB DDR3 - 1333 MHz RDIMM/PC3-10600/dual rank/1,35 V
PID: UCS-MR-1X082RX-A - PID DIMM


Post-analisi
Dopo aver eseguito l'analisi, assicurarsi che la Service Request sia aggiornata con il numero di serie corretto del server interessato e che nel database vengano ricercati eventuali RMA precedenti associati al blade in esame.  Se il modulo DIMM che mostra errori è stato sostituito di recente, la scheda madre potrebbe essere sospetta.

Aggiungere l'analisi alla Service Request.

Risoluzione dei problemi
 
logiciUna volta identificati gli errori, si tenterà di cancellarli tutti e si monitoreranno i contatori e la scheda degli errori in UCSM per verificare se persistono.
Accedere alla riga di comando del server.

Cancellare i contatori degli errori di memoria
server# ambito chassis
Server/Chassis # reset-ECC
Cancellare System Event Logs con i comandi riportati di seguito:
Server# scope sel
Server /sel # clear 
Questa operazione eliminerà l'intera selezione.
Continuare? [y|N]y

 Reimpostare il registro CIMC utilizzando i comandi riportati di seguito:
Server# ambito cimc
Server /cimc # registro ambito
Server /cimc/log # clear

Monitorare l'ambiente per 48 ore.
Se l'errore persiste, acquisire un nuovo set di registri UCS e dello chassis, confermare l'analisi, formulare un piano d'azione basato sulle prove e procedere alla sezione successiva.

Causa
  • Generalmente, gli errori DIMM sono causati da un DIMM difettoso o, talvolta, da una scheda madre difettosa

Note
  • None

Informazioni aggiuntive

Fare riferimento a questo video:

Prodotti interessati

Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems Series
Proprietà dell'articolo
Numero articolo: 000194450
Tipo di articolo: How To
Ultima modifica: 07 gen 2025
Versione:  4
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.