Procedura su come confermare e risolvere gli errori DIMM su un server Cisco serie C
Riepilogo: Procedura su come confermare e risolvere gli errori DIMM su un server Cisco serie C
Questo articolo si applica a
Questo articolo non si applica a
Questo articolo non è legato a un prodotto specifico.
Non tutte le versioni del prodotto sono identificate in questo articolo.
Istruzioni
Come cancellare gli errori DIMM sul server VxBlock UCS serie C
Fatti
- Server Cisco serie C montati su rack (possono essere gestiti o meno da UCSM)
Sintomi
- Gli avvisi verranno visualizzati in CIMC o UCSM, ad esempio:
F0184
F0185
F0137
F1236
F1237
- PSOD - Schermata viola di errore (su KVM o console dell host)
Soluzione
Raccolta dei
registriAcquisire i registri dal server interessato PRIMA di eseguire qualsiasi operazione di risoluzione dei problemi. È necessaria una baseline per determinare l'esito positivo delle procedure di risoluzione dei problemi.
I server rack serie C possono essere autonomi o gestiti da UCSM. I passaggi per raccogliere ed esaminare i registri saranno leggermente diversi a seconda del tipo di registro.
- Autonomo.
- Gestito da UCSM - Selezionare "Rack Mount" anziché "chassis" o "ucsm" nel campo Options
- Se si dispone solo di registri CIMC, è possibile verificare che provengano da un server gestito da UCSM perché il nome del file conterrà CIMCXXX. I file di registro si troveranno inoltre in una directory compressa denominata Server XX, anziché direttamente nella directory compressa principale. In questo caso, saranno necessari anche i registri UCSM.
Analisi dei
log Le principali differenze tra i log sono
- Ulteriori informazioni sono disponibili nel file di sam_techsupport UCSM per i server gestiti da UCSM.
- Posizione delle directory. (vedere la nota nella sezione Raccolta dei registri)
UCSM_X_TechSupport.tar\sam_techsupportinfo
- "show server inventory expand" (confermare il numero di serie del server e individuare il PID). Esempio:
Server 1:
Modello: UCSC-C220-M4S
Numero di serie (SN) riconosciuto: FCHXXXXXXXXXX
Nome del prodotto riconosciuto: Cisco UCS C220 M4S
PID riconosciuto: UCSC-C220-M4S
- 'show fault detail' (individuare i guasti associati) - Esempio:
Livello di gravità: Principali Codice: F0844 Ora ultima transizione: 2017-05-23T12:40:40.774 Descrizione: DIMM DIMM_B2 sul server 24 operaState: disabilitato
- "show server memory detail" (individuare il PID del DIMM interessato): esempio:
Percorso: DIMM_A1 Nome del prodotto: DDR4 da 16 GB - 2400 MHz RDIMM/PC4-19200/single rank/x4/1,2 V PID: UCS-MR-xxxxxxxx-ANota: la maggior parte di queste informazioni è disponibile in sam_techsupport per i server
gestiti da UCSM [ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
- Area informazioni chassis
====================[ Area informazioni chassis]======================
Numero parte chassis : [74-XXXXX-02]
Numero di serie chassis : [FCHXXXXXXXXX]
- Area della scheda
========================[ Area Consiglio]=========================
Nome del prodotto della scheda : [UCSC-C240-Mxxxx]
Numero di serie della scheda: [FCHXXXXXXXX]
- Dump della tabella SMBIOS BEGIN
Nota: potrebbe non essere il PID Cisco, ma può essere correlato per trovarlo
Dispositivo di memoria
Locator: DIMM_A1
Numero di parte: 36ASxxxxxx-2G3B1 Sezione Interrogazione di tutti i sensori IPMI:
Errori correggibili e non correggibili: Nome sensore | Lettura | Unità | Stato | LNR | LC | LNC | UNC | UC | UNR (UNR) DDR4_P2_E1_ECC | 63250.000 | Errore | UNR | na | na | na | na | na | 60250.000 DDR4_P2_E2_ECC | 63750.000 | Errore | UNR | na | na | na | na | na | 60250.000 DDR4_P2_E3_ECC | 63250.000 | Errore | UNR | na | na | na | na | na | 60250.000
[ServerXX_TechSupport.tar]\var\log\sel\log
- Esaminare i registri per individuare eventuali errori ECC correggibili e non correggibili:
Memoria DDR4_P2_E2_ECC #0xb0 | leggere 512 errori ECC correggibili su CPU2 DIMM E2 | Affermato
- Esaminare i registri per verificare la presenza di eventuali CATERR_N ... Con assert | Voci asserted, un esempio è il seguente:
03/06/2017 20:02:12 | CIMC | Processore CATERR_N #0x70 | Errore predittivo asserito | AffermatoNota: è previsto un comportamento per vedere CATERR_N deasserted | Asserted nei log al momento dell'avvio [ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
- Trovare il numero di errori correggibili/non correggibili per i DIMM interessati e copiare i campi pertinenti, un esempio è il seguente:
================== RIEPILOGO DEGLI ERRORI DIMM =================== ------- DIMM E2 ---------- CONTEGGI DEGLI ERRORI DEGLI SLOT CORRENTI: Errori ECC correggibili dall'ultimo avvio del server: 0 Conteggio errori ECC correggibili cumulativi: 2560 Errori ECC non correggibili dall'ultimo avvio del server: 0 Conteggio cumulativo degli errori ECC non correggibili: 3 CONTEGGI DEGLI ERRORI DEGLI SLOT PRECEDENTI: Conteggio errori ECC correggibili: 0 Conteggio errori ECC irreversibili: 0
[ServerXX_TechSupport.tar]\var\sel_decode.txt
- Gioco per gioco di entrate e falli di sel
eventLogMaxEntries: 1445 eventLogList: --- Id: 1440 Gravità: Critico Datetime: 2017-03-10 00:57:17 dateTimeOrder: 00005 Descrizione: "Evento sul software di sistema: Post sensore, socket DIMM 3, canale E, socket processore 2. Disabilitato a causa di un'altra memoria non riuscita nello stesso canale. [0xE542] è stato affermato"
Per i server standalone:
- tmp\tech_support.frupids
====== Dumping dei record FRU IPMI ====== Nome del prodotto: UCSC-C220-xxx Numero di parte del prodotto: 74-xxxx-01 Versione prodotto: Un Numero di serie del prodotto: FCHxxxxxxxN: numero di serie del server ====== Dumping dei PID del catalogo di inventario ====== DIMMList: Name: DIMM_A1Description: 8 GB DDR3 - 1333 MHz RDIMM/PC3-10600/dual rank/1,35 V PID: UCS-MR-1X082RX-A - PID DIMM
Post-analisi
Dopo aver eseguito l'analisi, assicurarsi che la Service Request sia aggiornata con il numero di serie corretto del server interessato e che nel database vengano ricercati eventuali RMA precedenti associati al blade in esame. Se il modulo DIMM che mostra errori è stato sostituito di recente, la scheda madre potrebbe essere sospetta.
Aggiungere l'analisi alla Service Request.
Risoluzione dei problemi
logiciUna volta identificati gli errori, si tenterà di cancellarli tutti e si monitoreranno i contatori e la scheda degli errori in UCSM per verificare se persistono.
Accedere alla riga di comando del server.
Cancellare i contatori degli errori di memoria
server# ambito chassis Server/Chassis # reset-ECCCancellare System Event Logs con i comandi riportati di seguito:
Server# scope sel Server /sel # clear Questa operazione eliminerà l'intera selezione. Continuare? [y|N]y
Reimpostare il registro CIMC utilizzando i comandi riportati di seguito:
Server# ambito cimc Server /cimc # registro ambito Server /cimc/log # clear
Monitorare l'ambiente per 48 ore.
Se l'errore persiste, acquisire un nuovo set di registri UCS e dello chassis, confermare l'analisi, formulare un piano d'azione basato sulle prove e procedere alla sezione successiva.
Causa
- Generalmente, gli errori DIMM sono causati da un DIMM difettoso o, talvolta, da una scheda madre difettosa
Note
- None
Informazioni aggiuntive
Fare riferimento a questo video:
Prodotti interessati
Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems SeriesProprietà dell'articolo
Numero articolo: 000194450
Tipo di articolo: How To
Ultima modifica: 07 gen 2025
Versione: 4
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.