Procedura su come confermare e risolvere gli errori DIMM su un server Cisco serie C
Summary: Procedura su come confermare e risolvere gli errori DIMM su un server Cisco serie C
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Instructions
Come cancellare gli errori DIMM sul server VxBlock UCS serie C
Fatti
- Server Cisco serie C montati su rack (possono essere gestiti o meno da UCSM)
Sintomi
- Gli avvisi verranno visualizzati in CIMC o UCSM, ad esempio:
F0184
F0185
F0137
F1236
F1237
- PSOD - Schermata viola di errore (su KVM o console dell host)
Soluzione
Raccolta dei
registriAcquisire i registri dal server interessato PRIMA di eseguire qualsiasi operazione di risoluzione dei problemi. È necessaria una baseline per determinare l'esito positivo delle procedure di risoluzione dei problemi.
I server rack serie C possono essere autonomi o gestiti da UCSM. I passaggi per raccogliere ed esaminare i registri saranno leggermente diversi a seconda del tipo di registro.
- Autonomo.
- Gestito da UCSM - Selezionare "Rack Mount" anziché "chassis" o "ucsm" nel campo Options
- Se si dispone solo di registri CIMC, è possibile verificare che provengano da un server gestito da UCSM perché il nome del file conterrà CIMCXXX. I file di registro si troveranno inoltre in una directory compressa denominata Server XX, anziché direttamente nella directory compressa principale. In questo caso, saranno necessari anche i registri UCSM.
Analisi dei
log Le principali differenze tra i log sono
- Ulteriori informazioni sono disponibili nel file di sam_techsupport UCSM per i server gestiti da UCSM.
- Posizione delle directory. (vedere la nota nella sezione Raccolta dei registri)
UCSM_X_TechSupport.tar\sam_techsupportinfo
- "show server inventory expand" (confermare il numero di serie del server e individuare il PID). Esempio:
Server 1:
Modello: UCSC-C220-M4S
Numero di serie (SN) riconosciuto: FCHXXXXXXXXXX
Nome del prodotto riconosciuto: Cisco UCS C220 M4S
PID riconosciuto: UCSC-C220-M4S
- 'show fault detail' (individuare i guasti associati) - Esempio:
Livello di gravità: Principali Codice: F0844 Ora ultima transizione: 2017-05-23T12:40:40.774 Descrizione: DIMM DIMM_B2 sul server 24 operaState: disabilitato
- "show server memory detail" (individuare il PID del DIMM interessato): esempio:
Percorso: DIMM_A1 Nome del prodotto: DDR4 da 16 GB - 2400 MHz RDIMM/PC4-19200/single rank/x4/1,2 V PID: UCS-MR-xxxxxxxx-ANota: la maggior parte di queste informazioni è disponibile in sam_techsupport per i server
gestiti da UCSM [ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
- Area informazioni chassis
====================[ Area informazioni chassis]======================
Numero parte chassis : [74-XXXXX-02]
Numero di serie chassis : [FCHXXXXXXXXX]
- Area della scheda
========================[ Area Consiglio]=========================
Nome del prodotto della scheda : [UCSC-C240-Mxxxx]
Numero di serie della scheda: [FCHXXXXXXXX]
- Dump della tabella SMBIOS BEGIN
Nota: potrebbe non essere il PID Cisco, ma può essere correlato per trovarlo
Dispositivo di memoria
Locator: DIMM_A1
Numero di parte: 36ASxxxxxx-2G3B1 Sezione Interrogazione di tutti i sensori IPMI:
Errori correggibili e non correggibili: Nome sensore | Lettura | Unità | Stato | LNR | LC | LNC | UNC | UC | UNR (UNR) DDR4_P2_E1_ECC | 63250.000 | Errore | UNR | na | na | na | na | na | 60250.000 DDR4_P2_E2_ECC | 63750.000 | Errore | UNR | na | na | na | na | na | 60250.000 DDR4_P2_E3_ECC | 63250.000 | Errore | UNR | na | na | na | na | na | 60250.000
[ServerXX_TechSupport.tar]\var\log\sel\log
- Esaminare i registri per individuare eventuali errori ECC correggibili e non correggibili:
Memoria DDR4_P2_E2_ECC #0xb0 | leggere 512 errori ECC correggibili su CPU2 DIMM E2 | Affermato
- Esaminare i registri per verificare la presenza di eventuali CATERR_N ... Con assert | Voci asserted, un esempio è il seguente:
03/06/2017 20:02:12 | CIMC | Processore CATERR_N #0x70 | Errore predittivo asserito | AffermatoNota: è previsto un comportamento per vedere CATERR_N deasserted | Asserted nei log al momento dell'avvio [ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
- Trovare il numero di errori correggibili/non correggibili per i DIMM interessati e copiare i campi pertinenti, un esempio è il seguente:
================== RIEPILOGO DEGLI ERRORI DIMM =================== ------- DIMM E2 ---------- CONTEGGI DEGLI ERRORI DEGLI SLOT CORRENTI: Errori ECC correggibili dall'ultimo avvio del server: 0 Conteggio errori ECC correggibili cumulativi: 2560 Errori ECC non correggibili dall'ultimo avvio del server: 0 Conteggio cumulativo degli errori ECC non correggibili: 3 CONTEGGI DEGLI ERRORI DEGLI SLOT PRECEDENTI: Conteggio errori ECC correggibili: 0 Conteggio errori ECC irreversibili: 0
[ServerXX_TechSupport.tar]\var\sel_decode.txt
- Gioco per gioco di entrate e falli di sel
eventLogMaxEntries: 1445 eventLogList: --- Id: 1440 Gravità: Critico Datetime: 2017-03-10 00:57:17 dateTimeOrder: 00005 Descrizione: "Evento sul software di sistema: Post sensore, socket DIMM 3, canale E, socket processore 2. Disabilitato a causa di un'altra memoria non riuscita nello stesso canale. [0xE542] è stato affermato"
Per i server standalone:
- tmp\tech_support.frupids
====== Dumping dei record FRU IPMI ====== Nome del prodotto: UCSC-C220-xxx Numero di parte del prodotto: 74-xxxx-01 Versione prodotto: Un Numero di serie del prodotto: FCHxxxxxxxN: numero di serie del server ====== Dumping dei PID del catalogo di inventario ====== DIMMList: Name: DIMM_A1Description: 8 GB DDR3 - 1333 MHz RDIMM/PC3-10600/dual rank/1,35 V PID: UCS-MR-1X082RX-A - PID DIMM
Post-analisi
Dopo aver eseguito l'analisi, assicurarsi che la Service Request sia aggiornata con il numero di serie corretto del server interessato e che nel database vengano ricercati eventuali RMA precedenti associati al blade in esame. Se il modulo DIMM che mostra errori è stato sostituito di recente, la scheda madre potrebbe essere sospetta.
Aggiungere l'analisi alla Service Request.
Risoluzione dei problemi
logiciUna volta identificati gli errori, si tenterà di cancellarli tutti e si monitoreranno i contatori e la scheda degli errori in UCSM per verificare se persistono.
Accedere alla riga di comando del server.
Cancellare i contatori degli errori di memoria
server# ambito chassis Server/Chassis # reset-ECCCancellare System Event Logs con i comandi riportati di seguito:
Server# scope sel Server /sel # clear Questa operazione eliminerà l'intera selezione. Continuare? [y|N]y
Reimpostare il registro CIMC utilizzando i comandi riportati di seguito:
Server# ambito cimc Server /cimc # registro ambito Server /cimc/log # clear
Monitorare l'ambiente per 48 ore.
Se l'errore persiste, acquisire un nuovo set di registri UCS e dello chassis, confermare l'analisi, formulare un piano d'azione basato sulle prove e procedere alla sezione successiva.
Causa
- Generalmente, gli errori DIMM sono causati da un DIMM difettoso o, talvolta, da una scheda madre difettosa
Note
- None
Additional Information
Fare riferimento a questo video:
Affected Products
Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems SeriesArticle Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version: 4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.