Étapes de confirmation et de dépannage des erreurs DIMM sur un serveur Cisco de série C
Summary: Étapes de confirmation et de dépannage des erreurs DIMM sur un serveur Cisco de série C
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Instructions
Comment effacer les erreurs DIMM sur un serveur VxBlock UCS série C
Faits
- Serveurs montés en rack Cisco série C (peuvent ou non être gérés par UCSM)
Symptômes
- Les alertes suivantes s’affichent dans CIMC ou UCSM :
F0184
F0185
F0137
F1236
F1237
- PSOD – Écran violet de la mort (sur KVM ou console de l’hôte)
Solution
Collecte des
journauxCapturez les logs du serveur concerné AVANT tout dépannage. Nous avons besoin d’une base de référence pour déterminer la réussite des étapes de dépannage.
Les serveurs au format rack série C peuvent être autonomes ou gérés par UCSM. Les étapes de collecte et d’examen des journaux seront légèrement différentes selon ce qu’ils sont.
- Autonome.
- Géré par UCSM : sélectionnez « Rack Mount » au lieu de « chassis » ou « ucsm » dans le champ Options.
- Si vous n’avez que des journaux CIMC, vous pouvez savoir qu’ils proviennent d’un serveur géré par UCSM, car le nom de fichier contient CIMCXXX. Les fichiers journaux se trouvent également dans un répertoire compressé appelé Serveur XX, et non directement dans le répertoire compressé principal. Si vous voyez cela, les journaux UCSM seront également requis.
Analyse des
logs Les principales différences entre les journaux sont les suivantes :
- Des informations supplémentaires sont disponibles dans le fichier de sam_techsupport UCSM pour les serveurs gérés par UCSM
- Emplacement des répertoires. (voir la remarque sous la collecte des journaux)
UCSM_X_TechSupport.tar\sam_techsupportinfo
- « show server inventory expand » (confirmer le numéro de série du serveur, localiser le PID). Exemple :
Serveur 1 :
Modèle : UCSC-C220-M4S
Numéro de série accusé de réception (SN) : FCHXXXXXXXXXX
Nom de produit confirmé : Cisco UCS C220 M4S
PID reconnu : UCSC-C220-M4S
- 'show fault detail' (localisez les défauts associés) - Exemple :
Severity: Majeur Code: N° F0844 Heure de la dernière transition : 2017-05-23T12 :40 :40.774 Description: DIMM DIMM_B2 sur le serveur 24 operaState : disabled
- « show server memory detail » (localisez le PID DIMM concerné) - Exemple :
Emplacement : DIMM_A1 Nom du produit : 16 Go DDR4 à 2 400 MHz RDIMM/PC4-19200/rangée unique/x4/1,2 V PID: UCS-MR-xxxxxxxx-ARemarque : La plupart de ces informations sont disponibles dans sam_techsupport pour les serveurs
gérés par UCSM [ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
- Zone d’informations du boîtier
====================[ Zone d’informations du boîtier ]======================
Numéro de référence du boîtier : [74-xxxxx-02]
Numéro de série du châssis : [FCHXXXXXXXXX]
- Zone de la carte
========================[ Zone de la carte ]=========================
Nom du produit de la carte : [UCSC-C240-MXXXX]
Numéro de série de la carte : [FCHXXXXXXXXX]
- SMBIOS Table Dump BEGIN
Remarque : il ne s’agit peut-être pas du PID Cisco, mais il est possible d’établir une corrélation pour le trouver
Périphérique de mémoire
Locator: DIMM_A1
Référence : 36ASxxxxxx-2G3B1 Section Interrogation de tous les capteurs IPMI :
Erreurs corrigibles et non corrigibles : Nom du capteur | Lecture | Unité | État | LNR | LC | LNC | NEUF | UC | UNR DDR4_P2_E1_ECC | 63250.000 | Erreur | UNR | NA | NA | NA | NA | NA | 60250.000 DDR4_P2_E2_ECC | 63750.000 | Erreur | UNR | NA | NA | NA | NA | NA | 60250.000 DDR4_P2_E3_ECC | 63250.000 | Erreur | UNR | NA | NA | NA | NA | NA | 60250.000
[ServerXX_TechSupport.tar]\var\log\sel\log
- Consultez les journaux pour rechercher toute erreur ECC corrigible et non corrigible :
Mémoire DDR4_P2_E2_ECC #0xb0 | Erreurs ECC corrigibles 512 sur CPU2 DIMM E2 | Affirmé
- Consultez les journaux pour toute CATERR_N... Affirmé | Pour les entrées validées, voici un exemple :
03/06/2017 20 :02 :12 | Le CIMC | Processeur CATERR_N #0x70 | Défaillance prédictive confirmée | AffirméRemarque : il est normal que les CATERR_N soient désaffirmées | Assertion dans les journaux au démarragetime[ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
- Recherchez le nombre d’erreurs corrigibles/non corrigibles pour la ou les barrettes DIMM concernées et copiez les champs correspondants. Voici un exemple :
================== RÉCAPITULATIF DES ERREURS DIMM =================== ------- barrettes DIMM E2 ---------- NOMBRE ACTUEL D’ERREURS DE LOGEMENT : Erreurs ECC corrigibles depuis le dernier démarrage du serveur : 0 Nombre d’erreurs ECC corrigibles simultanées : 2560 Erreurs ECC non corrigibles depuis le dernier démarrage du serveur : 0 Nombre d’erreurs ECC non corrigibles cumulatives : 3 NOMBRE D’ERREURS DE LOGEMENT PRÉCÉDENTES : Nombre d’erreurs ECC corrigibles : 0 Uncorrectable ECC Error Count : 0
[ServerXX_TechSupport.tar]\var\sel_decode.txt
- Play by play des entrées et des fautes de sel
eventLogMaxEntries : 1445 eventLogList : --- Id: 1440 Gravité: Critique Datetime: 2017-03-10 00:57:17 dateTimeOrder : 00005 Description: « System Software event : Post-capteur, socket DIMM 3, canal E, socket de processeur 2. Désactivé en raison d’une autre défaillance de mémoire dans le même canal. [0xE542] a été affirmé »
Pour les serveurs autonomes :
- tmp\tech_support.frupids
====== Vidage des enregistrements FRU IPMI ====== Nom du produit : UCSC-C220-xxx Numéro de référence du produit : N° 74-xxxx-01 Version du produit : Un Numéro de série du produit : FCHxxxxxxxN : numéro de série du serveur ====== Vidage des PID du catalogue d’inventaire ====== DIMMList : Nom : DIMM_A1Description : 8Go DDR3-1333-MHz RDIMM/PC3-10600/double rangée/1,35v PID: UCS-MR-1X082RX-A - PID DIMM
Post-analyse
Après avoir effectué l’analyse, assurez-vous que la demande de service est mise à jour avec le numéro de série correct du serveur concerné, et recherchez dans la base de données tous les RMA précédents associés à la lame en cours d’investigation. Si la barrette DIMM présentant des défaillances a été remplacée récemment, la carte mère peut être suspecte.
Ajoutez votre analyse à la demande de service.
Dépannage
logiqueUne fois les erreurs identifiées, nous tenterons de toutes les effacer et surveillerons les compteurs et l’onglet Faults dans UCSM pour voir si elles persistent.
Connectez-vous à la ligne de commande du serveur.
Effacer les compteurs d’erreurs de mémoire
Châssis de l’étendue Server# server /chassis # reset-eccEffacez les journaux d’événements système des commandes ci-dessous :
Server# scope sel Server /sel # clear Cette opération effacera l’ensemble du sel. Continuer? [y|De plus, il n’y a pas d
Réinitialisez le journal CIMC à l’aide des commandes ci-dessous :
Server# scope cimc Server /cimc # scope log Server /cimc/log # clear
Surveillez l’environnement pendant 48 heures.
Si les erreurs persistent, capturez un nouvel ensemble de journaux UCS et de châssis, confirmez l’analyse, formulez un plan d’action basé sur les preuves et passez à la section suivante.
La cause
- Les erreurs DIMM sont généralement causées par un DIMM défectueux ou parfois par une carte mère défectueuse
Remarques
- Aucune
Additional Information
Reportez-vous à cette vidéo :
Affected Products
Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems SeriesArticle Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version: 4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.