Passer au contenu principal
  • Passer des commandes rapidement et facilement
  • Afficher les commandes et suivre l’état de votre expédition
  • Profitez de récompenses et de remises réservées aux membres
  • Créez et accédez à une liste de vos produits

Dépannage du module de structure de commutation

Résumé: Dépannage du module de structure de commutation

Cet article concerne   Cet article ne concerne pas 

Symptômes

Sommaire :
  1. Introduction
  2. Détermination du dernier motif de mise hors tension
  3. Dépannage des symptômes
  4. Informations à recueillir si vous ouvrez un dossier TAC

Introduction

Ce document est principalement destiné au dépannage du module SFM (Switch Fabric Module) sur un système série E, mais il peut également être appliqué aux SFM de la série C.
Dans la série E, le SFM est un composant discret, appelé unité remplaçable sur site (FRU). Dans la série C, la structure de commutation est intégrée dans le RPM. Néanmoins, les commandes FTOS pour la gestion du SFM, y compris toutes celles décrites dans le présent document, sauf indication contraire, sont utiles sur la série C.
Dans de rares cas, un SFM ne parvient pas à s’initialiser au démarrage ou après une mise à niveau, ou il peut être mis hors tension de manière inattendue pendant le fonctionnement. Le présent document traite de ces cas.

Détermination du dernier motif de mise hors tension

La fonction de suivi du système, illustrée dans la sortie de la commande show trace , signale la mise hors tension ou le redémarrage d’un SFM. Vous pouvez rechercher des messages de journal intitulés
 "Found SFM #, last power-cycle reason:", as highlighted below in a sample of show trace output.Force10#show trace 100 | grep SFM[2/19 13:18:59] RAM-(RpmAvailMgr):Send data sync msg (42) to task 4 SFM Config State ).[2/19 13:22:47] TSM-(tsm):Receive SFM 7 SFM_DETECT REMOVE event.[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: Remove SFM 7[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: SFM 7 is powered off.[2/19 13:22:48] TSM-(tsm):tsmSfmRemove: SFM 7 is powered on.[2/19 13:22:49] TSM-(tsm):Set SFM minor alarm[2/19 13:22:49] TSM-(tsm):tsmSfmRemove:8: SW FAB is good after removing SFM 7
[2/19 13:22:50] TSM-(tsm):Receive SFM 7 SFM_DETECT INSERT event.
[2/19 13:22:50] TSM-(tsm):SFM 7 is reset with SFM Card insert event, bring up the card
[2/19 13:22:50] TSM-(tsm):Found SFM 7, last power-cycle reason: power on with cause of DEFAULT
[2/19 13:22:50] TSM-(tsm):TSM initilizes SFM 7...
[2/19 13:22:51] ****** ERROR CHMGR-(chmgr):SFM 7 not present or bad slot id
[2/19 13:22:52] TSM-(tsm):Clear SFM minor alarm
[2/19 13:22:52] TSM-(tsm):tsmSfmAdd:8: LC is in service, no PP test. SFM 7 standby. numSfmFound = 9
[2/19 13:22:52] TSM-(tsm):Receive SFM 7 RESET_DETECT ASSERT event.
[2/19 13:22:52] TSM-(tsm):SFM 7 reset is cleared, no action

En règle générale, la trace système affiche trois raisons pour une réinitialisation SFM :
  1. remote-power-off : signalée le plus souvent, car le SFM est mis hors tension et sous tension lors du redémarrage du système, avant le redémarrage et à nouveau lors de l’initialisation du système. Une raison de mise hors tension à distance est également signalée lors de l’émission de la commande reset sfm slot number, car cette commande redémarre en fait le SFM.
    Remarque : Cette commande n’est disponible que dans FTOS 6.5.4.0 et versions ultérieures, ainsi que sur la série E.
  2. card-removed : si vous retirez puis réinsérez un SFM, la sortie show trace signale la suppression de la carte comme motif du dernier cycle d’alimentation. Cet état n’est pas signalé lorsque le logiciel détecte une incapacité à lire certaines informations via un bus interne et interprète cet état comme la suppression du SFM.
  3. Réinitialisation incorrecte
En outre, si vous réinitialisez à distance la carte de secours à partir de l’interface CLI, la trace affichera un motif de « réinitialisation à distance ». 
 

Dépannage des symptômes

Le processus FTOS Chassis Manager (CHMGR) surveille l’intégrité et l’état du SFM. Lorsque le processus détecte un problème avec le SFM, RPM0 signale une alarme mineure et réinitialise la carte pour tenter de restaurer le SFM. Le processus TSM signale qu’un SFM a été trouvé et la condition d’alarme mineure est effacée.
Lorsque le RPM signale « No working standby SFM », le commutateur est en cours d’exécution sans le SFM en veille. L’une des raisons peut être qu’un SFM dans un emplacement particulier n’est pas encore en ligne après la réinitialisation. Une fois ce SFM mis en ligne, l’alarme mineure est effacée, le gestionnaire de châssis détecte le nouveau SFM et, en fonction du châssis et du nombre de SFM, le message « X SFM trouvés » s’affiche.
En général, pour résoudre un problème lié au SFM, commencez par capturer la sortie suivante :
show trace

show logging

Dec 30 11:12:20 PST: %RPM0:CP %CHMGR-2-MINOR_SFM: Minor alarm: No working standby SFM
Dec 30 11:12:20 PST: %RPM0:CP %TSM-2-SFM_RESET_PRESENT: SFM 2 reset unexpectedly
Dec 30 11:12:22 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 2
Dec 30 11:12:23 PST: %RPM0:CP %CHMGR-5-MINOR_SFM_CLR: Minor alarm cleared: Working standby SFM present
Dec 30 11:12:23 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found 9 SFMs
show sfm all

Si un SFM bat ou exécute la condition d’alarme mineure, il se peut que le système ne reçoive pas suffisamment d’énergie. Dans ce cas, le système arrête d’abord le SFM. Chaque SFM est configuré avec un seuil de tension et, en fonction de cette valeur, le SFM correspondant descend en premier. Ce processus de battement SFM se produit jusqu’à ce que la tension du système soit stabilisée. Pour déterminer si l’alimentation est suffisante, vérifiez physiquement si des redresseurs de puissance Valère subissent une défaillance du brique. Consultez également le document distinct, Dépannage des conditions d’alimentation faible.
Les sections suivantes expliquent comment résoudre des erreurs spécifiques sur le SFM.

Erreurs d’accès
généralIl existe deux types d’erreurs d’accès général SFM :
"m" - MDIO error
"I" - I2C access error

Ces erreurs d’accès indiquent généralement un problème matériel.

Pour déterminer si votre SFM rencontre une erreur d’accès général, recherchez un message syslog pertinent, tel que « SFM 3 a trouvé une erreur d’accès général ».
Feb Feb 19 04:44:02: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:02: %RPM0:CP %TSM-2-SFM_GENERAL_ACCESS_M: SFM 3 found general access error (type m) 
Feb 19 04:44:05: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 3 
Feb 19 04:44:06: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: UP 
Feb 19 04:44:36: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:37: %RPM0:CP %CHMGR-0-MAJOR_SFM: Major alarm: Switch fabric down 
Feb 19 04:44:38: %RPM0:CP %TSM-2-SFM_UNDER_VOLT: SFM 3 powered off due to under voltage
SFM Simba PSI access error

Une erreur « Simba PSI » sur le SFM indique généralement un problème matériel. (Simba fait référence à une puce matérielle sur le SFM.) 
  • show trace Output
    [6/4 2:13:13] TSM-(tsm):Receive SFM 1 ERR_DETECT event 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:13] POLLER-(PM):doSfmSaSanErr: eventId=17, slotId=1, state=1, value[0]=0x1fd, value[1]=0x0 
    [6/4 2:13:14] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [6/4 2:13:14] CHMGR-(chmgr):add min alrm 12 UNKNOWN 0 0 
    [6/4 2:13:14] CHMGR-(tsm):0x1382 log alrm 12 to chmgr (rc=84) 
    [6/4 2:13:14] TSM-(tsm):Set SFM minor alarm 
    [6/4 2:13:14] TSM-(tsm):Change SW FAB state from SW_FAB_UP_9 to 
    SW_FAB_UP_8  
    !—The Etherscale supports one SFM in standby mode. The Terascale requires all 9 SFMs to be operationally active.[5/4 2:13:14] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:14] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    !—During a failure, check the Status LED.  
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):CheckSFMCardPower: tsmIsSfmPowerOn() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmHandleSfmError: Different error detected on SFM 1 (erro = 262163). SFM already 
    in SFM_ERROR state 
    [6/4 2:13:15] TSM-(tsm):SFM 1 ERR_DETECT event is confirmed 
    [6/4 2:13:15] TSM-(tsm):Receive SFM 1 SIMAB_DETECT event 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSFMReset: SFM 1 is not 
    accessible via scratch pad (SFM_FAITH_CR = 0) 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:16] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    [5/4 2:13:17] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
  • show sfm all
    Force10#sh sfm all 
    Switch Fabric State: up 
    -- Switch Fabric Modules -- Slot Status 
    --------------------------------------------------------------------------- 
    0 card problem (SFM Simba PSI access error) 
    1 active 
    2 active 
    3 active 
    4 active 
    5 active 
    6 active 
    7 active 
    8 active 

« SFM failed SW FAB portpipe diags »

En général, cet état indique un problème matériel. Contactez le TAC Force10 Networks pour obtenir de l’aide au dépannage avant de demander un RMA.
Force10#show chassis brief

Chassis Type  : E300

Chassis Mode  : TeraScale

Chassis Epoch : 10.4 micro-seconds

--  Line cards --

Slot  Status        NxtBoot    ReqTyp   CurTyp   Version     Ports
--------------------------------------------------------------------------- 
  0   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  1   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  2   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  3   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  4   online        online     E12PE3   E12PE3   5.3.1.2b    12  
  5   not present                    

--  Route Processor Modules --

Slot  Status        NxtBoot    Version 
--------------------------------------------------------------------------- 
0   active        online     5.3.1.2b 
1   not present

Switch Fabric State:  up

--  Switch Fabric Modules --

Slot  Status                    

---------------------------------------------------------------------------

  0   SW FAB diags failed  (Multiple SFMs failed SW FAB portpipe diags)

  1   active    

[output omitted]

 

Une alarme majeure est signalée dans plusieurs conditions. L’une de ces conditions est le dépassement de la température de fonctionnement SFM Safe détectée par le matériel et les logiciels de surveillance de l’environnement. La commande showenvironment peut capturer la condition de température élevée en plus des messages d’erreur :

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-TEMP_SHUTDOWN_WARN: WARNING! SFM 6 temperature is 85C; approaching shutdown threshold of 80C)

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP: Major alarm: chassis temperature high (SFM temperature reaches or exceeds threshold of 75C)

Feb 27 04:52:21 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP_CLR: Major alarm cleared: chassis temperature lower (SFM 6 temperature is within threshold of 70C)

Lorsque cette condition se produit, soit le SFM est vraiment trop chaud, soit un capteur a mal fonctionné. Si les SFM directement adjacents présentent une température normale, vous pensez qu’il s’agit d’un capteur défectueux. Si les SFM directement adjacents n’ont pas une température normale, suspectez une véritable surchauffe.

 

Lorsque le système détecte une véritable surchauffe, il met le SFM hors tension jusqu’à ce qu’il refroidisse et jusqu’à ce que le logiciel détermine qu’il est sûr de le remettre sous tension. Lors de la remise sous tension, le motif de réinitialisation SFM est signalé comme « surchauffe » par le matériel. Si le logiciel détecte l’événement de surchauffe et arrête manuellement le SFM, le système signale la raison de réinitialisation du SFM « Remote power-off ».


Pour afficher les niveaux de seuils d’alarme programmés, exécutez la commande show alarms threshold :
 

E600-TAC-3#show alarms threshold

-- Temperature Limits (deg C) --
-----------------------------------------------------------
Minor Minor Off Major Major Off Shutdown
Linecard 75 70 80 77 85
RPM 65 60 75 70 80
SFM 65 60 75 70 80

Pour résoudre ce problème, procédez comme suit :

  1. Vérifiez qu’une plaque frontale recouvre tous les logements sans carte de ligne. Sans ces plaques, une température élevée peut se produire dans les cinq minutes. Des caches de rechange sont disponibles auprès de Force10 Networks.
  2. Assurez-vous que le châssis n’est pas posé sur le sol. 
  3. Vérifiez qu’il y a suffisamment de tuiles de refroidissement à proximité du boîtier.
  4. Si vous soupçonnez un capteur défectueux, réinitialisez le SFM à distance à l’aide de la commande reset sfm slot number . Si la température est vraiment élevée, le SFM ne s’allumera probablement pas et doit être retiré de quelques centimètres pour que la carte ne se connecte plus au fond de panier et permette toujours une circulation d’air correcte pour le reste du châssis.
    Remarque : Cette commande n’est disponible que dans FTOS 6.5.4.0 et versions ultérieures, ainsi que sur la série E.
    Remarque : Faites preuve de prudence lors du retrait du SFM ; S’il fait 85 degrés, il peut être chaud au toucher.
La réinitialisation du SFM actif via la commande reset sfm peut entraîner des interruptions du trafic, et ce message :
Force10#reset sfm 0 
SFM 0 is active. Resetting it might temporarily impact traffic. 
Proceed with reset? Confirm [yes/no]:
 
Le SFM est mis hors tension en raison d’une condition
 
de sous-tensionEn cas de baisse de puissance, le SFM est généralement le premier à s’éteindre. Pour plus d’informations, reportez-vous au document distinct Dépannage des conditions d’alimentation faible.
Force10>show sfm 3 
Switch Fabric State: up 
-- SFM card 3 -- 
Status : power off - SFM powered off due to under-voltage 
Card Type : SFM - Switch Fabric Module 
Up Time : 0 sec 
Temperature : 33C 
Power Status : PEM0: up PEM1: up 
Serial Number : 0012632 
Part Number : 7520003706 Rev A 
Vendor Id : 01 
Date Code : 01442003

Informations à recueillir si vous ouvrez un dossier TAC


Le niveau d’information fourni au centre d’assistance technique (TAC) de Force10 Networks détermine les détails de dépannage que TAC peut fournir.  En cas d’information limitée, l’ATC recommande normalement de réinstaller un SFM signalé dans un message d’erreur et de le surveiller de près. Si le SFM échoue à nouveau, contactez le TAC pour demander une aide supplémentaire au dépannage.  Veuillez utiliser le formulaire Créer une demande de service sur la page iSupport et inclure les informations suivantes, si elles sont disponibles :
  • Captures de console affichant les messages d’erreur
  • Captures de console montrant les étapes de dépannage effectuées et la séquence de démarrage au cours de chaque étape
  • Enregistrement des messages sur un serveur syslog, le cas échéant.
  • Résultat de la commande show trace
  • Résultat de la commande show tech-support

Cause

-

Résolution

-

Produits concernés

Switches