Dépannage du module de structure de commutation
Summary: Dépannage du module de structure de commutation
Symptoms
- Introduction
- Détermination du dernier motif de mise hors tension
- Dépannage des symptômes
- Informations à recueillir si vous ouvrez un dossier TAC
Introduction
Ce document est principalement destiné au dépannage du module SFM (Switch Fabric Module) sur un système série E, mais il peut également être appliqué aux SFM de la série C.Dans la série E, le SFM est un composant discret, appelé unité remplaçable sur site (FRU). Dans la série C, la structure de commutation est intégrée dans le RPM. Néanmoins, les commandes FTOS pour la gestion du SFM, y compris toutes celles décrites dans le présent document, sauf indication contraire, sont utiles sur la série C.
Dans de rares cas, un SFM ne parvient pas à s’initialiser au démarrage ou après une mise à niveau, ou il peut être mis hors tension de manière inattendue pendant le fonctionnement. Le présent document traite de ces cas.
Détermination du dernier motif de mise hors tension
La fonction de suivi du système, illustrée dans la sortie de la commande show trace , signale la mise hors tension ou le redémarrage d’un SFM. Vous pouvez rechercher des messages de journal intitulés"Found SFM #, last power-cycle reason:", as highlighted below in a sample of show trace output.Force10#show trace 100 | grep SFM[2/19 13:18:59] RAM-(RpmAvailMgr):Send data sync msg (42) to task 4 SFM Config State ).[2/19 13:22:47] TSM-(tsm):Receive SFM 7 SFM_DETECT REMOVE event.[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: Remove SFM 7[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: SFM 7 is powered off.[2/19 13:22:48] TSM-(tsm):tsmSfmRemove: SFM 7 is powered on.[2/19 13:22:49] TSM-(tsm):Set SFM minor alarm[2/19 13:22:49] TSM-(tsm):tsmSfmRemove:8: SW FAB is good after removing SFM 7 [2/19 13:22:50] TSM-(tsm):Receive SFM 7 SFM_DETECT INSERT event. [2/19 13:22:50] TSM-(tsm):SFM 7 is reset with SFM Card insert event, bring up the card [2/19 13:22:50] TSM-(tsm):Found SFM 7, last power-cycle reason: power on with cause of DEFAULT [2/19 13:22:50] TSM-(tsm):TSM initilizes SFM 7... [2/19 13:22:51] ****** ERROR CHMGR-(chmgr):SFM 7 not present or bad slot id [2/19 13:22:52] TSM-(tsm):Clear SFM minor alarm [2/19 13:22:52] TSM-(tsm):tsmSfmAdd:8: LC is in service, no PP test. SFM 7 standby. numSfmFound = 9 [2/19 13:22:52] TSM-(tsm):Receive SFM 7 RESET_DETECT ASSERT event. [2/19 13:22:52] TSM-(tsm):SFM 7 reset is cleared, no action
En règle générale, la trace système affiche trois raisons pour une réinitialisation SFM :
- remote-power-off : signalée le plus souvent, car le SFM est mis hors tension et sous tension lors du redémarrage du système, avant le redémarrage et à nouveau lors de l’initialisation du système. Une raison de mise hors tension à distance est également signalée lors de l’émission de la commande reset sfm slot number, car cette commande redémarre en fait le SFM.
Remarque : Cette commande n’est disponible que dans FTOS 6.5.4.0 et versions ultérieures, ainsi que sur la série E. - card-removed : si vous retirez puis réinsérez un SFM, la sortie show trace signale la suppression de la carte comme motif du dernier cycle d’alimentation. Cet état n’est pas signalé lorsque le logiciel détecte une incapacité à lire certaines informations via un bus interne et interprète cet état comme la suppression du SFM.
- Réinitialisation incorrecte
Dépannage des symptômes
Le processus FTOS Chassis Manager (CHMGR) surveille l’intégrité et l’état du SFM. Lorsque le processus détecte un problème avec le SFM, RPM0 signale une alarme mineure et réinitialise la carte pour tenter de restaurer le SFM. Le processus TSM signale qu’un SFM a été trouvé et la condition d’alarme mineure est effacée.Lorsque le RPM signale « No working standby SFM », le commutateur est en cours d’exécution sans le SFM en veille. L’une des raisons peut être qu’un SFM dans un emplacement particulier n’est pas encore en ligne après la réinitialisation. Une fois ce SFM mis en ligne, l’alarme mineure est effacée, le gestionnaire de châssis détecte le nouveau SFM et, en fonction du châssis et du nombre de SFM, le message « X SFM trouvés » s’affiche.
En général, pour résoudre un problème lié au SFM, commencez par capturer la sortie suivante :
show trace show logging Dec 30 11:12:20 PST: %RPM0:CP %CHMGR-2-MINOR_SFM: Minor alarm: No working standby SFM Dec 30 11:12:20 PST: %RPM0:CP %TSM-2-SFM_RESET_PRESENT: SFM 2 reset unexpectedly Dec 30 11:12:22 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 2 Dec 30 11:12:23 PST: %RPM0:CP %CHMGR-5-MINOR_SFM_CLR: Minor alarm cleared: Working standby SFM present Dec 30 11:12:23 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found 9 SFMs show sfm all
Si un SFM bat ou exécute la condition d’alarme mineure, il se peut que le système ne reçoive pas suffisamment d’énergie. Dans ce cas, le système arrête d’abord le SFM. Chaque SFM est configuré avec un seuil de tension et, en fonction de cette valeur, le SFM correspondant descend en premier. Ce processus de battement SFM se produit jusqu’à ce que la tension du système soit stabilisée. Pour déterminer si l’alimentation est suffisante, vérifiez physiquement si des redresseurs de puissance Valère subissent une défaillance du brique. Consultez également le document distinct, Dépannage des conditions d’alimentation faible.
Les sections suivantes expliquent comment résoudre des erreurs spécifiques sur le SFM.
Erreurs d’accès
généralIl existe deux types d’erreurs d’accès général SFM :
"m" - MDIO error "I" - I2C access error
Ces erreurs d’accès indiquent généralement un problème matériel.
Pour déterminer si votre SFM rencontre une erreur d’accès général, recherchez un message syslog pertinent, tel que « SFM 3 a trouvé une erreur d’accès général ».
Feb Feb 19 04:44:02: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN Feb 19 04:44:02: %RPM0:CP %TSM-2-SFM_GENERAL_ACCESS_M: SFM 3 found general access error (type m) Feb 19 04:44:05: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 3 Feb 19 04:44:06: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: UP Feb 19 04:44:36: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN Feb 19 04:44:37: %RPM0:CP %CHMGR-0-MAJOR_SFM: Major alarm: Switch fabric down Feb 19 04:44:38: %RPM0:CP %TSM-2-SFM_UNDER_VOLT: SFM 3 powered off due to under voltage SFM Simba PSI access error
Une erreur « Simba PSI » sur le SFM indique généralement un problème matériel. (Simba fait référence à une puce matérielle sur le SFM.)
-
show trace Output [6/4 2:13:13] TSM-(tsm):Receive SFM 1 ERR_DETECT event [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: Remove SFM 1 [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. [6/4 2:13:13] POLLER-(PM):doSfmSaSanErr: eventId=17, slotId=1, state=1, value[0]=0x1fd, value[1]=0x0 [6/4 2:13:14] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. [6/4 2:13:14] CHMGR-(chmgr):add min alrm 12 UNKNOWN 0 0 [6/4 2:13:14] CHMGR-(tsm):0x1382 log alrm 12 to chmgr (rc=84) [6/4 2:13:14] TSM-(tsm):Set SFM minor alarm [6/4 2:13:14] TSM-(tsm):Change SW FAB state from SW_FAB_UP_9 to SW_FAB_UP_8 !—The Etherscale supports one SFM in standby mode. The Terascale requires all 9 SFMs to be operationally active.[5/4 2:13:14] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. [5/4 2:13:14] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. !—During a failure, check the Status LED. [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: f10SysRpmSfmCardInfoGet() failed for SFM 1 power status [5/4 2:13:15] ****** ERROR TSM-(tsm):CheckSFMCardPower: tsmIsSfmPowerOn() failed for SFM 1 power status [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmHandleSfmError: Different error detected on SFM 1 (erro = 262163). SFM already in SFM_ERROR state [6/4 2:13:15] TSM-(tsm):SFM 1 ERR_DETECT event is confirmed [6/4 2:13:15] TSM-(tsm):Receive SFM 1 SIMAB_DETECT event [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSFMReset: SFM 1 is not accessible via scratch pad (SFM_FAITH_CR = 0) [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: Remove SFM 1 [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. [6/4 2:13:16] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. [5/4 2:13:17] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: f10SysRpmSfmCardInfoGet() failed for SFM 1 power status
-
show sfm all Force10#sh sfm all Switch Fabric State: up -- Switch Fabric Modules -- Slot Status --------------------------------------------------------------------------- 0 card problem (SFM Simba PSI access error) 1 active 2 active 3 active 4 active 5 active 6 active 7 active 8 active
« SFM failed SW FAB portpipe diags »
En général, cet état indique un problème matériel. Contactez le TAC Force10 Networks pour obtenir de l’aide au dépannage avant de demander un RMA.
Force10#show chassis brief Chassis Type : E300 Chassis Mode : TeraScale Chassis Epoch : 10.4 micro-seconds -- Line cards -- Slot Status NxtBoot ReqTyp CurTyp Version Ports --------------------------------------------------------------------------- 0 online online EX1YE3 EX1YE3 5.3.1.2b 1 1 online online EX1YE3 EX1YE3 5.3.1.2b 1 2 online online EX1YE3 EX1YE3 5.3.1.2b 1 3 online online EX1YE3 EX1YE3 5.3.1.2b 1 4 online online E12PE3 E12PE3 5.3.1.2b 12 5 not present -- Route Processor Modules -- Slot Status NxtBoot Version --------------------------------------------------------------------------- 0 active online 5.3.1.2b 1 not present Switch Fabric State: up -- Switch Fabric Modules -- Slot Status --------------------------------------------------------------------------- 0 SW FAB diags failed (Multiple SFMs failed SW FAB portpipe diags) 1 active [output omitted]
Une alarme majeure est signalée dans plusieurs conditions. L’une de ces conditions est le dépassement de la température de fonctionnement SFM Safe détectée par le matériel et les logiciels de surveillance de l’environnement. La commande showenvironment peut capturer la condition de température élevée en plus des messages d’erreur :
Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-TEMP_SHUTDOWN_WARN: WARNING! SFM 6 temperature is 85C; approaching shutdown threshold of 80C) Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP: Major alarm: chassis temperature high (SFM temperature reaches or exceeds threshold of 75C) Feb 27 04:52:21 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP_CLR: Major alarm cleared: chassis temperature lower (SFM 6 temperature is within threshold of 70C)
Lorsque cette condition se produit, soit le SFM est vraiment trop chaud, soit un capteur a mal fonctionné. Si les SFM directement adjacents présentent une température normale, vous pensez qu’il s’agit d’un capteur défectueux. Si les SFM directement adjacents n’ont pas une température normale, suspectez une véritable surchauffe.
Lorsque le système détecte une véritable surchauffe, il met le SFM hors tension jusqu’à ce qu’il refroidisse et jusqu’à ce que le logiciel détermine qu’il est sûr de le remettre sous tension. Lors de la remise sous tension, le motif de réinitialisation SFM est signalé comme « surchauffe » par le matériel. Si le logiciel détecte l’événement de surchauffe et arrête manuellement le SFM, le système signale la raison de réinitialisation du SFM « Remote power-off ».
Pour afficher les niveaux de seuils d’alarme programmés, exécutez la commande show alarms threshold :
E600-TAC-3#show alarms threshold -- Temperature Limits (deg C) -- ----------------------------------------------------------- Minor Minor Off Major Major Off Shutdown Linecard 75 70 80 77 85 RPM 65 60 75 70 80 SFM 65 60 75 70 80
Pour résoudre ce problème, procédez comme suit :
- Vérifiez qu’une plaque frontale recouvre tous les logements sans carte de ligne. Sans ces plaques, une température élevée peut se produire dans les cinq minutes. Des caches de rechange sont disponibles auprès de Force10 Networks.
- Assurez-vous que le châssis n’est pas posé sur le sol.
- Vérifiez qu’il y a suffisamment de tuiles de refroidissement à proximité du boîtier.
- Si vous soupçonnez un capteur défectueux, réinitialisez le SFM à distance à l’aide de la commande reset sfm slot number . Si la température est vraiment élevée, le SFM ne s’allumera probablement pas et doit être retiré de quelques centimètres pour que la carte ne se connecte plus au fond de panier et permette toujours une circulation d’air correcte pour le reste du châssis.
Remarque : Cette commande n’est disponible que dans FTOS 6.5.4.0 et versions ultérieures, ainsi que sur la série E.
Remarque : Faites preuve de prudence lors du retrait du SFM ; S’il fait 85 degrés, il peut être chaud au toucher.
La réinitialisation du SFM actif via la commande reset sfm peut entraîner des interruptions du trafic, et ce message :
Force10#reset sfm 0 SFM 0 is active. Resetting it might temporarily impact traffic. Proceed with reset? Confirm [yes/no]:
Le SFM est mis hors tension en raison d’une condition
de sous-tensionEn cas de baisse de puissance, le SFM est généralement le premier à s’éteindre. Pour plus d’informations, reportez-vous au document distinct Dépannage des conditions d’alimentation faible.
Force10>show sfm 3 Switch Fabric State: up -- SFM card 3 -- Status : power off - SFM powered off due to under-voltage Card Type : SFM - Switch Fabric Module Up Time : 0 sec Temperature : 33C Power Status : PEM0: up PEM1: up Serial Number : 0012632 Part Number : 7520003706 Rev A Vendor Id : 01 Date Code : 01442003
Informations à recueillir si vous ouvrez un dossier TAC
Le niveau d’information fourni au centre d’assistance technique (TAC) de Force10 Networks détermine les détails de dépannage que TAC peut fournir. En cas d’information limitée, l’ATC recommande normalement de réinstaller un SFM signalé dans un message d’erreur et de le surveiller de près. Si le SFM échoue à nouveau, contactez le TAC pour demander une aide supplémentaire au dépannage. Veuillez utiliser le formulaire Créer une demande de service sur la page iSupport et inclure les informations suivantes, si elles sont disponibles :
- Captures de console affichant les messages d’erreur
- Captures de console montrant les étapes de dépannage effectuées et la séquence de démarrage au cours de chaque étape
- Enregistrement des messages sur un serveur syslog, le cas échéant.
- Résultat de la commande show trace
- Résultat de la commande show tech-support