Omitir para ir al contenido principal
  • Hacer pedidos rápida y fácilmente
  • Ver pedidos y realizar seguimiento al estado del envío
  • Cree y acceda a una lista de sus productos

Solución de problemas del módulo de fabric del switch

Resumen: Solución de problemas del módulo de fabric del switch

Este artículo se aplica a   Este artículo no se aplica a 

Síntomas

Índice:
  1. Introducción
  2. Determinación del último motivo de apagado
  3. Síntomas de solución de problemas
  4. Información que debe recopilar si abre un caso TAC

Introducción

Este documento es principalmente para la solución de problemas del módulo de estructura de switch (SFM) en un sistema de la serie E, pero también se puede aplicar a los SFM de la serie C.
En la serie E, el SFM es un componente discreto, denominado unidad reemplazable de campo (FRU). En la serie C, la estructura del switch está integrada en el RPM. Sin embargo, los comandos de FTOS para administrar el SFM, incluidos todos los descritos en este documento, excepto cuando se indique lo contrario, son útiles en la serie C.
En raras ocasiones, un SFM no se inicializa durante el arranque o después de una actualización, o puede apagarse inesperadamente durante la operación. En este documento, se abordan esos casos.

Determinación del último motivo de apagado

La función de seguimiento del sistema, como se muestra en la salida del comando show trace , informa cuando un SFM se apaga o se apaga y se enciende el sistema. Puede buscar mensajes de registro titulados
 "Found SFM #, last power-cycle reason:", as highlighted below in a sample of show trace output.Force10#show trace 100 | grep SFM[2/19 13:18:59] RAM-(RpmAvailMgr):Send data sync msg (42) to task 4 SFM Config State ).[2/19 13:22:47] TSM-(tsm):Receive SFM 7 SFM_DETECT REMOVE event.[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: Remove SFM 7[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: SFM 7 is powered off.[2/19 13:22:48] TSM-(tsm):tsmSfmRemove: SFM 7 is powered on.[2/19 13:22:49] TSM-(tsm):Set SFM minor alarm[2/19 13:22:49] TSM-(tsm):tsmSfmRemove:8: SW FAB is good after removing SFM 7
[2/19 13:22:50] TSM-(tsm):Receive SFM 7 SFM_DETECT INSERT event.
[2/19 13:22:50] TSM-(tsm):SFM 7 is reset with SFM Card insert event, bring up the card
[2/19 13:22:50] TSM-(tsm):Found SFM 7, last power-cycle reason: power on with cause of DEFAULT
[2/19 13:22:50] TSM-(tsm):TSM initilizes SFM 7...
[2/19 13:22:51] ****** ERROR CHMGR-(chmgr):SFM 7 not present or bad slot id
[2/19 13:22:52] TSM-(tsm):Clear SFM minor alarm
[2/19 13:22:52] TSM-(tsm):tsmSfmAdd:8: LC is in service, no PP test. SFM 7 standby. numSfmFound = 9
[2/19 13:22:52] TSM-(tsm):Receive SFM 7 RESET_DETECT ASSERT event.
[2/19 13:22:52] TSM-(tsm):SFM 7 reset is cleared, no action

Por lo general, el seguimiento del sistema mostrará tres motivos para un restablecimiento de SFM:
  1. remote-power-off: se informa con mayor frecuencia ya que el SFM se apaga y enciende cuando el sistema se reinicia, tanto antes del reinicio como nuevamente en la inicialización del sistema. También se informa un motivo de "apagado remoto" cuando se emite el comando reset sfm slot number, ya que este comando realmente apaga y enciende el SFM.
    Nota: Este comando solo está disponible en FTOS 6.5.4.0 y versiones posteriores, y en la serie E.
  2. card-removed: si quita y vuelve a insertar un SFM, la salida de show trace informará card-removed como el último motivo del ciclo de apagado y encendido. Este estado no se informa cuando el software de detecta una incapacidad para leer cierta información a través de un bus interno e interpreta este estado como la eliminación del SFM.
  3. Restablecimiento falso
Además, si restablece la tarjeta en espera de forma remota desde la CLI, el seguimiento mostrará un motivo de "restablecimiento remoto". 
 

Síntomas de solución de problemas

El proceso del administrador de chasis de FTOS (CHMGR) monitorea la condición y el estado del SFM. Cuando el proceso detecta un problema con el SFM, RPM0 informa una alarma menor y restablece la tarjeta en un intento de restaurar el SFM. El proceso de TSM informa que se encontró un SFM y que se borra la condición de alarma menor.
Cuando el RPM informa "No hay SFM en espera en funcionamiento", el switch está funcionando sin el SFM en espera. Una razón puede ser que un SFM en una ranura en particular aún no esté en línea después del restablecimiento. Una vez que este SFM se pone en línea, se borra la alarma menor, el administrador del chasis detecta el nuevo SFM y, según el chasis y la cantidad de SFM, se muestra el mensaje "Se encontraron X SFM".
En general, para solucionar un problema con SFM, comience por capturar el siguiente resultado:
show trace

show logging

Dec 30 11:12:20 PST: %RPM0:CP %CHMGR-2-MINOR_SFM: Minor alarm: No working standby SFM
Dec 30 11:12:20 PST: %RPM0:CP %TSM-2-SFM_RESET_PRESENT: SFM 2 reset unexpectedly
Dec 30 11:12:22 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 2
Dec 30 11:12:23 PST: %RPM0:CP %CHMGR-5-MINOR_SFM_CLR: Minor alarm cleared: Working standby SFM present
Dec 30 11:12:23 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found 9 SFMs
show sfm all

Si un SFM se agita o realiza ciclos a través de la condición de alarma menor, es posible que el sistema no esté recibiendo suficiente energía. En esta condición, el sistema desactiva primero el SFM. Cada SFM se configura con un umbral de voltaje y, en función de ese valor, el SFM correspondiente se desactivará primero. Este proceso de inestabilidad de SFM se produce hasta que se estabiliza el voltaje del sistema. Para determinar si hay suficiente alimentación, verifique físicamente si algún rectificador de potencia Valere está experimentando una falla de brick. Consulte también el documento independiente, Solución de problemas de condiciones de baja alimentación.
En las siguientes secciones, se explica cómo solucionar errores específicos en SFM.

Errores
de acceso generalHay dos tipos de errores de acceso general de SFM:
"m" - MDIO error
"I" - I2C access error

Por lo general, estos errores de acceso apuntan a un problema de hardware.

Para determinar si el SFM está experimentando un error de acceso general, busque un mensaje de registro del sistema pertinente, como "SFM 3 found general access error".
Feb Feb 19 04:44:02: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:02: %RPM0:CP %TSM-2-SFM_GENERAL_ACCESS_M: SFM 3 found general access error (type m) 
Feb 19 04:44:05: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 3 
Feb 19 04:44:06: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: UP 
Feb 19 04:44:36: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:37: %RPM0:CP %CHMGR-0-MAJOR_SFM: Major alarm: Switch fabric down 
Feb 19 04:44:38: %RPM0:CP %TSM-2-SFM_UNDER_VOLT: SFM 3 powered off due to under voltage
SFM Simba PSI access error

Un error "Simba PSI" en el SFM generalmente apunta a un problema de hardware. (Simba se refiere a un chip de hardware en el SFM). 
  • show trace Output
    [6/4 2:13:13] TSM-(tsm):Receive SFM 1 ERR_DETECT event 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:13] POLLER-(PM):doSfmSaSanErr: eventId=17, slotId=1, state=1, value[0]=0x1fd, value[1]=0x0 
    [6/4 2:13:14] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [6/4 2:13:14] CHMGR-(chmgr):add min alrm 12 UNKNOWN 0 0 
    [6/4 2:13:14] CHMGR-(tsm):0x1382 log alrm 12 to chmgr (rc=84) 
    [6/4 2:13:14] TSM-(tsm):Set SFM minor alarm 
    [6/4 2:13:14] TSM-(tsm):Change SW FAB state from SW_FAB_UP_9 to 
    SW_FAB_UP_8  
    !—The Etherscale supports one SFM in standby mode. The Terascale requires all 9 SFMs to be operationally active.[5/4 2:13:14] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:14] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    !—During a failure, check the Status LED.  
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):CheckSFMCardPower: tsmIsSfmPowerOn() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmHandleSfmError: Different error detected on SFM 1 (erro = 262163). SFM already 
    in SFM_ERROR state 
    [6/4 2:13:15] TSM-(tsm):SFM 1 ERR_DETECT event is confirmed 
    [6/4 2:13:15] TSM-(tsm):Receive SFM 1 SIMAB_DETECT event 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSFMReset: SFM 1 is not 
    accessible via scratch pad (SFM_FAITH_CR = 0) 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:16] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    [5/4 2:13:17] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
  • show sfm all
    Force10#sh sfm all 
    Switch Fabric State: up 
    -- Switch Fabric Modules -- Slot Status 
    --------------------------------------------------------------------------- 
    0 card problem (SFM Simba PSI access error) 
    1 active 
    2 active 
    3 active 
    4 active 
    5 active 
    6 active 
    7 active 
    8 active 

"SFM falló en los diagnósticos de portpipe de SW FAB"

Por lo general, este estado indica un problema de hardware. Póngase en contacto con el TAC de Force10 Networks para obtener asistencia en la resolución de problemas antes de solicitar un RMA.
Force10#show chassis brief

Chassis Type  : E300

Chassis Mode  : TeraScale

Chassis Epoch : 10.4 micro-seconds

--  Line cards --

Slot  Status        NxtBoot    ReqTyp   CurTyp   Version     Ports
--------------------------------------------------------------------------- 
  0   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  1   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  2   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  3   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  4   online        online     E12PE3   E12PE3   5.3.1.2b    12  
  5   not present                    

--  Route Processor Modules --

Slot  Status        NxtBoot    Version 
--------------------------------------------------------------------------- 
0   active        online     5.3.1.2b 
1   not present

Switch Fabric State:  up

--  Switch Fabric Modules --

Slot  Status                    

---------------------------------------------------------------------------

  0   SW FAB diags failed  (Multiple SFMs failed SW FAB portpipe diags)

  1   active    

[output omitted]

 

Se informa de una alarma importante en varias condiciones. Una de estas condiciones es exceder la temperatura de funcionamiento segura del SFM, según lo detectado por el hardware y el software de monitoreo ambiental. El comando showenvironment puede capturar la condición de alta temperatura, además de los mensajes de error:

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-TEMP_SHUTDOWN_WARN: WARNING! SFM 6 temperature is 85C; approaching shutdown threshold of 80C)

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP: Major alarm: chassis temperature high (SFM temperature reaches or exceeds threshold of 75C)

Feb 27 04:52:21 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP_CLR: Major alarm cleared: chassis temperature lower (SFM 6 temperature is within threshold of 70C)

Cuando se produce esta condición, el SFM realmente está demasiado caliente o un sensor no funciona correctamente. Si los SFM directamente adyacentes tienen temperatura normal, sospeche que hay un sensor defectuoso. Si los SFM directamente adyacentes no tienen la temperatura normal, sospeche que se trata de una condición de sobrecalentamiento genuina.

 

Cuando el sistema detecta una condición genuina de exceso de temperatura, apaga el SFM hasta que se enfría y hasta que el software determina que es seguro volver a encenderlo. Tras volver a encender, el hardware informará el motivo del restablecimiento del SFM como "temperatura excesiva". Si el software detecta el evento de sobrecalentamiento y apaga manualmente el SFM, el sistema informará un motivo de "apagado remoto" para el restablecimiento del SFM.


Para ver los niveles de umbrales de alarmas programados, ejecute el comando show alarms threshold :
 

E600-TAC-3#show alarms threshold

-- Temperature Limits (deg C) --
-----------------------------------------------------------
Minor Minor Off Major Major Off Shutdown
Linecard 75 70 80 77 85
RPM 65 60 75 70 80
SFM 65 60 75 70 80

Realice los siguientes pasos para solucionar este problema:

  1. Verifique que haya una placa frontal que cubra todas las ranuras sin una tarjeta de línea. Sin tales placas, puede ocurrir una condición de alta temperatura en cinco minutos. Los espacios en blanco de repuesto están disponibles en Force10 Networks.
  2. Asegúrese de que el chasis no esté colocado en el suelo. 
  3. Verifique que haya suficientes placas de enfriamiento cerca del chasis.
  4. Si sospecha que hay un sensor defectuoso, restablezca el SFM de forma remota con el comando reset sfm slot number . Si la temperatura es realmente alta, es probable que el SFM no se encienda y se deba quitar unos pocos centímetros para que la tarjeta ya no se conecte al backplane y permita un flujo de aire adecuado para el resto del chasis.
    NOTA: Este comando solo está disponible en FTOS 6.5.4.0 y versiones posteriores, y en la serie E.
    NOTA: Tenga cuidado al retirar el SFM; Si hace 85 grados, podría estar caliente al tacto.
El restablecimiento del SFM activo mediante el comando reset sfm puede provocar la interrupción del tráfico y este mensaje:
Force10#reset sfm 0 
SFM 0 is active. Resetting it might temporarily impact traffic. 
Proceed with reset? Confirm [yes/no]:
 
El SFM está apagado debido a una condición
 
de bajo voltajeEn el caso de una caída de alimentación, el SFM generalmente se apaga primero. Consulte el documento separado, Solución de problemas en condiciones de baja alimentación, para obtener más detalles.
Force10>show sfm 3 
Switch Fabric State: up 
-- SFM card 3 -- 
Status : power off - SFM powered off due to under-voltage 
Card Type : SFM - Switch Fabric Module 
Up Time : 0 sec 
Temperature : 33C 
Power Status : PEM0: up PEM1: up 
Serial Number : 0012632 
Part Number : 7520003706 Rev A 
Vendor Id : 01 
Date Code : 01442003

Información que debe recopilar si abre un caso TAC


El nivel de información proporcionado al Centro de Asistencia Técnica (TAC) de Force10 Networks determina el detalle de la solución de problemas que TAC puede proporcionar.  Con información limitada, el TAC normalmente recomienda volver a insertar un SFM informado en un mensaje de error y monitorear de cerca el SFM. Si el SFM vuelve a fallar, comuníquese con el TAC para solicitar asistencia adicional para la solución de problemas.  Utilice el formulario Create Service Request en la página de isupport e incluya la siguiente información si está disponible:
  • Capturas de la consola que muestran los mensajes de error
  • Capturas de la consola que muestran los pasos de solución de problemas realizados y la secuencia de arranque durante cada paso
  • Mensajes guardados en un servidor syslog, si se utiliza uno.
  • Salida del comando show trace
  • Resultado del comando show tech-support

Causa

-

Resolución

-

Productos afectados

Switches