Gå til hovedindhold
  • Afgiv ordrer hurtigt og nemt
  • Se ordrer og spor status for din forsendelse
  • Opret og få adgang til en liste med dine produkter

Fejlfinding af switchstrukturmodulet

Oversigt: Fejlfinding af switchstrukturmodulet

Denne artikel gælder for   Denne artikel gælder ikke for 

Symptomer

Indholdsfortegnelse:
  1. Indledning
  2. Bestemmelse af den sidste årsag til nedlukning
  3. Symptomer på fejlfinding
  4. Oplysninger, der skal indsamles, hvis du åbner en TAC-sag

Indledning

Dette dokument omhandler primært fejlfinding af Switch Fabric Module (SFM) på et system i E-serien, men det kan også anvendes på SFM'er i C-serien.
I E-serien er SFM en diskret komponent, der kaldes en FRU (Field Replaceable Unit). I C-serien er switchstrukturen integreret i RPM. Ikke desto mindre er FTOS-kommandoer til styring af SFM, herunder alle dem, der er beskrevet i dette dokument, nyttige på C-serien, medmindre andet er angivet.
I sjældne tilfælde kan en SFM ikke initialiseres ved opstart eller efter en opgradering, eller den kan lukke uventet under drift. Dette dokument omhandler disse tilfælde.

Bestemmelse af den sidste årsag til nedlukning

Systemsporingsfunktionen, som vist i Vis sporingskommandooutputtet , rapporterer, når en SFM er blevet slukket eller genstartet. Du kan søge efter logmeddelelser med titlen
 "Found SFM #, last power-cycle reason:", as highlighted below in a sample of show trace output.Force10#show trace 100 | grep SFM[2/19 13:18:59] RAM-(RpmAvailMgr):Send data sync msg (42) to task 4 SFM Config State ).[2/19 13:22:47] TSM-(tsm):Receive SFM 7 SFM_DETECT REMOVE event.[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: Remove SFM 7[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: SFM 7 is powered off.[2/19 13:22:48] TSM-(tsm):tsmSfmRemove: SFM 7 is powered on.[2/19 13:22:49] TSM-(tsm):Set SFM minor alarm[2/19 13:22:49] TSM-(tsm):tsmSfmRemove:8: SW FAB is good after removing SFM 7
[2/19 13:22:50] TSM-(tsm):Receive SFM 7 SFM_DETECT INSERT event.
[2/19 13:22:50] TSM-(tsm):SFM 7 is reset with SFM Card insert event, bring up the card
[2/19 13:22:50] TSM-(tsm):Found SFM 7, last power-cycle reason: power on with cause of DEFAULT
[2/19 13:22:50] TSM-(tsm):TSM initilizes SFM 7...
[2/19 13:22:51] ****** ERROR CHMGR-(chmgr):SFM 7 not present or bad slot id
[2/19 13:22:52] TSM-(tsm):Clear SFM minor alarm
[2/19 13:22:52] TSM-(tsm):tsmSfmAdd:8: LC is in service, no PP test. SFM 7 standby. numSfmFound = 9
[2/19 13:22:52] TSM-(tsm):Receive SFM 7 RESET_DETECT ASSERT event.
[2/19 13:22:52] TSM-(tsm):SFM 7 reset is cleared, no action

Generelt viser systemsporingen tre årsager til en SFM-nulstilling:
  1. fjern-slukket – Rapporteres oftest, da SFM slukkes og tændes, når systemet genstarter, både før genstart og igen ved systeminitialisering. En årsag til "remote-power-off" rapporteres også, når kommandoen reset sfm slot number udstedes, da denne kommando faktisk slukker og tænder SFM.
    Bemærk: Denne kommando er kun tilgængelig i FTOS 6.5.4.0 og nyere samt i E-serien.
  2. kort fjernet – Hvis du fjerner og derefter genindsætter en SFM, rapporterer showsporingsoutputtet kortet fjernet som den sidste årsag til tænd/sluk-cyklus. Denne status rapporteres ikke, når softwaren registrerer en manglende evne til at læse visse oplysninger via en intern bus og fortolker denne tilstand som SFM'en, der fjernes.
  3. Falsk nulstilling
Hvis du fjernnulstiller standbykortet fra CLI, viser sporingen desuden årsagen til "fjernnulstilling". 
 

Symptomer på fejlfinding

FTOS Chassis Manager-processen (CHMGR) overvåger SFM'ens tilstand og status. Når processen registrerer et problem med SFM, rapporterer RPM0 en mindre alarm og nulstiller kortet i et forsøg på at gendanne SFM'en. TSM-processen rapporterer, at der er fundet en SFM, og den mindre alarmtilstand er ryddet.
Når RPM rapporterer "Ingen fungerende standby-SFM", kører switchen uden standby-SFM. En årsag kan være, at en SFM i en bestemt slot endnu ikke er online efter nulstilling. Når denne SFM kommer online, ryddes den mindre alarm, kabinetadministratoren registrerer den nye SFM, og afhængigt af kabinettet og antallet af SFM'er vises meddelelsen "Found X SFM'er".
Generelt skal du starte med at registrere følgende output for at fejlfinde et problem med SFM:
show trace

show logging

Dec 30 11:12:20 PST: %RPM0:CP %CHMGR-2-MINOR_SFM: Minor alarm: No working standby SFM
Dec 30 11:12:20 PST: %RPM0:CP %TSM-2-SFM_RESET_PRESENT: SFM 2 reset unexpectedly
Dec 30 11:12:22 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 2
Dec 30 11:12:23 PST: %RPM0:CP %CHMGR-5-MINOR_SFM_CLR: Minor alarm cleared: Working standby SFM present
Dec 30 11:12:23 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found 9 SFMs
show sfm all

Hvis en SFM klapper eller cykler gennem den mindre alarmtilstand, får systemet muligvis ikke tilstrækkelig strøm. Under denne betingelse nedbringer systemet først SFM. Hver SFM er konfigureret med en spændingsgrænse, og baseret på denne værdi falder den tilsvarende SFM først. Denne proces med SFM-flapping opstår, indtil spændingen til systemet er stabiliseret. For at afgøre, om der er tilstrækkelig strøm, skal du fysisk kontrollere, om nogen Valere-strømensrettere oplever en murstensfejl. Se også det separate dokument Fejlfinding af lavenergiforhold.
I følgende afsnit forklares det, hvordan du foretager fejlfinding af specifikke fejl på SFM.

Generelle adgangsfejl
Der findes to typer generelle adgangsfejl i forbindelse med SFM:
"m" - MDIO error
"I" - I2C access error

Disse adgangsfejl skyldes typisk et hardwareproblem.

Du kan finde ud af, om din SFM oplever en generel adgangsfejl, ved at kigge efter en relevant syslog-meddelelse, f.eks. "SFM 3 fandt generel adgangsfejl".
Feb Feb 19 04:44:02: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:02: %RPM0:CP %TSM-2-SFM_GENERAL_ACCESS_M: SFM 3 found general access error (type m) 
Feb 19 04:44:05: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 3 
Feb 19 04:44:06: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: UP 
Feb 19 04:44:36: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:37: %RPM0:CP %CHMGR-0-MAJOR_SFM: Major alarm: Switch fabric down 
Feb 19 04:44:38: %RPM0:CP %TSM-2-SFM_UNDER_VOLT: SFM 3 powered off due to under voltage
SFM Simba PSI access error

En "Simba PSI"-fejl på SFM kan generelt skyldes et hardwareproblem. (Simba henviser til en hardwarechip på SFM.) 
  • show trace Output
    [6/4 2:13:13] TSM-(tsm):Receive SFM 1 ERR_DETECT event 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:13] POLLER-(PM):doSfmSaSanErr: eventId=17, slotId=1, state=1, value[0]=0x1fd, value[1]=0x0 
    [6/4 2:13:14] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [6/4 2:13:14] CHMGR-(chmgr):add min alrm 12 UNKNOWN 0 0 
    [6/4 2:13:14] CHMGR-(tsm):0x1382 log alrm 12 to chmgr (rc=84) 
    [6/4 2:13:14] TSM-(tsm):Set SFM minor alarm 
    [6/4 2:13:14] TSM-(tsm):Change SW FAB state from SW_FAB_UP_9 to 
    SW_FAB_UP_8  
    !—The Etherscale supports one SFM in standby mode. The Terascale requires all 9 SFMs to be operationally active.[5/4 2:13:14] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:14] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    !—During a failure, check the Status LED.  
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):CheckSFMCardPower: tsmIsSfmPowerOn() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmHandleSfmError: Different error detected on SFM 1 (erro = 262163). SFM already 
    in SFM_ERROR state 
    [6/4 2:13:15] TSM-(tsm):SFM 1 ERR_DETECT event is confirmed 
    [6/4 2:13:15] TSM-(tsm):Receive SFM 1 SIMAB_DETECT event 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSFMReset: SFM 1 is not 
    accessible via scratch pad (SFM_FAITH_CR = 0) 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:16] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    [5/4 2:13:17] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
  • show sfm all
    Force10#sh sfm all 
    Switch Fabric State: up 
    -- Switch Fabric Modules -- Slot Status 
    --------------------------------------------------------------------------- 
    0 card problem (SFM Simba PSI access error) 
    1 active 
    2 active 
    3 active 
    4 active 
    5 active 
    6 active 
    7 active 
    8 active 

"SFM mislykkedes SW FAB portpipe diags"

Denne status skyldes typisk et hardwareproblem. Kontakt Force10 Networks TAC for at få hjælp til fejlfinding, før du anmoder om en RMA.
Force10#show chassis brief

Chassis Type  : E300

Chassis Mode  : TeraScale

Chassis Epoch : 10.4 micro-seconds

--  Line cards --

Slot  Status        NxtBoot    ReqTyp   CurTyp   Version     Ports
--------------------------------------------------------------------------- 
  0   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  1   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  2   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  3   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  4   online        online     E12PE3   E12PE3   5.3.1.2b    12  
  5   not present                    

--  Route Processor Modules --

Slot  Status        NxtBoot    Version 
--------------------------------------------------------------------------- 
0   active        online     5.3.1.2b 
1   not present

Switch Fabric State:  up

--  Switch Fabric Modules --

Slot  Status                    

---------------------------------------------------------------------------

  0   SW FAB diags failed  (Multiple SFMs failed SW FAB portpipe diags)

  1   active    

[output omitted]

 

En større alarm rapporteres under flere forhold. En sådan betingelse er overskridelse af SFM's sikre driftstemperatur, som detekteret af miljøovervågningshardware og -software. Kommandoen showenvironment kan registrere den høje temperaturtilstand ud over fejlmeddelelserne:

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-TEMP_SHUTDOWN_WARN: WARNING! SFM 6 temperature is 85C; approaching shutdown threshold of 80C)

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP: Major alarm: chassis temperature high (SFM temperature reaches or exceeds threshold of 75C)

Feb 27 04:52:21 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP_CLR: Major alarm cleared: chassis temperature lower (SFM 6 temperature is within threshold of 70C)

Når denne tilstand opstår, er SFM virkelig for varm, eller en sensor er ikke fungerende. Hvis direkte tilstødende SFM'er har normal temperatur, mistænkes en defekt sensor. Hvis direkte tilstødende SFM'er ikke har normal temperatur, mistænkes en ægte overophedningstilstand.

 

Når systemet registrerer en ægte overtemperaturtilstand, slukker det SFM'en, indtil den køler ned, og indtil softwaren bestemmer, at det er sikkert at tænde igen. Ved genstart rapporteres årsagen til nulstilling af SFM som "overtemperatur" af hardwaren. Hvis softwaren registrerer en overophedningshændelse og manuelt lukker SFM'en ned, rapporterer systemet en SFM-nulstillingsårsag på "remote power-off".


For at få vist de programmerede alarmtærskelniveauer skal du udføre kommandoen vis alarmtærskel :.
 

E600-TAC-3#show alarms threshold

-- Temperature Limits (deg C) --
-----------------------------------------------------------
Minor Minor Off Major Major Off Shutdown
Linecard 75 70 80 77 85
RPM 65 60 75 70 80
SFM 65 60 75 70 80

Benyt følgende fremgangsmåde til fejlfinding af denne betingelse:

  1. Kontroller, at en frontplade dækker alle slotte uden et linjekort. Uden sådanne plader kan der forekomme en høj temperaturtilstand inden for fem minutter. Reserveemner fås hos Force10 Networks.
  2. Sørg for, at kabinettet ikke placeres på gulvet. 
  3. Kontrollér, at der er tilstrækkelige kølefliser tæt på kabinettet.
  4. Hvis der er mistanke om en defekt sensor, skal du nulstille SFM eksternt med kommandoen "nulstil sfm-slotnummer". Hvis temperaturen virkelig er høj, vil SFM sandsynligvis ikke tænde og skal fjernes blot et par tommer, så kortet ikke længere opretter forbindelse til backplane og stadig tillader korrekt luftstrøm til resten af kabinettet.
    BEMÆRK: Denne kommando er kun tilgængelig i FTOS 6.5.4.0 og nyere samt i E-serien.
    BEMÆRK: Udvis forsigtighed, når du fjerner SFM; Hvis det er 85 grader, kan det være varmt at røre ved.
Nulstilling af den aktive SFM via kommandoen "reset sfm" kan medføre trafikforstyrrelser, og denne meddelelse:
Force10#reset sfm 0 
SFM 0 is active. Resetting it might temporarily impact traffic. 
Proceed with reset? Confirm [yes/no]:
 
SFM er slukket på grund af underspænding
 
I tilfælde af en strømsag slukker SFM typisk først. Se det separate dokument, Fejlfinding af lavenergiforhold, for at få flere oplysninger.
Force10>show sfm 3 
Switch Fabric State: up 
-- SFM card 3 -- 
Status : power off - SFM powered off due to under-voltage 
Card Type : SFM - Switch Fabric Module 
Up Time : 0 sec 
Temperature : 33C 
Power Status : PEM0: up PEM1: up 
Serial Number : 0012632 
Part Number : 7520003706 Rev A 
Vendor Id : 01 
Date Code : 01442003

Oplysninger, der skal indsamles, hvis du åbner en TAC-sag


Niveauet af oplysninger, der leveres til Force10 Networks' Technical Assistance Center (TAC), bestemmer de fejlfindingsdetaljer, som TAC kan levere.  Med begrænsede oplysninger anbefaler TAC normalt, at en SFM, der er indberettet i en fejlmeddelelse, genplaceres og nøje overvåger SFM. Hvis der igen opstår fejl på den lille vandforsyningsmekanisme, skal du kontakte TAC for at anmode om yderligere hjælp til fejlfinding.  Brug formularen Opret serviceanmodning på iSupport-siden, og inkluder følgende oplysninger, hvis de er tilgængelige:
  • Konsoloptagelser, der viser fejlmeddelelserne
  • Konsolregistreringer, der viser de fejlfindingstrin, der er taget, og startsekvensen under hvert trin
  • Gemte meddelelser på en syslog-server, hvis en sådan anvendes.
  • Output fra kommandoen Vis sporing
  • Output fra kommandoen show tech-support

Årsag

Løsning

Berørte produkter

Switches