Felsöka switchstrukturmodulen
Summary: Felsöka switchstrukturmodulen
Symptoms
- Introduktion
- Ta reda på den senaste orsaken till avstängningen
- Felsökning av symptom
- Information som ska samlas in om du öppnar ett TAC-ärende
Introduktion
Det här dokumentet är främst avsett för felsökning av Switch Fabric Module (SFM) på ett E-Series-system, men det kan även tillämpas på C-Series SFM:er.I E-serien är SFM en diskret komponent som kallas för en enhet som kan bytas ute i fält (Field Replaceable Unit, FRU). I C-serien är switchstrukturen integrerad i varvtalet. Icke desto mindre är FTOS-kommandon för hantering av SFM, inklusive alla de som beskrivs i detta dokument, om inte annat anges, användbara på C-serien.
I sällsynta fall kan en SFM inte initieras vid start eller efter en uppgradering, eller så kan den stängas av oväntat under drift. Detta dokument tar upp dessa fall.
Ta reda på den senaste orsaken till avstängningen
Systemets spårningsfunktion, som du ser i utdata från kommandot show trace , rapporterar när en SFM har stängts av eller startats om. Du kan söka efter loggmeddelanden med titeln"Found SFM #, last power-cycle reason:", as highlighted below in a sample of show trace output.Force10#show trace 100 | grep SFM[2/19 13:18:59] RAM-(RpmAvailMgr):Send data sync msg (42) to task 4 SFM Config State ).[2/19 13:22:47] TSM-(tsm):Receive SFM 7 SFM_DETECT REMOVE event.[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: Remove SFM 7[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: SFM 7 is powered off.[2/19 13:22:48] TSM-(tsm):tsmSfmRemove: SFM 7 is powered on.[2/19 13:22:49] TSM-(tsm):Set SFM minor alarm[2/19 13:22:49] TSM-(tsm):tsmSfmRemove:8: SW FAB is good after removing SFM 7 [2/19 13:22:50] TSM-(tsm):Receive SFM 7 SFM_DETECT INSERT event. [2/19 13:22:50] TSM-(tsm):SFM 7 is reset with SFM Card insert event, bring up the card [2/19 13:22:50] TSM-(tsm):Found SFM 7, last power-cycle reason: power on with cause of DEFAULT [2/19 13:22:50] TSM-(tsm):TSM initilizes SFM 7... [2/19 13:22:51] ****** ERROR CHMGR-(chmgr):SFM 7 not present or bad slot id [2/19 13:22:52] TSM-(tsm):Clear SFM minor alarm [2/19 13:22:52] TSM-(tsm):tsmSfmAdd:8: LC is in service, no PP test. SFM 7 standby. numSfmFound = 9 [2/19 13:22:52] TSM-(tsm):Receive SFM 7 RESET_DETECT ASSERT event. [2/19 13:22:52] TSM-(tsm):SFM 7 reset is cleared, no action
I allmänhet visar systemspårningen tre orsaker till en SFM-återställning:
- fjärravstängning – Rapporteras oftast eftersom SFM stängs av och slås på när systemet startas om, både före omstart och igen vid systeminitiering. En orsak till "fjärravstängning" rapporteras också när kommandot för att återställa sfm-kortplatsnummer utfärdas, eftersom detta kommando faktiskt startar om SFM.
Obs! Det här kommandot är endast tillgängligt i FTOS 6.5.4.0 och senare samt i E-serien. - card-removed – Om du tar bort och sedan sätter in en SFM igen kommer show trace-utdata att rapportera card-removed som den senaste orsaken till omstarten. Denna status rapporteras inte när programvaran upptäcker en oförmåga att läsa viss information över en intern buss och tolkar detta tillstånd som att SFM tas bort.
- Falsk återställning
Felsökning av symptom
Processen FTOS Chassis Manager (CHMGR) övervakar SFM:ens hälsa och status. När processen upptäcker ett problem med SFM rapporterar RPM0 ett mindre larm och återställer kortet i ett försök att återställa SFM. TSM-processen rapporterar att en SFM har hittats och att det mindre larmtillståndet har åtgärdats.När varvtalet rapporterar "Ingen fungerande SFM i viloläge" körs omkopplaren utan SFM i viloläge. En orsak kan vara att en SFM i en viss kortplats ännu inte är online efter återställning. När denna SFM aktiveras rensas det mindre larmet, chassiansvarig detekterar den nya SFM:en och, beroende på chassit och antalet SFM:er, visas meddelandet "Found X SFMs".
Om du vill felsöka ett problem med SFM börjar du i allmänhet med att samla in följande utdata:
show trace show logging Dec 30 11:12:20 PST: %RPM0:CP %CHMGR-2-MINOR_SFM: Minor alarm: No working standby SFM Dec 30 11:12:20 PST: %RPM0:CP %TSM-2-SFM_RESET_PRESENT: SFM 2 reset unexpectedly Dec 30 11:12:22 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 2 Dec 30 11:12:23 PST: %RPM0:CP %CHMGR-5-MINOR_SFM_CLR: Minor alarm cleared: Working standby SFM present Dec 30 11:12:23 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found 9 SFMs show sfm all
Om en SFM flaxar eller cyklar genom det mindre larmtillståndet kanske systemet inte får tillräckligt med ström. Under detta tillstånd tar systemet ned SFM först. Varje SFM är konfigurerad med en spänningströskel, och baserat på det värdet kommer motsvarande SFM att gå ner först. Denna process med SFM-flaxning sker tills spänningen till systemet stabiliseras. För att avgöra om det finns tillräckligt med ström, kontrollera fysiskt om några Valere-kraftlikriktare upplever ett tegelfel. Se även det separata dokumentet Felsöka lågenergiförhållanden.
I följande avsnitt beskrivs hur du felsöker specifika fel på SFM.
Allmänna åtkomstfel
Det finns två typer av allmänna SFM-åtkomstfel:
"m" - MDIO error "I" - I2C access error
Dessa åtkomstfel pekar vanligtvis på ett maskinvaruproblem.
För att avgöra om din SFM har ett allmänt åtkomstfel letar du efter ett relevant syslog-meddelande, till exempel "SFM 3 hittade allmänt åtkomstfel".
Feb Feb 19 04:44:02: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN Feb 19 04:44:02: %RPM0:CP %TSM-2-SFM_GENERAL_ACCESS_M: SFM 3 found general access error (type m) Feb 19 04:44:05: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 3 Feb 19 04:44:06: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: UP Feb 19 04:44:36: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN Feb 19 04:44:37: %RPM0:CP %CHMGR-0-MAJOR_SFM: Major alarm: Switch fabric down Feb 19 04:44:38: %RPM0:CP %TSM-2-SFM_UNDER_VOLT: SFM 3 powered off due to under voltage SFM Simba PSI access error
Ett "Simba PSI"-fel på SFM pekar vanligtvis på ett maskinvaruproblem. (Simba hänvisar till en hårdvarukrets på SFM.)
-
show trace Output [6/4 2:13:13] TSM-(tsm):Receive SFM 1 ERR_DETECT event [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: Remove SFM 1 [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. [6/4 2:13:13] POLLER-(PM):doSfmSaSanErr: eventId=17, slotId=1, state=1, value[0]=0x1fd, value[1]=0x0 [6/4 2:13:14] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. [6/4 2:13:14] CHMGR-(chmgr):add min alrm 12 UNKNOWN 0 0 [6/4 2:13:14] CHMGR-(tsm):0x1382 log alrm 12 to chmgr (rc=84) [6/4 2:13:14] TSM-(tsm):Set SFM minor alarm [6/4 2:13:14] TSM-(tsm):Change SW FAB state from SW_FAB_UP_9 to SW_FAB_UP_8 !—The Etherscale supports one SFM in standby mode. The Terascale requires all 9 SFMs to be operationally active.[5/4 2:13:14] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. [5/4 2:13:14] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. !—During a failure, check the Status LED. [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: f10SysRpmSfmCardInfoGet() failed for SFM 1 power status [5/4 2:13:15] ****** ERROR TSM-(tsm):CheckSFMCardPower: tsmIsSfmPowerOn() failed for SFM 1 power status [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmHandleSfmError: Different error detected on SFM 1 (erro = 262163). SFM already in SFM_ERROR state [6/4 2:13:15] TSM-(tsm):SFM 1 ERR_DETECT event is confirmed [6/4 2:13:15] TSM-(tsm):Receive SFM 1 SIMAB_DETECT event [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSFMReset: SFM 1 is not accessible via scratch pad (SFM_FAITH_CR = 0) [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: Remove SFM 1 [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. [6/4 2:13:16] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. [5/4 2:13:17] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: f10SysRpmSfmCardInfoGet() failed for SFM 1 power status
-
show sfm all Force10#sh sfm all Switch Fabric State: up -- Switch Fabric Modules -- Slot Status --------------------------------------------------------------------------- 0 card problem (SFM Simba PSI access error) 1 active 2 active 3 active 4 active 5 active 6 active 7 active 8 active
"SFM misslyckades med SW FAB-portrörsdiag"
Vanligtvis beror den här statusen på ett maskinvaruproblem. Kontakta Force10 Networks TAC för felsökningshjälp innan du begär en RMA.
Force10#show chassis brief Chassis Type : E300 Chassis Mode : TeraScale Chassis Epoch : 10.4 micro-seconds -- Line cards -- Slot Status NxtBoot ReqTyp CurTyp Version Ports --------------------------------------------------------------------------- 0 online online EX1YE3 EX1YE3 5.3.1.2b 1 1 online online EX1YE3 EX1YE3 5.3.1.2b 1 2 online online EX1YE3 EX1YE3 5.3.1.2b 1 3 online online EX1YE3 EX1YE3 5.3.1.2b 1 4 online online E12PE3 E12PE3 5.3.1.2b 12 5 not present -- Route Processor Modules -- Slot Status NxtBoot Version --------------------------------------------------------------------------- 0 active online 5.3.1.2b 1 not present Switch Fabric State: up -- Switch Fabric Modules -- Slot Status --------------------------------------------------------------------------- 0 SW FAB diags failed (Multiple SFMs failed SW FAB portpipe diags) 1 active [output omitted]
Ett större larm rapporteras under flera förhållanden. Ett sådant tillstånd är att överskrida den SFM-säkra driftstemperaturen, som detekteras av maskinvara och programvara för miljöövervakning. Kommandot showenvironment kan fånga högtemperaturtillståndet utöver felmeddelandena:
Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-TEMP_SHUTDOWN_WARN: WARNING! SFM 6 temperature is 85C; approaching shutdown threshold of 80C) Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP: Major alarm: chassis temperature high (SFM temperature reaches or exceeds threshold of 75C) Feb 27 04:52:21 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP_CLR: Major alarm cleared: chassis temperature lower (SFM 6 temperature is within threshold of 70C)
När detta tillstånd inträffar är antingen SFM verkligen för varm eller så har en sensor inte fungerat. Om direkt intilliggande SFM:er har normal temperatur, misstänker du en felaktig sensor. Om direkt intilliggande SFM inte har normal temperatur, misstänker du ett genuint överhettningstillstånd.
När systemet upptäcker ett verkligt övertemperaturtillstånd stänger det av SFM tills det svalnat och tills programvaran fastställer att det är säkert att starta om. Vid omstart kommer orsaken till SFM-återställningen att rapporteras som "övertemperatur" av hårdvaran. Om programvaran upptäcker en överhettningshändelse och stänger av SFM manuellt, kommer systemet att rapportera en SFM-återställningsorsak "fjärravstängning".
Till view de programmerade larmtröskelnivåerna, utför kommandot visa larmtröskel:
E600-TAC-3#show alarms threshold -- Temperature Limits (deg C) -- ----------------------------------------------------------- Minor Minor Off Major Major Off Shutdown Linecard 75 70 80 77 85 RPM 65 60 75 70 80 SFM 65 60 75 70 80
Använd följande steg för att felsöka det här tillståndet:
- Kontrollera att en frontplatta täcker alla kortplatser utan linjekort. Utan sådana plattor kan ett högtemperaturtillstånd inträffa inom fem minuter. Reservämnen är tillgängliga från Force10 Networks.
- Se till att chassit inte placeras på golvet.
- Kontrollera att det finns tillräckligt med kylplattor nära chassit.
- Om en felaktig sensor misstänks, återställ SFM på distans med kommandot reset sfm slot number . Om temperaturen verkligen är hög kommer SFM förmodligen inte att slås på och bör tas bort bara några centimeter så att kortet inte längre ansluts till bakplanet och fortfarande tillåter korrekt luftflöde för resten av chassit.
OBS! Det här kommandot är endast tillgängligt i FTOS 6.5.4.0 och senare samt i E-serien.
OBS! Var försiktig när du tar bort SFM; Om det är 85 grader varmt kan det vara varmt vid beröring.
Om du återställer den aktiva SFM:en via kommandot reset sfm kan det leda till trafikstörningar och det här meddelandet:
Force10#reset sfm 0 SFM 0 is active. Resetting it might temporarily impact traffic. Proceed with reset? Confirm [yes/no]:
SFM stängs av på grund av underspänningstillstånd
I händelse av en strömsänkning stängs SFM vanligtvis av först. Mer information finns i det separata dokumentet Felsöka lågenergiförhållanden.
Force10>show sfm 3 Switch Fabric State: up -- SFM card 3 -- Status : power off - SFM powered off due to under-voltage Card Type : SFM - Switch Fabric Module Up Time : 0 sec Temperature : 33C Power Status : PEM0: up PEM1: up Serial Number : 0012632 Part Number : 7520003706 Rev A Vendor Id : 01 Date Code : 01442003
Information som ska samlas in om du öppnar ett TAC-ärende
Nivån på den information som lämnas till Force10 Networks Technical Assistance Center (TAC) avgör vilken felsökningsinformation TAC kan tillhandahålla. Med begränsad information rekommenderar TAC normalt att man sätter tillbaka en SFM som rapporterats i ett felmeddelande och noggrant övervakar SFM. Om SFM misslyckas igen kontaktar du TAC för att begära ytterligare felsökningshjälp. Använd formuläret Skapa tjänstebegäran på isupport-sidan och inkludera följande information om sådan finns:
- Konsolavbildningar som visar felmeddelanden
- Konsolbilder som visar de felsökningssteg som vidtagits och startsekvensen under varje steg
- Sparade meddelanden på en syslog-server, om en sådan används.
- Utdata från kommandot show trace
- Utdata från kommandot show tech-support