Odstraňování problémů s modulem Switch Fabric
Summary: Odstraňování problémů s modulem Switch Fabric
Symptoms
- Úvod
- Určení posledního důvodu vypnutí napájení
- Odstraňování problémů s příznaky
- Informace, které je třeba shromáždit, pokud otevřete případ TAC
Úvod
Tento dokument je primárně určen pro odstraňování problémů s modulem SFM (Switch Fabric Module) v systému řady E, ale lze jej použít i pro SFM řady C.V řadě E je SFM samostatná komponenta, která se nazývá jednotka vyměnitelná v terénu (FRU). U řady C je topologie spínače integrována do otáček za minutu. Příkazy FTOS pro správu SFM, včetně všech příkazů popsaných v tomto dokumentu, pokud není uvedeno jinak, jsou však užitečné u řady C.
Ve vzácných případech se SFM nepodaří inicializovat při spuštění nebo po upgradu nebo se může během provozu neočekávaně vypnout. Tento dokument se těmito případy zabývá.
Určení posledního důvodu vypnutí napájení
Funkce trasování systému, jak je znázorněno ve výstupu příkazu show trace , hlásí, kdy byl modul SFM vypnut nebo restartován. Můžete hledat zprávy protokolu s názvem"Found SFM #, last power-cycle reason:", as highlighted below in a sample of show trace output.Force10#show trace 100 | grep SFM[2/19 13:18:59] RAM-(RpmAvailMgr):Send data sync msg (42) to task 4 SFM Config State ).[2/19 13:22:47] TSM-(tsm):Receive SFM 7 SFM_DETECT REMOVE event.[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: Remove SFM 7[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: SFM 7 is powered off.[2/19 13:22:48] TSM-(tsm):tsmSfmRemove: SFM 7 is powered on.[2/19 13:22:49] TSM-(tsm):Set SFM minor alarm[2/19 13:22:49] TSM-(tsm):tsmSfmRemove:8: SW FAB is good after removing SFM 7 [2/19 13:22:50] TSM-(tsm):Receive SFM 7 SFM_DETECT INSERT event. [2/19 13:22:50] TSM-(tsm):SFM 7 is reset with SFM Card insert event, bring up the card [2/19 13:22:50] TSM-(tsm):Found SFM 7, last power-cycle reason: power on with cause of DEFAULT [2/19 13:22:50] TSM-(tsm):TSM initilizes SFM 7... [2/19 13:22:51] ****** ERROR CHMGR-(chmgr):SFM 7 not present or bad slot id [2/19 13:22:52] TSM-(tsm):Clear SFM minor alarm [2/19 13:22:52] TSM-(tsm):tsmSfmAdd:8: LC is in service, no PP test. SFM 7 standby. numSfmFound = 9 [2/19 13:22:52] TSM-(tsm):Receive SFM 7 RESET_DETECT ASSERT event. [2/19 13:22:52] TSM-(tsm):SFM 7 reset is cleared, no action
Obecně platí, že trasování systému zobrazí tři důvody pro resetování SFM:
- vzdálené vypnutí – Nejčastěji se hlásí od chvíle, kdy se SFM vypne a zapne při restartování systému, a to jak před restartováním, tak znovu při inicializaci systému. Při zadání příkazu pro resetování čísla slotu SFM je také hlášen důvod "remote power-off", protože tento příkaz ve skutečnosti SFM vypne a zapne.
Poznámka: Tento příkaz je k dispozici pouze ve verzích FTOS 6.5.4.0 a novějších a u řady E. - card-removed – Pokud odeberete a znovu vložíte modul SFM, výstup trasování show nahlásí jako poslední důvod vypnutí a zapnutí odebranou kartu. Tento stav není hlášen, když software zjistí nemožnost přečíst určité informace přes interní sběrnici a interpretuje tento stav jako odstranění SFM.
- Falešné resetování
Odstraňování problémů s příznaky
Proces FTOS Chassis Manager (CHMGR) monitoruje stav a stav SFM. Když proces zjistí problém s modulem SFM, RPM0 ohlásí menší výstrahu a resetuje kartu ve snaze obnovit režim SFM. Proces TSM hlásí, že byl nalezen SFM a menší stav alarmu je vymazán.Když RPM hlásí "No working standby SFM", přepínač běží bez pohotovostního režimu SFM. Jedním z důvodů může být to, že SFM v určitém slotu ještě není po resetování online. Jakmile se tento SFM přepne do režimu online, pak je menší alarm vymazán, správce šasi detekuje nový SFM a v závislosti na šasi a počtu SFM se zobrazí zpráva "Found X SFMs".
Obecně platí, že při řešení problémů s nástrojem SFM začněte zachycením následujícího výstupu:
show trace show logging Dec 30 11:12:20 PST: %RPM0:CP %CHMGR-2-MINOR_SFM: Minor alarm: No working standby SFM Dec 30 11:12:20 PST: %RPM0:CP %TSM-2-SFM_RESET_PRESENT: SFM 2 reset unexpectedly Dec 30 11:12:22 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 2 Dec 30 11:12:23 PST: %RPM0:CP %CHMGR-5-MINOR_SFM_CLR: Minor alarm cleared: Working standby SFM present Dec 30 11:12:23 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found 9 SFMs show sfm all
Pokud SFM klopí nebo prochází menším alarmovým stavem, systém nemusí mít dostatečný výkon. Za těchto podmínek systém nejprve vypne SFM. Každý SFM je nakonfigurován s prahovou hodnotou napětí a na základě této hodnoty se odpovídající SFM sníží jako první. Tento proces klapání SFM probíhá, dokud se napětí do systému nestabilizuje. Chcete-li zjistit, zda je k dispozici dostatečný výkon, fyzicky ověřte, zda u některých usměrňovačů výkonu Valere nedochází k selhání cihly. Viz také samostatný dokument Odstraňování problémů s nízkou spotřebou.
Následující části vysvětlují, jak odstranit konkrétní chyby v SFM.
Obecné chyby
přístupuExistují dva typy obecných chyb přístupu SFM:
"m" - MDIO error "I" - I2C access error
Tyto chyby přístupu obvykle ukazují na problém s hardwarem.
Chcete-li zjistit, zda v systému SFM dochází k obecné chybě přístupu, vyhledejte příslušnou zprávu syslog, například "SFM 3 found general access error".
Feb Feb 19 04:44:02: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN Feb 19 04:44:02: %RPM0:CP %TSM-2-SFM_GENERAL_ACCESS_M: SFM 3 found general access error (type m) Feb 19 04:44:05: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 3 Feb 19 04:44:06: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: UP Feb 19 04:44:36: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN Feb 19 04:44:37: %RPM0:CP %CHMGR-0-MAJOR_SFM: Major alarm: Switch fabric down Feb 19 04:44:38: %RPM0:CP %TSM-2-SFM_UNDER_VOLT: SFM 3 powered off due to under voltage SFM Simba PSI access error
Chyba "Simba PSI" v SFM obvykle ukazuje na problém s hardwarem. (Simba označuje hardwarový čip v SFM.)
-
show trace Output [6/4 2:13:13] TSM-(tsm):Receive SFM 1 ERR_DETECT event [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: Remove SFM 1 [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. [6/4 2:13:13] POLLER-(PM):doSfmSaSanErr: eventId=17, slotId=1, state=1, value[0]=0x1fd, value[1]=0x0 [6/4 2:13:14] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. [6/4 2:13:14] CHMGR-(chmgr):add min alrm 12 UNKNOWN 0 0 [6/4 2:13:14] CHMGR-(tsm):0x1382 log alrm 12 to chmgr (rc=84) [6/4 2:13:14] TSM-(tsm):Set SFM minor alarm [6/4 2:13:14] TSM-(tsm):Change SW FAB state from SW_FAB_UP_9 to SW_FAB_UP_8 !—The Etherscale supports one SFM in standby mode. The Terascale requires all 9 SFMs to be operationally active.[5/4 2:13:14] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. [5/4 2:13:14] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. !—During a failure, check the Status LED. [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: f10SysRpmSfmCardInfoGet() failed for SFM 1 power status [5/4 2:13:15] ****** ERROR TSM-(tsm):CheckSFMCardPower: tsmIsSfmPowerOn() failed for SFM 1 power status [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmHandleSfmError: Different error detected on SFM 1 (erro = 262163). SFM already in SFM_ERROR state [6/4 2:13:15] TSM-(tsm):SFM 1 ERR_DETECT event is confirmed [6/4 2:13:15] TSM-(tsm):Receive SFM 1 SIMAB_DETECT event [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSFMReset: SFM 1 is not accessible via scratch pad (SFM_FAITH_CR = 0) [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: Remove SFM 1 [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. [6/4 2:13:16] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. [5/4 2:13:17] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: f10SysRpmSfmCardInfoGet() failed for SFM 1 power status
-
show sfm all Force10#sh sfm all Switch Fabric State: up -- Switch Fabric Modules -- Slot Status --------------------------------------------------------------------------- 0 card problem (SFM Simba PSI access error) 1 active 2 active 3 active 4 active 5 active 6 active 7 active 8 active
"SFM selhala s diagnostikou portpipe SW FAB"
Tento stav obvykle označuje problém s hardwarem. Než požádáte o RMA, obraťte se na TAC společnosti Force10 Networks a požádejte o pomoc s odstraňováním problémů.
Force10#show chassis brief Chassis Type : E300 Chassis Mode : TeraScale Chassis Epoch : 10.4 micro-seconds -- Line cards -- Slot Status NxtBoot ReqTyp CurTyp Version Ports --------------------------------------------------------------------------- 0 online online EX1YE3 EX1YE3 5.3.1.2b 1 1 online online EX1YE3 EX1YE3 5.3.1.2b 1 2 online online EX1YE3 EX1YE3 5.3.1.2b 1 3 online online EX1YE3 EX1YE3 5.3.1.2b 1 4 online online E12PE3 E12PE3 5.3.1.2b 12 5 not present -- Route Processor Modules -- Slot Status NxtBoot Version --------------------------------------------------------------------------- 0 active online 5.3.1.2b 1 not present Switch Fabric State: up -- Switch Fabric Modules -- Slot Status --------------------------------------------------------------------------- 0 SW FAB diags failed (Multiple SFMs failed SW FAB portpipe diags) 1 active [output omitted]
Velký poplach je hlášen za několika podmínek. Jedním z takových stavů je překročení bezpečné provozní teploty SFM, jak ji detekuje hardware a software pro monitorování prostředí. Příkaz showenvironment může kromě chybových zpráv zachytit také vysokou teplotu:
Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-TEMP_SHUTDOWN_WARN: WARNING! SFM 6 temperature is 85C; approaching shutdown threshold of 80C) Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP: Major alarm: chassis temperature high (SFM temperature reaches or exceeds threshold of 75C) Feb 27 04:52:21 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP_CLR: Major alarm cleared: chassis temperature lower (SFM 6 temperature is within threshold of 70C)
Pokud k tomuto stavu dochází, buď je SFM skutečně příliš horký, nebo došlo k poruše senzoru. Pokud mají přímo sousedící SFM normální teplotu, máte podezření na vadný snímač. Pokud přímo sousedící SFM nemají normální teplotu, máte podezření na skutečné přehřátí.
Když systém zjistí skutečnou přehřívání, vypne modul SFM, dokud nevychladne a dokud software neurčí, že je bezpečné jej znovu zapnout. Po opětovném zapnutí bude hardware hlásit důvod resetování SFM jako "přehřátí". Pokud software detekuje přehřátí a ručně vypne modul SFM, systém nahlásí reset modulu SFM jako důvod "vzdálené vypnutí".
Na view naprogramované prahové úrovně alarmů, spusťte příkaz show alarms threshold :.
E600-TAC-3#show alarms threshold -- Temperature Limits (deg C) -- ----------------------------------------------------------- Minor Minor Off Major Major Off Shutdown Linecard 75 70 80 77 85 RPM 65 60 75 70 80 SFM 65 60 75 70 80
K řešení tohoto problému použijte následující postup:
- Ověřte, zda čelní deska zakrývá všechny sloty bez linkové karty. Bez těchto desek může během pěti minut dojít k vysoké teplotě. Náhradní záslepky jsou k dispozici od společnosti Force10 Networks.
- Zkontrolujte, zda šasi neleží na podlaze.
- Ověřte dostatek chladicích dlaždic v blízkosti šasi.
- Pokud existuje podezření na vadný snímač, resetujte SFM na dálku pomocí příkazu reset sfm slot number . Pokud je teplota opravdu vysoká, pak se SFM pravděpodobně nezapne a měl by být odstraněn jen o pár centimetrů, aby se karta již nepřipojovala k backplane a stále umožňovala správné proudění vzduchu pro zbytek šasi.
POZNÁMKA: Tento příkaz je k dispozici pouze ve verzích FTOS 6.5.4.0 a novějších a u řady E.
POZNÁMKA: Při vyjímání SFM buďte opatrní; Pokud je 85 stupňů, může být na dotek horký.
Resetování aktivního modulu SFM pomocí příkazu reset sfm může způsobit přerušení přenosu a tato zpráva:
Force10#reset sfm 0 SFM 0 is active. Resetting it might temporarily impact traffic. Proceed with reset? Confirm [yes/no]:
SFM je vypnutý kvůli podpětí
V případě poklesu výkonu se SFM obvykle nejprve vypne. Další podrobnosti naleznete v samostatném dokumentu Odstraňování problémů s nízkou spotřebou.
Force10>show sfm 3 Switch Fabric State: up -- SFM card 3 -- Status : power off - SFM powered off due to under-voltage Card Type : SFM - Switch Fabric Module Up Time : 0 sec Temperature : 33C Power Status : PEM0: up PEM1: up Serial Number : 0012632 Part Number : 7520003706 Rev A Vendor Id : 01 Date Code : 01442003
Informace, které je třeba shromáždit, pokud otevřete případ TAC
Úroveň informací poskytovaných Centru technické pomoci (TAC) společnosti Force10 Networks určuje podrobnosti o odstraňování problémů, které může TAC poskytnout. Vzhledem k omezeným informacím TAC obvykle doporučuje znovu usadit SFM nahlášený v chybové zprávě a pečlivě jej sledovat. Pokud SFM selže znovu, obraťte se na TAC a požádejte o další pomoc s odstraňováním problémů. Použijte prosím formulář pro vytvoření servisního požadavku na stránce isupport a uveďte následující informace, jsou-li k dispozici:
- Zachycení z konzole s chybovými zprávami
- Záznam konzole s kroky odstraňování problémů a spouštěcí sekvencí během každého kroku
- Uložené zprávy na server syslog, pokud je použit.
- Výstup příkazu show trace
- Výstup příkazu "show tech-support"