Rozwiązywanie problemów z modułem struktury przełącznika
Summary: Rozwiązywanie problemów z modułem struktury przełącznika
Symptoms
- Wprowadzenie
- Określanie ostatniej przyczyny wyłączenia zasilania
- Rozwiązywanie problemów — objawy
- Informacje, które należy zebrać w przypadku otwarcia sprawy TAC
Wprowadzenie
Ten dokument służy głównie do rozwiązywania problemów z modułem struktury przełączników (SFM) w systemach z serii E, ale może być również stosowany do modułów SFM z serii C.W serii E SFM jest elementem dyskretnym, nazywanym modułem wymienianym na miejscu (FRU). W serii C struktura przełącznika jest zintegrowana z RPM. Niemniej jednak polecenia FTOS służące do zarządzania SFM, w tym wszystkie polecenia opisane w tym dokumencie, z wyjątkiem przypadków, w których zaznaczono inaczej, są przydatne w przypadku serii C.
W rzadkich przypadkach inicjalizacja SFM kończy się niepowodzeniem podczas rozruchu lub po uaktualnieniu albo może nieoczekiwanie wyłączać się podczas pracy. Niniejszy dokument dotyczy takich przypadków.
Określanie ostatniej przyczyny wyłączenia zasilania
Funkcja śledzenia systemu, jak pokazano w wyniku polecenia show trace , zgłasza wyłączenie lub wyłączenie i włączenie zasilania modułu SFM. Można wyszukać komunikaty dziennika zatytułowane"Found SFM #, last power-cycle reason:", as highlighted below in a sample of show trace output.Force10#show trace 100 | grep SFM[2/19 13:18:59] RAM-(RpmAvailMgr):Send data sync msg (42) to task 4 SFM Config State ).[2/19 13:22:47] TSM-(tsm):Receive SFM 7 SFM_DETECT REMOVE event.[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: Remove SFM 7[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: SFM 7 is powered off.[2/19 13:22:48] TSM-(tsm):tsmSfmRemove: SFM 7 is powered on.[2/19 13:22:49] TSM-(tsm):Set SFM minor alarm[2/19 13:22:49] TSM-(tsm):tsmSfmRemove:8: SW FAB is good after removing SFM 7 [2/19 13:22:50] TSM-(tsm):Receive SFM 7 SFM_DETECT INSERT event. [2/19 13:22:50] TSM-(tsm):SFM 7 is reset with SFM Card insert event, bring up the card [2/19 13:22:50] TSM-(tsm):Found SFM 7, last power-cycle reason: power on with cause of DEFAULT [2/19 13:22:50] TSM-(tsm):TSM initilizes SFM 7... [2/19 13:22:51] ****** ERROR CHMGR-(chmgr):SFM 7 not present or bad slot id [2/19 13:22:52] TSM-(tsm):Clear SFM minor alarm [2/19 13:22:52] TSM-(tsm):tsmSfmAdd:8: LC is in service, no PP test. SFM 7 standby. numSfmFound = 9 [2/19 13:22:52] TSM-(tsm):Receive SFM 7 RESET_DETECT ASSERT event. [2/19 13:22:52] TSM-(tsm):SFM 7 reset is cleared, no action
Ogólnie rzecz biorąc, śledzenie systemu wyświetla trzy powody resetowania SFM:
- remote-power-off — zgłaszane najczęściej, ponieważ SFM jest wyłączany i włączany po ponownym uruchomieniu systemu, zarówno przed ponownym uruchomieniem, jak i ponownie podczas inicjalizacji systemu. Powód "remote-power-off" jest również zgłaszany po wydaniu polecenia resetowania numeru gniazda sfm , ponieważ polecenie to w rzeczywistości powoduje wyłączenie i ponowne włączenie modułu SFM.
Uwaga: To polecenie jest dostępne tylko w systemie FTOS 6.5.4.0 i nowszych wersjach oraz w serii E. - card-removed — po wyjęciu, a następnie ponownym włożeniu SFM, wyjście show trace zgłosi wyjęcie karty jako ostatnią przyczynę wyłączenia i wyłączenia zasilania. Ten stan nie jest zgłaszany, gdy oprogramowanie wykryje niemożność odczytania pewnych informacji przez magistralę wewnętrzną i zinterpretuje ten stan jako usunięcie modułu SFM.
- Fałszywy reset
Rozwiązywanie problemów — objawy
Proces FTOS Chassis Manager (CHMGR) monitoruje kondycję i stan SFM. Gdy proces wykryje problem z SFM, RPM0 zgłasza drobny alarm i resetuje kartę, próbując przywrócić SFM. Proces TSM zgłasza wykrycie SFM i usunięcie pomniejszego stanu alarmowego.Gdy RPM zgłasza komunikat "No working standby SFM", przełącznik pracuje bez trybu gotowości SFM. Jednym z powodów może być to, że moduł SFM w danym gnieździe nie jest jeszcze online po zresetowaniu. Gdy ten moduł SFM przejdzie w tryb online, dodatkowy alarm zostanie anulowany, menedżer obudowy wykryje nowy moduł SFM i w zależności od obudowy i liczby modułów SFM wyświetlony zostanie komunikat "Znaleziono X modułów SFM".
Ogólnie, aby rozwiązać problem z SFM, zacznij od przechwycenia następujących danych wyjściowych:
show trace show logging Dec 30 11:12:20 PST: %RPM0:CP %CHMGR-2-MINOR_SFM: Minor alarm: No working standby SFM Dec 30 11:12:20 PST: %RPM0:CP %TSM-2-SFM_RESET_PRESENT: SFM 2 reset unexpectedly Dec 30 11:12:22 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 2 Dec 30 11:12:23 PST: %RPM0:CP %CHMGR-5-MINOR_SFM_CLR: Minor alarm cleared: Working standby SFM present Dec 30 11:12:23 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found 9 SFMs show sfm all
Jeśli moduł SFM wyłączy się lub przejdzie przez drobny stan alarmowy, system może nie otrzymywać wystarczającej mocy. W tym przypadku system najpierw wyłącza SFM. Każdy moduł SFM ma skonfigurowany próg napięcia i w oparciu o tę wartość odpowiadający mu moduł SFM zostanie wyłączony jako pierwszy. Ten proces trzepotania SFM zachodzi do momentu ustabilizowania się napięcia w systemie. Aby ustalić, czy jest wystarczająca moc, fizycznie sprawdź, czy w którymkolwiek prostowniku mocy Valere nie występuje awaria cegły. Zapoznaj się również z oddzielnym dokumentem Rozwiązywanie problemów z niskim poborem mocy.
W poniższych sekcjach wyjaśniono, jak rozwiązywać określone błędy w SFM.
Ogólne błędy
dostępuIstnieją dwa rodzaje ogólnych błędów dostępu SFM:
"m" - MDIO error "I" - I2C access error
Te błędy dostępu zwykle wskazują na problem ze sprzętem.
Aby ustalić, czy w SFM występuje ogólny błąd dostępu, poszukaj odpowiedniego komunikatu dziennika systemowego, takiego jak "SFM 3 found general access error".
Feb Feb 19 04:44:02: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN Feb 19 04:44:02: %RPM0:CP %TSM-2-SFM_GENERAL_ACCESS_M: SFM 3 found general access error (type m) Feb 19 04:44:05: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 3 Feb 19 04:44:06: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: UP Feb 19 04:44:36: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN Feb 19 04:44:37: %RPM0:CP %CHMGR-0-MAJOR_SFM: Major alarm: Switch fabric down Feb 19 04:44:38: %RPM0:CP %TSM-2-SFM_UNDER_VOLT: SFM 3 powered off due to under voltage SFM Simba PSI access error
Błąd "Simba PSI" w SFM zazwyczaj wskazuje na problem ze sprzętem. (Simba odnosi się do chipa sprzętowego w SFM).
-
show trace Output [6/4 2:13:13] TSM-(tsm):Receive SFM 1 ERR_DETECT event [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: Remove SFM 1 [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. [6/4 2:13:13] POLLER-(PM):doSfmSaSanErr: eventId=17, slotId=1, state=1, value[0]=0x1fd, value[1]=0x0 [6/4 2:13:14] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. [6/4 2:13:14] CHMGR-(chmgr):add min alrm 12 UNKNOWN 0 0 [6/4 2:13:14] CHMGR-(tsm):0x1382 log alrm 12 to chmgr (rc=84) [6/4 2:13:14] TSM-(tsm):Set SFM minor alarm [6/4 2:13:14] TSM-(tsm):Change SW FAB state from SW_FAB_UP_9 to SW_FAB_UP_8 !—The Etherscale supports one SFM in standby mode. The Terascale requires all 9 SFMs to be operationally active.[5/4 2:13:14] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. [5/4 2:13:14] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. !—During a failure, check the Status LED. [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: f10SysRpmSfmCardInfoGet() failed for SFM 1 power status [5/4 2:13:15] ****** ERROR TSM-(tsm):CheckSFMCardPower: tsmIsSfmPowerOn() failed for SFM 1 power status [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmHandleSfmError: Different error detected on SFM 1 (erro = 262163). SFM already in SFM_ERROR state [6/4 2:13:15] TSM-(tsm):SFM 1 ERR_DETECT event is confirmed [6/4 2:13:15] TSM-(tsm):Receive SFM 1 SIMAB_DETECT event [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSFMReset: SFM 1 is not accessible via scratch pad (SFM_FAITH_CR = 0) [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: Remove SFM 1 [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. [6/4 2:13:16] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. [5/4 2:13:17] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: f10SysRpmSfmCardInfoGet() failed for SFM 1 power status
-
show sfm all Force10#sh sfm all Switch Fabric State: up -- Switch Fabric Modules -- Slot Status --------------------------------------------------------------------------- 0 card problem (SFM Simba PSI access error) 1 active 2 active 3 active 4 active 5 active 6 active 7 active 8 active
"SFM failed SW FAB portpipe diags"
Zazwyczaj ten stan wskazuje na problem ze sprzętem. Skontaktuj się z Force10 Networks TAC, aby uzyskać pomoc w rozwiązywaniu problemów przed złożeniem wniosku o RMA.
Force10#show chassis brief Chassis Type : E300 Chassis Mode : TeraScale Chassis Epoch : 10.4 micro-seconds -- Line cards -- Slot Status NxtBoot ReqTyp CurTyp Version Ports --------------------------------------------------------------------------- 0 online online EX1YE3 EX1YE3 5.3.1.2b 1 1 online online EX1YE3 EX1YE3 5.3.1.2b 1 2 online online EX1YE3 EX1YE3 5.3.1.2b 1 3 online online EX1YE3 EX1YE3 5.3.1.2b 1 4 online online E12PE3 E12PE3 5.3.1.2b 12 5 not present -- Route Processor Modules -- Slot Status NxtBoot Version --------------------------------------------------------------------------- 0 active online 5.3.1.2b 1 not present Switch Fabric State: up -- Switch Fabric Modules -- Slot Status --------------------------------------------------------------------------- 0 SW FAB diags failed (Multiple SFMs failed SW FAB portpipe diags) 1 active [output omitted]
Poważny alarm jest zgłaszany pod kilkoma warunkami. Jednym z takich warunków jest przekroczenie bezpiecznej temperatury roboczej SFM, wykrytej przez sprzęt i oprogramowanie monitorujące środowisko. Polecenie showenvironment może przechwytywać stan wysokiej temperatury oprócz komunikatów o błędach:
Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-TEMP_SHUTDOWN_WARN: WARNING! SFM 6 temperature is 85C; approaching shutdown threshold of 80C) Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP: Major alarm: chassis temperature high (SFM temperature reaches or exceeds threshold of 75C) Feb 27 04:52:21 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP_CLR: Major alarm cleared: chassis temperature lower (SFM 6 temperature is within threshold of 70C)
Gdy występuje taka sytuacja, oznacza to, że albo SFM jest naprawdę zbyt gorący, albo czujnik uległ awarii. Jeśli bezpośrednio przylegające SFM mają normalną temperaturę, należy podejrzewać wadliwy czujnik. Jeśli bezpośrednio przylegające SFM nie mają normalnej temperatury, należy podejrzewać prawdziwy stan przegrzania.
Gdy system wykryje rzeczywistą przegrzanie, wyłącza SFM do momentu ostygnięcia i do momentu, gdy oprogramowanie stwierdzi, że ponowne włączenie jest bezpieczne. Po ponownym włączeniu zasilania przyczyna resetowania SFM zostanie zgłoszona przez sprzęt jako "nadmierna temperatura". Jeśli oprogramowanie wykryje zdarzenie przegrzania i ręcznie wyłączy SFM, system zgłosi przyczynę "zdalnego wyłączenia" zresetowania SFM.
Aby wyświetlić zaprogramowane poziomy progów alarmowych, wykonaj polecenie show alarms threshold :
E600-TAC-3#show alarms threshold -- Temperature Limits (deg C) -- ----------------------------------------------------------- Minor Minor Off Major Major Off Shutdown Linecard 75 70 80 77 85 RPM 65 60 75 70 80 SFM 65 60 75 70 80
Aby rozwiązać ten problem, wykonaj następujące czynności:
- Sprawdź, czy płyta czołowa zakrywa wszystkie gniazda bez karty liniowej. Bez takich płyt stan wysokiej temperatury może wystąpić w ciągu pięciu minut. Zapasowe zaślepki są dostępne w Force10 Networks.
- Upewnij się, że obudowa nie jest umieszczona na podłodze.
- Upewnij się, że w pobliżu obudowy znajduje się wystarczająca ilość płytek chłodzących.
- Jeśli podejrzewa się wadliwy czujnik, zresetuj SFM zdalnie za pomocą polecenia resetowania numeru gniazdasfm. Jeśli temperatura jest naprawdę wysoka, moduł SFM prawdopodobnie się nie włączy i należy go wyjąć zaledwie o kilka centymetrów, aby karta nie łączyła się już z płytą backplane i nadal umożliwiała prawidłowy przepływ powietrza dla reszty obudowy.
Uwaga: To polecenie jest dostępne tylko w systemie FTOS 6.5.4.0 i nowszych wersjach oraz w serii E.
Uwaga: Zachowaj ostrożność podczas wyjmowania SFM; Jeśli jest 85 stopni, może być gorący w dotyku.
Zresetowanie aktywnej SFM za pomocą polecenia reset sfm może spowodować zakłócenie ruchu, a ten komunikat:
Force10#reset sfm 0 SFM 0 is active. Resetting it might temporarily impact traffic. Proceed with reset? Confirm [yes/no]:
SFM jest wyłączony z powodu zbyt niskiego napięcia
W przypadku spadku mocy SFM zazwyczaj wyłącza się jako pierwszy. Więcej informacji można znaleźć w osobnym dokumencie Rozwiązywanie problemów z niskim poborem mocy.
Force10>show sfm 3 Switch Fabric State: up -- SFM card 3 -- Status : power off - SFM powered off due to under-voltage Card Type : SFM - Switch Fabric Module Up Time : 0 sec Temperature : 33C Power Status : PEM0: up PEM1: up Serial Number : 0012632 Part Number : 7520003706 Rev A Vendor Id : 01 Date Code : 01442003
Informacje, które należy zebrać w przypadku otwarcia sprawy TAC
Poziom informacji dostarczanych do Centrum Pomocy Technicznej (TAC) Force10 Networks określa szczegóły rozwiązywania problemów, które może zapewnić TAC. W przypadku ograniczonych informacji TAC zaleca ponowne osadzenie modułu SFM zgłoszonego w komunikacie o błędzie i ścisłe monitorowanie modułu SFM. Jeśli moduł SFM ponownie ulegnie awarii, skontaktuj się z TAC, aby uzyskać dalszą pomoc w rozwiązywaniu problemów. Skorzystaj z formularza Utwórz zgłoszenie serwisowe na stronie isupport i podaj następujące informacje, jeśli są dostępne:
- Przechwytywanie konsoli z komunikatami o błędach
- Przechwytywanie konsoli pokazujące podjęte kroki rozwiązywania problemów i sekwencję rozruchu podczas każdego kroku
- Zapisywanie komunikatów na serwerze syslog, jeśli jest używany.
- Dane wyjściowe polecenia show trace
- Dane wyjściowe polecenia show tech-support