Fehlerbehebung beim Switch-Fabric-Modul
Summary: Fehlerbehebung beim Switch-Fabric-Modul
Symptoms
- Einführung
- Ermitteln des Grundes für das letzte Herunterfahren
- Troubleshooting-Symptome
- Zu erfassende Informationen, wenn Sie einen TAC-Fall eröffnen
Einführung
Dieses Dokument dient in erster Linie der Fehlerbehebung des Switch Fabric Module (SFM) auf einem System der E Serie, kann aber auch auf SFMs der C Serie angewendet werden.Bei der E-Serie ist das SFM eine separate Komponente, die als Field Replaceable Unit (FRU) bezeichnet wird. Bei der C-Serie ist die Switch-Fabric in das RPM integriert. Nichtsdestotrotz sind FTOS-Befehle für die Verwaltung des SFM, einschließlich aller in diesem Dokument beschriebenen Befehle, sofern nicht anders angegeben, auf der C-Serie nützlich.
In seltenen Fällen kann ein SFM beim Hochfahren oder nach einem Upgrade nicht initialisiert werden oder es kann während des Betriebs unerwartet ausgeschaltet werden. In diesem Dokument werden diese Fälle behandelt.
Ermitteln des Grundes für das letzte Herunterfahren
Die System-Trace-Funktion, wie in der Ausgabe des Befehls show trace gezeigt, meldet, wenn ein SFM aus- und wieder eingeschaltet wurde. Sie können nach Protokollmeldungen mit dem Titel"Found SFM #, last power-cycle reason:", as highlighted below in a sample of show trace output.Force10#show trace 100 | grep SFM[2/19 13:18:59] RAM-(RpmAvailMgr):Send data sync msg (42) to task 4 SFM Config State ).[2/19 13:22:47] TSM-(tsm):Receive SFM 7 SFM_DETECT REMOVE event.[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: Remove SFM 7[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: SFM 7 is powered off.[2/19 13:22:48] TSM-(tsm):tsmSfmRemove: SFM 7 is powered on.[2/19 13:22:49] TSM-(tsm):Set SFM minor alarm[2/19 13:22:49] TSM-(tsm):tsmSfmRemove:8: SW FAB is good after removing SFM 7 [2/19 13:22:50] TSM-(tsm):Receive SFM 7 SFM_DETECT INSERT event. [2/19 13:22:50] TSM-(tsm):SFM 7 is reset with SFM Card insert event, bring up the card [2/19 13:22:50] TSM-(tsm):Found SFM 7, last power-cycle reason: power on with cause of DEFAULT [2/19 13:22:50] TSM-(tsm):TSM initilizes SFM 7... [2/19 13:22:51] ****** ERROR CHMGR-(chmgr):SFM 7 not present or bad slot id [2/19 13:22:52] TSM-(tsm):Clear SFM minor alarm [2/19 13:22:52] TSM-(tsm):tsmSfmAdd:8: LC is in service, no PP test. SFM 7 standby. numSfmFound = 9 [2/19 13:22:52] TSM-(tsm):Receive SFM 7 RESET_DETECT ASSERT event. [2/19 13:22:52] TSM-(tsm):SFM 7 reset is cleared, no action
Im Allgemeinen zeigt der System-Trace drei Gründe für ein Zurücksetzen des SFM an:
- remote-power-off – Wird am häufigsten gemeldet, da der SFM beim Neustart des Systems aus- und wieder eingeschaltet wird, sowohl vor dem Neustart als auch erneut bei der Systeminitialisierung. Der Grund "remote-power-off" wird auch gemeldet, wenn der Befehl zum Zurücksetzen der SFM-Steckplatznummer ausgegeben wird, da dieser Befehl tatsächlich das SFM aus- und wieder einschaltet.
Hinweis: Dieser Befehl ist nur in FTOS 6.5.4.0 und höher sowie auf der E-Serie verfügbar. - card-removed – Wenn Sie ein SFM entfernen und dann wieder einsetzen, meldet die Ausgabe show trace card-removed als letzten Grund für das Aus- und Einschalten. Dieser Status wird nicht gemeldet, wenn die -Software feststellt, dass bestimmte Informationen über einen internen Bus nicht gelesen werden können, und diesen Status als entferntes SFM interpretiert.
- Falsche Zurücksetzung
Troubleshooting-Symptome
Der FTOS Chassis Manager (CHMGR)-Prozess überwacht den Funktionszustand und den Status des SFM. Wenn der Prozess ein Problem mit dem SFM erkennt, meldet RPM0 einen geringfügigen Alarm und setzt die Karte zurück, um das SFM wiederherzustellen. Der TSM-Prozess meldet, dass ein SFM gefunden wurde, und der geringfügige Alarmzustand wird gelöscht.Wenn der RPM meldet, dass das Standby-SFM nicht funktioniert, wird der Switch ohne den Stand-by-SFM ausgeführt. Ein Grund kann sein, dass ein SFM in einem bestimmten Steckplatz nach dem Zurücksetzen noch nicht online ist. Sobald dieses SFM online ist, wird der geringfügige Alarm gelöscht, der Gehäuse-Manager erkennt das neue SFM und je nach Gehäuse und Anzahl der SFMs wird die Meldung "X SFMs gefunden" angezeigt.
Um ein Problem mit dem SFM zu beheben, erfassen Sie im Allgemeinen zunächst die folgende Ausgabe:
show trace show logging Dec 30 11:12:20 PST: %RPM0:CP %CHMGR-2-MINOR_SFM: Minor alarm: No working standby SFM Dec 30 11:12:20 PST: %RPM0:CP %TSM-2-SFM_RESET_PRESENT: SFM 2 reset unexpectedly Dec 30 11:12:22 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 2 Dec 30 11:12:23 PST: %RPM0:CP %CHMGR-5-MINOR_SFM_CLR: Minor alarm cleared: Working standby SFM present Dec 30 11:12:23 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found 9 SFMs show sfm all
Wenn ein SFM klappert oder den kleinen Alarmzustand durchläuft, wird das System möglicherweise nicht ausreichend mit Strom versorgt. In diesem Fall fährt das System den SFM zuerst herunter. Jedes SFM ist mit einem Spannungsschwellenwert konfiguriert. Basierend auf diesem Wert wird der entsprechende SFM zuerst heruntergefahren. Dieser Prozess des SFM-Flatterns tritt auf, bis sich die Spannung zum System stabilisiert hat. Um festzustellen, ob ausreichend Strom vorhanden ist, überprüfen Sie physisch, ob bei einem der Valere-Leistungsgleichrichter ein Brick-Fehler vorliegt. Weitere Informationen finden Sie im separaten Dokument Troubleshooting bei Problemen mit geringer Stromversorgung.
In den folgenden Abschnitten wird erläutert, wie Sie bestimmte Fehler auf dem SFM beheben.
Allgemeine Zugriffsfehler
Es gibt zwei Arten von allgemeinen SFM-Zugriffsfehlern:
"m" - MDIO error "I" - I2C access error
Diese Zugriffsfehler weisen in der Regel auf ein Hardwareproblem hin.
Um festzustellen, ob bei Ihrem SFM ein allgemeiner Zugriffsfehler vorliegt, suchen Sie nach einer relevanten Syslog-Meldung, z. B. "SFM 3 found general access error".
Feb Feb 19 04:44:02: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN Feb 19 04:44:02: %RPM0:CP %TSM-2-SFM_GENERAL_ACCESS_M: SFM 3 found general access error (type m) Feb 19 04:44:05: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 3 Feb 19 04:44:06: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: UP Feb 19 04:44:36: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN Feb 19 04:44:37: %RPM0:CP %CHMGR-0-MAJOR_SFM: Major alarm: Switch fabric down Feb 19 04:44:38: %RPM0:CP %TSM-2-SFM_UNDER_VOLT: SFM 3 powered off due to under voltage SFM Simba PSI access error
Ein "Simba PSI"-Fehler auf dem SFM weist in der Regel auf ein Hardwareproblem hin. (Simba bezieht sich auf einen Hardwarechip auf dem SFM.)
-
show trace Output [6/4 2:13:13] TSM-(tsm):Receive SFM 1 ERR_DETECT event [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: Remove SFM 1 [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. [6/4 2:13:13] POLLER-(PM):doSfmSaSanErr: eventId=17, slotId=1, state=1, value[0]=0x1fd, value[1]=0x0 [6/4 2:13:14] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. [6/4 2:13:14] CHMGR-(chmgr):add min alrm 12 UNKNOWN 0 0 [6/4 2:13:14] CHMGR-(tsm):0x1382 log alrm 12 to chmgr (rc=84) [6/4 2:13:14] TSM-(tsm):Set SFM minor alarm [6/4 2:13:14] TSM-(tsm):Change SW FAB state from SW_FAB_UP_9 to SW_FAB_UP_8 !—The Etherscale supports one SFM in standby mode. The Terascale requires all 9 SFMs to be operationally active.[5/4 2:13:14] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. [5/4 2:13:14] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. !—During a failure, check the Status LED. [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: f10SysRpmSfmCardInfoGet() failed for SFM 1 power status [5/4 2:13:15] ****** ERROR TSM-(tsm):CheckSFMCardPower: tsmIsSfmPowerOn() failed for SFM 1 power status [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmHandleSfmError: Different error detected on SFM 1 (erro = 262163). SFM already in SFM_ERROR state [6/4 2:13:15] TSM-(tsm):SFM 1 ERR_DETECT event is confirmed [6/4 2:13:15] TSM-(tsm):Receive SFM 1 SIMAB_DETECT event [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSFMReset: SFM 1 is not accessible via scratch pad (SFM_FAITH_CR = 0) [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: Remove SFM 1 [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. [6/4 2:13:16] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. [5/4 2:13:17] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: f10SysRpmSfmCardInfoGet() failed for SFM 1 power status
-
show sfm all Force10#sh sfm all Switch Fabric State: up -- Switch Fabric Modules -- Slot Status --------------------------------------------------------------------------- 0 card problem (SFM Simba PSI access error) 1 active 2 active 3 active 4 active 5 active 6 active 7 active 8 active
"SFM fehlgeschlagene SW FAB Portpipe-Diagnosen"
In der Regel weist dieser Status auf ein Hardwareproblem hin. Wenden Sie sich an den TAC von Force10 Networks, um Unterstützung beim Troubleshooting zu erhalten, bevor Sie eine RMA anfordern.
Force10#show chassis brief Chassis Type : E300 Chassis Mode : TeraScale Chassis Epoch : 10.4 micro-seconds -- Line cards -- Slot Status NxtBoot ReqTyp CurTyp Version Ports --------------------------------------------------------------------------- 0 online online EX1YE3 EX1YE3 5.3.1.2b 1 1 online online EX1YE3 EX1YE3 5.3.1.2b 1 2 online online EX1YE3 EX1YE3 5.3.1.2b 1 3 online online EX1YE3 EX1YE3 5.3.1.2b 1 4 online online E12PE3 E12PE3 5.3.1.2b 12 5 not present -- Route Processor Modules -- Slot Status NxtBoot Version --------------------------------------------------------------------------- 0 active online 5.3.1.2b 1 not present Switch Fabric State: up -- Switch Fabric Modules -- Slot Status --------------------------------------------------------------------------- 0 SW FAB diags failed (Multiple SFMs failed SW FAB portpipe diags) 1 active [output omitted]
Ein Major-Alarm wird unter mehreren Bedingungen gemeldet. Eine dieser Bedingungen ist die Überschreitung der sicheren SFM-Betriebstemperatur, wie sie von der Hardware und Software für die Umgebungsüberwachung erkannt wird. Der Befehl showenvironment kann den Zustand mit hoher Temperatur zusätzlich zu den Fehlermeldungen erfassen:
Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-TEMP_SHUTDOWN_WARN: WARNING! SFM 6 temperature is 85C; approaching shutdown threshold of 80C) Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP: Major alarm: chassis temperature high (SFM temperature reaches or exceeds threshold of 75C) Feb 27 04:52:21 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP_CLR: Major alarm cleared: chassis temperature lower (SFM 6 temperature is within threshold of 70C)
Wenn dieser Zustand auftritt, ist entweder der SFM wirklich zu heiß oder ein Sensor ist defekt. Wenn direkt benachbarte SFMs normale Temperatur haben, vermuten Sie einen fehlerhaften Sensor. Wenn die direkt angrenzenden SFMs keine normale Temperatur haben, vermuten Sie eine echte Überhitzung.
Wenn das System eine echte Übertemperatur erkennt, schaltet es das SFM aus, bis es abgekühlt ist und bis die Software feststellt, dass es sicher wieder eingeschaltet werden kann. Beim erneuten Einschalten wird der Grund für das Zurücksetzen des SFM von der Hardware als "Übertemperatur" gemeldet. Wenn die Software das Übertemperaturereignis erkennt und das SFM manuell herunterfährt, meldet das System als Grund für das Zurücksetzen des SFM den Punkt "Remote-Ausschalten".
Um die programmierten Alarmschwellenwerte anzuzeigen, führen Sie den Befehl show alarms threshold aus:.
E600-TAC-3#show alarms threshold -- Temperature Limits (deg C) -- ----------------------------------------------------------- Minor Minor Off Major Major Off Shutdown Linecard 75 70 80 77 85 RPM 65 60 75 70 80 SFM 65 60 75 70 80
Führen Sie die folgenden Schritte aus, um diesen Zustand zu beheben:
- Stellen Sie sicher, dass eine Frontplatte alle Steckplätze ohne Leitungskarte abdeckt. Ohne solche Platten kann es innerhalb von fünf Minuten zu einem Hochtemperaturzustand kommen. Ersatzplatzhalter sind von Force10 Networks erhältlich.
- Stellen Sie sicher, dass das Gehäuse nicht auf dem Boden liegt.
- Stellen Sie sicher, dass sich in der Nähe des Gehäuses genügend Kühlungskacheln befinden.
- Wenn ein fehlerhafter Sensor vermutet wird, setzen Sie das SFM remote mit dem Befehl reset sfm slot number zurück. Wenn die Temperatur wirklich hoch ist, lässt sich das SFM wahrscheinlich nicht einschalten und sollte nur wenige Zentimeter entfernt werden, damit die Karte nicht mehr mit der Rückwandplatine verbunden ist und weiterhin einen ordnungsgemäßen Luftstrom für den Rest des Gehäuses ermöglicht.
HINWEIS: Dieser Befehl ist nur in FTOS 6.5.4.0 und höher sowie auf der E-Serie verfügbar.
HINWEIS: Gehen Sie beim Entfernen des SFM vorsichtig vor. Wenn es 85 Grad hat, könnte es sich heiß anfühlen.
Das Zurücksetzen des aktiven SFM über den Befehl "sfm reset" kann zu einer Unterbrechung des Datenverkehrs führen. Es wird folgende Meldung angezeigt:
Force10#reset sfm 0 SFM 0 is active. Resetting it might temporarily impact traffic. Proceed with reset? Confirm [yes/no]:
SFM ist aufgrund von Unterspannung
ausgeschaltetIm Falle eines Stromabbruchs schaltet sich das SFM in der Regel zuerst aus. Weitere Informationen finden Sie im separaten Dokument Troubleshooting bei Energiesparaktivitäten.
Force10>show sfm 3 Switch Fabric State: up -- SFM card 3 -- Status : power off - SFM powered off due to under-voltage Card Type : SFM - Switch Fabric Module Up Time : 0 sec Temperature : 33C Power Status : PEM0: up PEM1: up Serial Number : 0012632 Part Number : 7520003706 Rev A Vendor Id : 01 Date Code : 01442003
Zu erfassende Informationen, wenn Sie einen TAC-Fall eröffnen
Der Umfang der Informationen, die dem Technical Assistance Center (TAC) von Force10 Networks zur Verfügung gestellt werden, bestimmt die Details zur Fehlerbehebung, die TAC bereitstellen kann. Bei begrenzten Informationen empfiehlt der TAC in der Regel, ein in einer Fehlermeldung gemeldetes SFM neu einzusetzen und das SFM genau zu überwachen. Wenn SFM erneut fehlschlägt, wenden Sie sich an TAC, um weitere Unterstützung beim Troubleshooting anzufordern. Verwenden Sie das Formular zum Erstellen eines Service-Requests auf der iSupport-Seite und geben Sie, falls verfügbar, die folgenden Informationen an:
- Konsolenerfassungen mit den Fehlermeldungen
- Konsolenaufnahmen, die die während der einzelnen Schritte unternommenen Schritte zur Fehlerbehebung und die Startreihenfolge zeigen
- Gespeicherte Meldungen auf einem Syslog-Server, falls einer verwendet wird.
- Ausgabe des Befehls show trace
- Ausgabe des Befehls show tech-support