スイッチ ファブリック モジュールのトラブルシューティング
摘要: スイッチ ファブリック モジュールのトラブルシューティング
本文适用于
本文不适用于
本文并非针对某种特定的产品。
本文并非包含所有产品版本。
症状
目次:
Eシリーズでは、SFMはフィールド交換可能ユニット(FRU)と呼ばれる専用コンポーネントです。Cシリーズでは、スイッチ ファブリックはRPMに統合されています。ただし、SFMを管理するためのFTOSコマンド(特に記載のない限り、このドキュメントで説明されているすべてのコマンドを含む)は、Cシリーズで役立ちます。
まれにですが、起動時またはアップグレード後にSFMが初期化に失敗したり、操作中に予期せず電源が切れたりすることがあります。このドキュメントでは、これらのケースについて説明します。
一般に、システム・トレースには、SFM リセットの 3 つの理由が表示されます。
RPMから「No working standby SFM」と報告された場合、スイッチはスタンバイSFMなしで実行されています。理由の1つとして、特定のスロットのSFMがリセット後にオンラインになっていないことが考えられます。このSFMがオンラインになると、マイナー アラームがクリアされ、シャーシ マネージャーが新しいSFMを検出し、シャーシとSFMの数に応じて、「Found X SFMs」というメッセージが表示されます
一般に、SFMの問題をトラブルシューティングするには、次の出力を収集することから始めます。
SFMがフラップするかマイナー アラーム状態を繰り返す場合は、システムに十分な電力が供給されていない可能性があります。この条件下では、システムは最初にSFMを停止します。各SFMには電圧しきい値が設定されており、その値に基づいて、対応するSFMが最初にダウンします。このSFMフラッピングのプロセスは、システムへの電圧が安定するまで発生します。十分な電力があるかどうかを判断するには、ブリックの故障が発生しているValere電力整流器があるかどうかを物理的に確認します。別のドキュメント「低電力状態のトラブルシューティング」も参照してください
以降のセクションでは、SFMの特定のエラーをトラブルシューティングする方法について説明します
一般的なアクセス エラー
SFMの一般的なアクセス エラーには、次の2つのタイプがあります。
これらのアクセス エラーは通常、ハードウェアの問題を示しています。
SFM で一般的なアクセス エラーが発生しているかどうかを判断するには、「SFM 3 で一般的なアクセス エラーが検出されました」など、関連する syslog メッセージを探します。
SFMの「Simba PSI」エラーは、通常、ハードウェアの問題を示しています。(シンバはSFM上のハードウェアチップを指します)。
「SFM failed SW FAB portpipe diags」
通常、このステータスはハードウェアの問題を示しています。RMAをリクエストする前に、Force10 Networks TACにトラブルシューティングを依頼してください。
電力低下の場合、SFMは通常、最初に電源をオフにします。 詳細については、別のドキュメント 「低電力状態のトラブルシューティング」を参照してください。
Force10 Networks のテクニカル アシスタンス センター(TAC)に提供される情報のレベルによって、TAC が提供できるトラブルシューティングの詳細が決まります。 情報が限られているため、TACは通常、エラーメッセージで報告されたSFMを抜き差しし、SFMを注意深く監視することを推奨します。SFMに再び障害が発生した場合は、TACに連絡して、さらにトラブルシューティングのサポートを依頼してください。 isupportページの[Create Service Request]フォームを使用して、次の情報を記載してください(可能な場合)。
- 概要
- 最後の電源切断理由の特定
- 症状のトラブルシューティング
- TACケースをオープンした場合に収集する情報
概要
このドキュメントは、主にEシリーズ システムのスイッチ ファブリック モジュール(SFM)のトラブルシューティングに関するものですが、CシリーズSFMにも適用できますEシリーズでは、SFMはフィールド交換可能ユニット(FRU)と呼ばれる専用コンポーネントです。Cシリーズでは、スイッチ ファブリックはRPMに統合されています。ただし、SFMを管理するためのFTOSコマンド(特に記載のない限り、このドキュメントで説明されているすべてのコマンドを含む)は、Cシリーズで役立ちます。
まれにですが、起動時またはアップグレード後にSFMが初期化に失敗したり、操作中に予期せず電源が切れたりすることがあります。このドキュメントでは、これらのケースについて説明します。
最後の電源切断理由の特定
システム トレース機能は、 show trace コマンドの出力に示されているように、SFM の電源がオフまたは再投入されたときに報告されます。次のタイトルのログ メッセージを探します。"Found SFM #, last power-cycle reason:", as highlighted below in a sample of show trace output.Force10#show trace 100 | grep SFM[2/19 13:18:59] RAM-(RpmAvailMgr):Send data sync msg (42) to task 4 SFM Config State ).[2/19 13:22:47] TSM-(tsm):Receive SFM 7 SFM_DETECT REMOVE event.[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: Remove SFM 7[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: SFM 7 is powered off.[2/19 13:22:48] TSM-(tsm):tsmSfmRemove: SFM 7 is powered on.[2/19 13:22:49] TSM-(tsm):Set SFM minor alarm[2/19 13:22:49] TSM-(tsm):tsmSfmRemove:8: SW FAB is good after removing SFM 7 [2/19 13:22:50] TSM-(tsm):Receive SFM 7 SFM_DETECT INSERT event. [2/19 13:22:50] TSM-(tsm):SFM 7 is reset with SFM Card insert event, bring up the card [2/19 13:22:50] TSM-(tsm):Found SFM 7, last power-cycle reason: power on with cause of DEFAULT [2/19 13:22:50] TSM-(tsm):TSM initilizes SFM 7... [2/19 13:22:51] ****** ERROR CHMGR-(chmgr):SFM 7 not present or bad slot id [2/19 13:22:52] TSM-(tsm):Clear SFM minor alarm [2/19 13:22:52] TSM-(tsm):tsmSfmAdd:8: LC is in service, no PP test. SFM 7 standby. numSfmFound = 9 [2/19 13:22:52] TSM-(tsm):Receive SFM 7 RESET_DETECT ASSERT event. [2/19 13:22:52] TSM-(tsm):SFM 7 reset is cleared, no action
一般に、システム・トレースには、SFM リセットの 3 つの理由が表示されます。
- remote-power-off – システムの再起動前と初期化時の両方で、システムの再起動時に SFM の電源がオフになってからオンになるため、最も頻繁に報告されます。reset sfm slot numberコマンドが実際にSFMの電源を再投入するため、「remote-power-off」の理由も報告されます。
注:このコマンドは、FTOS 6.5.4.0 以降と E シリーズでのみ使用できます。 - card-removed:SFMを取り外してから再挿入すると、 show trace の出力では、最後の電源サイクルの理由としてcard-removedが報告されます。ソフトウェアが内部バス経由で特定の情報を読み取れないことを検出し、この状態をSFMが削除されていると解釈した場合、このステータスは報告されません。
- スプリアス リセット
症状のトラブルシューティング
FTOS Chassis Manager (CHMGR)プロセスは、SFMの正常性とステータスを監視します。プロセスでSFMの問題が検出されると、RPM0はマイナー アラームを報告し、SFMをリストアするためにカードをリセットします。TSMプロセスでは、SFMが検出されたことが報告され、マイナー アラーム状態がクリアされます。RPMから「No working standby SFM」と報告された場合、スイッチはスタンバイSFMなしで実行されています。理由の1つとして、特定のスロットのSFMがリセット後にオンラインになっていないことが考えられます。このSFMがオンラインになると、マイナー アラームがクリアされ、シャーシ マネージャーが新しいSFMを検出し、シャーシとSFMの数に応じて、「Found X SFMs」というメッセージが表示されます
一般に、SFMの問題をトラブルシューティングするには、次の出力を収集することから始めます。
show trace show logging Dec 30 11:12:20 PST: %RPM0:CP %CHMGR-2-MINOR_SFM: Minor alarm: No working standby SFM Dec 30 11:12:20 PST: %RPM0:CP %TSM-2-SFM_RESET_PRESENT: SFM 2 reset unexpectedly Dec 30 11:12:22 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 2 Dec 30 11:12:23 PST: %RPM0:CP %CHMGR-5-MINOR_SFM_CLR: Minor alarm cleared: Working standby SFM present Dec 30 11:12:23 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found 9 SFMs show sfm all
SFMがフラップするかマイナー アラーム状態を繰り返す場合は、システムに十分な電力が供給されていない可能性があります。この条件下では、システムは最初にSFMを停止します。各SFMには電圧しきい値が設定されており、その値に基づいて、対応するSFMが最初にダウンします。このSFMフラッピングのプロセスは、システムへの電圧が安定するまで発生します。十分な電力があるかどうかを判断するには、ブリックの故障が発生しているValere電力整流器があるかどうかを物理的に確認します。別のドキュメント「低電力状態のトラブルシューティング」も参照してください
以降のセクションでは、SFMの特定のエラーをトラブルシューティングする方法について説明します
一般的なアクセス エラー
SFMの一般的なアクセス エラーには、次の2つのタイプがあります。
"m" - MDIO error "I" - I2C access error
これらのアクセス エラーは通常、ハードウェアの問題を示しています。
SFM で一般的なアクセス エラーが発生しているかどうかを判断するには、「SFM 3 で一般的なアクセス エラーが検出されました」など、関連する syslog メッセージを探します。
Feb Feb 19 04:44:02: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN Feb 19 04:44:02: %RPM0:CP %TSM-2-SFM_GENERAL_ACCESS_M: SFM 3 found general access error (type m) Feb 19 04:44:05: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 3 Feb 19 04:44:06: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: UP Feb 19 04:44:36: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN Feb 19 04:44:37: %RPM0:CP %CHMGR-0-MAJOR_SFM: Major alarm: Switch fabric down Feb 19 04:44:38: %RPM0:CP %TSM-2-SFM_UNDER_VOLT: SFM 3 powered off due to under voltage SFM Simba PSI access error
SFMの「Simba PSI」エラーは、通常、ハードウェアの問題を示しています。(シンバはSFM上のハードウェアチップを指します)。
-
show trace Output [6/4 2:13:13] TSM-(tsm):Receive SFM 1 ERR_DETECT event [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: Remove SFM 1 [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. [6/4 2:13:13] POLLER-(PM):doSfmSaSanErr: eventId=17, slotId=1, state=1, value[0]=0x1fd, value[1]=0x0 [6/4 2:13:14] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. [6/4 2:13:14] CHMGR-(chmgr):add min alrm 12 UNKNOWN 0 0 [6/4 2:13:14] CHMGR-(tsm):0x1382 log alrm 12 to chmgr (rc=84) [6/4 2:13:14] TSM-(tsm):Set SFM minor alarm [6/4 2:13:14] TSM-(tsm):Change SW FAB state from SW_FAB_UP_9 to SW_FAB_UP_8 !—The Etherscale supports one SFM in standby mode. The Terascale requires all 9 SFMs to be operationally active.[5/4 2:13:14] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. [5/4 2:13:14] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. !—During a failure, check the Status LED. [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: f10SysRpmSfmCardInfoGet() failed for SFM 1 power status [5/4 2:13:15] ****** ERROR TSM-(tsm):CheckSFMCardPower: tsmIsSfmPowerOn() failed for SFM 1 power status [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmHandleSfmError: Different error detected on SFM 1 (erro = 262163). SFM already in SFM_ERROR state [6/4 2:13:15] TSM-(tsm):SFM 1 ERR_DETECT event is confirmed [6/4 2:13:15] TSM-(tsm):Receive SFM 1 SIMAB_DETECT event [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSFMReset: SFM 1 is not accessible via scratch pad (SFM_FAITH_CR = 0) [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: Remove SFM 1 [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. [6/4 2:13:16] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. [5/4 2:13:17] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: f10SysRpmSfmCardInfoGet() failed for SFM 1 power status
-
show sfm all Force10#sh sfm all Switch Fabric State: up -- Switch Fabric Modules -- Slot Status --------------------------------------------------------------------------- 0 card problem (SFM Simba PSI access error) 1 active 2 active 3 active 4 active 5 active 6 active 7 active 8 active
「SFM failed SW FAB portpipe diags」
通常、このステータスはハードウェアの問題を示しています。RMAをリクエストする前に、Force10 Networks TACにトラブルシューティングを依頼してください。
Force10#show chassis brief Chassis Type : E300 Chassis Mode : TeraScale Chassis Epoch : 10.4 micro-seconds -- Line cards -- Slot Status NxtBoot ReqTyp CurTyp Version Ports --------------------------------------------------------------------------- 0 online online EX1YE3 EX1YE3 5.3.1.2b 1 1 online online EX1YE3 EX1YE3 5.3.1.2b 1 2 online online EX1YE3 EX1YE3 5.3.1.2b 1 3 online online EX1YE3 EX1YE3 5.3.1.2b 1 4 online online E12PE3 E12PE3 5.3.1.2b 12 5 not present -- Route Processor Modules -- Slot Status NxtBoot Version --------------------------------------------------------------------------- 0 active online 5.3.1.2b 1 not present Switch Fabric State: up -- Switch Fabric Modules -- Slot Status --------------------------------------------------------------------------- 0 SW FAB diags failed (Multiple SFMs failed SW FAB portpipe diags) 1 active [output omitted]
メジャー アラームは、いくつかの条件下で報告されます。このような状態の1つが、環境モニタリング ハードウェアおよびソフトウェアによって検出された、SFMの安全な動作温度を超えることです。showenvironmentコマンドは、エラーメッセージに加えて高温状態をキャプチャする場合があります。
Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-TEMP_SHUTDOWN_WARN: WARNING! SFM 6 temperature is 85C; approaching shutdown threshold of 80C) Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP: Major alarm: chassis temperature high (SFM temperature reaches or exceeds threshold of 75C) Feb 27 04:52:21 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP_CLR: Major alarm cleared: chassis temperature lower (SFM 6 temperature is within threshold of 70C)
この状態が発生している場合は、SFMが本当に熱くなりすぎているか、センサーが誤動作しています。すぐ隣のSFMの温度が正常な場合は、センサーが故障している疑いがあります。直隣のSFMが正常温度でない場合は、過熱状態が疑われます。
システムが真の過熱状態を検出すると、冷却され、ソフトウェアが安全に再投入できると判断するまで、SFMの電源をオフにします。電源を入れ直すと、SFMリセットの理由がハードウェアによって「過熱」として報告されます。ソフトウェアが過熱イベントを検出し、SFMを手動でシャットダウンすると、システムはSFMリセット理由として「リモート電源オフ」を報告します。
プログラムされたアラームしきい値レベルを表示するには、 show alarms threshold コマンドを実行します。
E600-TAC-3#show alarms threshold -- Temperature Limits (deg C) -- ----------------------------------------------------------- Minor Minor Off Major Major Off Shutdown Linecard 75 70 80 77 85 RPM 65 60 75 70 80 SFM 65 60 75 70 80
この状態をトラブルシューティングするには、次の手順を使用します。
- フェース プレートがライン カードのないすべてのスロットを覆っていることを確認します。このようなプレートがないと、5分以内に高温状態が発生する可能性があります。スペア ダミーは Force10 ネットワークから入手できます。
- シャーシが床に置かれていないことを確認します。
- シャーシの近くに十分な冷却タイルがあることを確認します。
- センサーの障害が疑われる場合は、 reset sfm slot number コマンドを使用してSFMをリモートでリセットします。温度が非常に高い場合は、SFMがオンにならない可能性があります。カードがバックプレーンに接続されなくなり、シャーシの残りの部分に適切なエアフローが確保されるように、SFMを数インチ取り外す必要があります。
メモ: このコマンドは、FTOS 6.5.4.0 以降と E シリーズでのみ使用できます。
メモ: SFMを取り外すときは注意してください。85度の場合は、触ると熱くなる可能性があります。
reset sfmコマンドを使用してアクティブなSFMをリセットすると、トラフィックが中断し、次のメッセージが表示される可能性があります。
Force10#reset sfm 0 SFM 0 is active. Resetting it might temporarily impact traffic. Proceed with reset? Confirm [yes/no]:
電圧不足によりSFMの電源がオフ
電力低下の場合、SFMは通常、最初に電源をオフにします。 詳細については、別のドキュメント 「低電力状態のトラブルシューティング」を参照してください。
Force10>show sfm 3 Switch Fabric State: up -- SFM card 3 -- Status : power off - SFM powered off due to under-voltage Card Type : SFM - Switch Fabric Module Up Time : 0 sec Temperature : 33C Power Status : PEM0: up PEM1: up Serial Number : 0012632 Part Number : 7520003706 Rev A Vendor Id : 01 Date Code : 01442003
TACケースをオープンした場合に収集する情報
Force10 Networks のテクニカル アシスタンス センター(TAC)に提供される情報のレベルによって、TAC が提供できるトラブルシューティングの詳細が決まります。 情報が限られているため、TACは通常、エラーメッセージで報告されたSFMを抜き差しし、SFMを注意深く監視することを推奨します。SFMに再び障害が発生した場合は、TACに連絡して、さらにトラブルシューティングのサポートを依頼してください。 isupportページの[Create Service Request]フォームを使用して、次の情報を記載してください(可能な場合)。
- エラー メッセージを表示するコンソール キャプチャ
- 実行されたトラブルシューティング手順と各手順中のブート シーケンスを示すコンソール キャプチャ
- Syslogサーバーに保存されたメッセージ(使用されている場合)。
- show trace コマンドの出力
- show tech-support コマンドの出力
原因
-
解决方案
-
受影响的产品
Switches文章属性
文章编号: 000133835
文章类型: Solution
上次修改时间: 29 7月 2025
版本: 5
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。