Connectrix:Cisco MDS9700 DS-X9448-768K9: リンク障害 リンクのリセットに失敗し、ポートの障害後に表示される空でないrecvキュー エラー
概要: Cisco MDS9700 DS-X9448-768K9: リンク障害 リンクのリセットに失敗し、ポートのhwfailureの後に表示される空でないrecvキュー エラー。
現象
- LC の 2 番目の ASIC のポート 9 〜 12 に障害が発生し、hwfailure エラーが発生しました。ポートfc13-16(同じASIC上)がパケットをドロップしてスイッチで輻輳が発生していましたが、これらのポート(13-16)は障害として表示されませんでした。
- 影響を受けるラインカードは、48ポート16 GbpsアドバンストFCモジュール(DS-X9448-768K9)です
原因
この問題は、次の問題が原因で発生します:
CSCuw59045> MDS9700 DS-X9448-768K9 - xbar同期が失われると、8つのポートすべてに障害が発生する必要がある。
症状:
内部ハードウェア障害の後、フレームの破損またはドロップ、あるいはその両方が4ポートのブロックで発生します。次のSyslogメッセージは、ハードウェア障害を示します。
ポートASIC/ファブリック リンク ハードウェア障害の例:
MODULE-4-MOD_WARNING: Module 4 (Serial number: JAE180605XF) reported warning fc4/9-12due to SAC sync lost in device DEV_LOCAL_SAC_ASIC (device error 0xc9101200) CALLHOME-2-EVENT: MODULE_WARNING MODULE-2-MOD_SOMEPORTS_FAILED: Module 4 (Serial number: JAE180605XF) reported failure on ports fc4/9-12 (Fibre Channel) due to Local serial link syncing exception in device DEV_LOCAL_SAC_ASIC (device error 0xc9101204)
次のポート ハードウェア障害エラーがログに記録されます。
PORT-5-IF_DOWN_HW_FAILURE: %$VSAN 101%$ Interface fc4/12 is down (Hardware Failure) vmax CALLHOME-2-EVENT: PORT_FAILURE PORT-5-IF_DOWN_HW_FAILURE: %$VSAN 101%$ Interface fc4/11 is down (Hardware Failure) server1 PORT-5-IF_DOWN_HW_FAILURE: %$VSAN 101%$ Interface fc4/10 is down (Hardware Failure) server2 PORT-5-IF_DOWN_HW_FAILURE: %$VSAN 1%$ Interface fc4/9 is down (Hardware Failure) ISL
この障害が発生すると、NX-OS によって、影響を受けるポート ASIC の 8 つのポートすべてではなく、4 つのポートのみが「hwFailure」状態に設定されます。影響を受ける残りの 4 つのポートは有効のままになりますが、低速ドレイン ポートとして動作します。これが発生すると、show logging onboard レコードで次のカウンタが増加します。
fc1/5 |F16_TMM_TOLB_TIMEOUT_DROP_CNT |13025 |01/01/16
その他の症状には、関連性のないインターフェイスでのリンクのリセットとリンクのリセットの失敗が含まれます。これらのエラーは、無効になっていない 4 つのポート宛てのトラフィックが原因で発生します。
PORT-5-IF_DOWN_LINK_FAILURE: %$VSAN 101%$ Interface fc8/47 is down (Link failure Link Reset failed nonempty recv queue) server3 VSAN 101%$ Interface fc8/32 is down (Link failure Link Reset failed nonempty recv queue) server4
条件:
この問題は、MDS 9700 DS-X9448-768K9ラインカードで内部ファブリック リンク障害が発生した後にのみ発生します。
解決方法
- ASIC上の8つのポートのうち4つだけがhwfailureを示しているかどうかを確認します
- 「Link failure Link Reset failed nonempty recv queue」エラーが他のインターフェイスでストリーミングされているかどうかを確認します。これらのポート エラーは、スイッチの輻輳の症状であり、根本原因ではありません
回避策:
ステップ 1:障害が発生した ASIC の残りの 4 つのポートを手動でシャットダウンして、データの損失や破損を防ぎます。
Gen 5ポート グループ: (xは影響を受けるLCスロット番号)
FCX/1-8
fcx/9-16
fcx/17-24
fcx/25-32
fcx/33-40
fcx/41-48
手順2 - 影響を受けるラインカードを交換します。
その他の情報
影響を受ける既知のリリース:
- 6.2(1)
- 6.2(11)
- 6.2(11a)
- 6.2(11b)
- 6.2(11c)
- 6.2(11日)
- 6.2(13)
- 6.2(13a)
- 6.2(3)
- 6.2(5)
- 6.2(7)
- 6.2(9)
- 6.2(9a)
- 6.2(9b)
- 6.2(9c)
この問題の予防的回避策については、Dellサポートにお問い合わせください。