Connectrix:Fibre Channelノードをトラブルシューティングして、ポートまたはSFP通信の問題を排除する方法(セルフヘルプ)」
Summary: この記事では、ファイバ チャネル ノードとスイッチ ポート/SFPとの通信の問題を、消去法でトラブルシューティングする方法を説明します。
Symptoms
ファイバ チャネル ノードとスイッチ ポート/SFPとの通信の問題を、消去法を用いてトラブルシューティングする方法
プロアクティブなSFP交換が多すぎる
リンク障害
Gポート
ライトが点灯しない
Not Operationalシーケンス(NOS)
Off Lineシーケンス(OLS)
信号の損失
SFPの障害
FCポートのトラブルシューティング
FCポートのエラー
Cause
問題がSFPまたはスイッチの外部にあるにもかかわらず、プロアクティブに交換されたSFPが多すぎる。
Resolution
この問題を解決するには、次の手順に従います。
- 通信障害に関連するノードとスイッチ ポートを特定します。
- スイッチ ポートが管理上アップしていること(ブロックされていない、シャットダウンされていない)、または有効であることを確認します。
- 続行する前に、接続されたデバイスに利用可能な冗長パスがあることを確認してください。
- SFPが問題である可能性を排除するには、次の手順を実行します。
- スイッチの空きポートを確認します。
- スイッチの特定された空きポートを無効にします。
- 調査対象のポートから、前の手順で新しく無効にした空きポートにケーブルを移動します。
- 無効なポートを有効な状態(または管理上アップ)に変更し、デバイスをオンラインに戻します。
- スイッチの統計情報/カウンターをクリア/ゼロにリセットします。
Brocadeについては、次のKBAを参照してください。
Ciscoについては、次のKBAを参照してください。
Connectrix - Cisco MDSシリーズ:MDSのインターフェイス カウンターとASICカウンターをクリアする方法(英語)
- それぞれのコマンドを使用して、ポートを4〜6時間監視します。
結果:
- エラー カウンターが増加した場合、問題はスイッチの外部にあるため、お客様/ユーザー/SAN管理者に次のことを通知する必要があります。
-
- 新しいSFPポートとケーブルのクリーニングが必要です(汚れたケーブルによるSFPの汚染を防ぐために、プロ用のクリーニング キットの使用を検討してください)。
- 接続されているデバイスは、そのデバイスをサポートする担当者がさらに調査する必要があります。
- Ciscoスイッチで、カウンターが増加せずに「errdisabled」状態に戻った場合は、さらなるバックエンド調査のためにSRを作成する必要があります。
- エラーが増加しない(またはCiscoスイッチのErrdisabled状態が復帰しない)場合、以前のポートのSFPに欠陥があるため、ログ出力、SFPの詳細(SMまたはMM、速度など)を含む前述の分析結果を提供して、SFP交換のSRを発行します。
Additional Information
ハードウェアの障害は、単純なアルゴリズムを問題に適用すると簡単に切り分けることができます。このハードウェアが原因でなければ、他のハードウェアが原因です。障害を引き起こしているハードウェアを特定できるまで、これを繰り返します。
BROCADEの例:
「Connectrix B-Series:Brocadeのporterrshowの出力を解釈する方法と、カウンターの意味セルフヘルプ
例1 LINK FAILとLOSS SYNCを伴うENC OUT:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 2.3m 0 4 6 0 0 0 0 0 0
一般的な理由:
過去24時間以内にポート統計情報がクリアされている場合のみ有効です。それ以外の場合は、これらのカウンターを履歴として分類します。ポート統計情報をクリアし(前掲の手順9を参照)、カウンターを確認し、4~6時間後にデータを再取得します。
エラーからは、link fail、loss of sync、さらにenc outエラーが確認できます。これにはloss sigエラーも含まれる場合があります。
これらのエラーの組み合わせは、通常はホストの再起動またはスイッチの外部でのリンク リセットを示しています。enc outエラーは、リンク初期化の一環である速度ネゴシエーション中に発生します。
想定されるアクション:
ポートに接続されたデバイスがオフラインまたはオンラインになる正当な理由があったことを確認します(例:ホストの再起動)。確認できない場合は、SRを発行します。
例2 ENC OUT:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 2.3m 0 0 0 0 0 0 0 0 0
一般的な理由:
過去24時間以内にポート統計情報がクリアされている場合のみ有効です。それ以外の場合は、これらのカウンターを履歴として分類します。ポート統計情報をクリアし(前掲の手順9を参照)、カウンターを確認し、4~6時間後にデータを再取得します。
関連エラーのないEnc outエラーは、ケーブルが汚れていることを示しています。
想定されるアクション:
このポートに接続されているケーブルとSFP、および接続されているデバイスのすべての光学面を点検し、クリーニングします。
例3 CRCおよびCRC G_EOF:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 1.2k 1.2k 0 0 0 0 0 0 0 0 0 0 0 0 0
一般的な理由:
過去24時間以内にポート統計情報がクリアされている場合のみ有効です。それ以外の場合は、これらのカウンターを履歴として分類します。ポート統計情報をクリアし(前掲の手順9を参照)、カウンターを確認し、4~6時間後にデータを再取得します。
フレームはCRC不良の状態でスイッチ ポートに入ってきますが、フレームの終端は依然として正常とマークされています。
これは、このポートが不良フレームを登録する最初のポートであり、この特定のポートのSFP/ケーブル/接続デバイス インターフェイスのいずれかに問題があることを示しています。
想定されるアクション:
解決策のデフォルトのアクションを参照してください。
ISLポートの場合は、統計情報をクリアし(前掲の手順9を参照)、カウンターを確認し、4~6時間後に両方のスイッチからsupportsavesを収集し、通常のトラブルシューティングのためにSRを作成します。
例4 CRC:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 1.2k 0 0 0 0 0 0 0 0 0 0 0 0 0 0
一般的な理由:
過去24時間以内にポート統計情報がクリアされている場合のみ有効です。それ以外の場合は、これらのカウンターを履歴として分類します。ポート統計情報をクリアし(前掲の手順9を参照)、カウンターを確認し、4~6時間後にデータを再取得します。
ポートは、CRC不良の状態でスイッチに入ってくるフレームを記録していますが、そのフレームはすでに不良としてマークされています。通常、これはISLおよびNPIVのFポートで確認できます。
想定されるアクション:
CRCエラーがNPIVポートに記録されている場合は、メンテナンス ベンダーにデバイスを調査してもらいます。
ISLポートの場合は、ファブリック内のすべてのポートにcrc g_oefが記録されていないかを確認し、例3と同じ操作を行います。
例5 LINK FAILとLOSS SYNCを伴うPCS ERR:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 0 0 4 4 0 0 0 0 0 466
一般的な理由:
過去24時間以内にポート統計情報がクリアされている場合のみ有効です。それ以外の場合は、これらのカウンターを履歴として分類します。ポート統計情報をクリアし(前掲の手順9を参照)、カウンターを確認し、4~6時間後にデータを再取得します。
このエラーは、10 Gbpsと16 Gbpsおよびそれ以上の速度のポートをサポートするプラットフォーム(6505/6510/6520/DCX-8510)でのみ発生します。このエラーは、GEN5プラットフォームであるCondor3 ASICで導入されました。
ER_PCS_BLKは、Physical Coding Sublayer (PCS)ブロック エラーの数を示しています。このカウンターは、8Gb/4Gbリンクのenc_outと同等であり、10 GBと16 GBの速度およびそれ以上でのみ使用されます。
エラーからは、link fail、loss of sync、さらにpcs errが確認できます。これにはloss sigエラーも含まれる場合があります。
これらのエラーの組み合わせは通常、スイッチの外部でのホストの再起動またはリンクのリセットを示しています。
pcs errエラーは、リンク初期化の一環として速度ネゴシエーション中に発生します。
想定されるアクション:
ポートに接続されたデバイスがオフラインまたはオンラインになる正当な理由があったことを確認します(例:ホストの再起動)。確認できない場合は、SRを発行します。
例6 PCS ERR:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 466
一般的な理由:
過去24時間以内にポート統計情報がクリアされている場合のみ有効です。それ以外の場合は、これらのカウンターを履歴として分類します。ポート統計情報をクリアし(前掲の手順9を参照)、カウンターを確認し、4~6時間後にデータを再取得します。
関連エラーのないPCS ERRエラーは、ケーブルが汚れていることを示しています。
想定されるアクション:
このポートに接続されているケーブルとSFP、および接続されているデバイスのすべての光学面を点検し、クリーニングします。
CISCOの例:
例1 Errdisabled:
Errdisabled - インターフェイス エラーは増加しない
fc1/1 is down (Error disabled - bit error rate too high) Hardware is Fibre Channel, SFP is short wave laser w/o OFC (SN). 5 minutes input rate 0 bits/sec, 0 bytes/sec, 0 frames/sec 5 minutes output rate 0 bits/sec, 0 bytes/sec, 0 frames/sec 179 frames input, 7668 bytes 0 discards, 0 errors 0 CRC, 0 unknown class 0 too long, 0 too short 23 frames output, 1320 bytes 0 discards, 0 errors 1 input OLS, 1 LRR, 0 NOS, 1 loop inits 2 output OLS, 0 LRR, 0 NOS, 1 loop inits Interface last changed at Thu Jun 5 01:51:00 2014
一般的な理由:
インターフェイスの「Errdisabled」状態は、少し誤解を招く可能性があります。フロント エンドではインターフェイス カウンターがクリーンで、スイッチでは「Errdisabled」状態のポートがダウンしていて、バック エンド(ASIC/内部/ラインカード)ではエラー カウンターが増加しているように見えるためです。
想定されるアクション:
解決策のデフォルト アクションを参照してください。再発する場合は、テクニカル サポートの詳細の出力を収集し、SRを作成します。
- ケーブルの障害や不良
- SFPの障害や不良
- 1 Gbpsで動作するように指定されているSFPが、2 Gbpsで使用されている場合
- 2 Gbpsで動作するように指定されているSFPが、4 Gbpsで使用されている場合
- 短距離ケーブルを長距離に使用している、または長距離ケーブルを短距離に使用している場合
- 一時的な同期の損失
- 片方または両端のケーブル接続が緩んでいる
- 片方または両端での不適切なSFP接続
ビット エラー レートのしきい値は、5分間に15件のエラー バーストが発生すると検出されます。デフォルトでは、しきい値に達すると、スイッチはインターフェイスを無効にします。次のコマンドを順番に入力すると、インターフェイスを再度有効にすることができます。
shutdown
no shutdown しきい値を超えたときにインターフェイスを無効にしないように、スイッチを設定することができます。
デフォルトでは、しきい値によってインターフェイスが無効になります。
例 2: CRC
CRCが増加する
fc13/1 is down (Initializing)
Port description is ***
Hardware is Fibre Channel, SFP is long wave laser cost reduced.
5 minutes input rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
5 minutes output rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
162 frames input, 6136 bytes
0 discards, 17 errors
17 CRC, 0 unknown class
0 too long, 17 too short
74 frames output, 6304 bytes
2 discards, 0 errors
108 input OLS, 54 LRR, 2 NOS, 0 loop inits
83 output OLS, 26 LRR, 56 NOS, 0 loop inits
Interface last changed at Tue May 27 08:37:20 2014
一般的な理由:
ポートは、CRCエラーの状態でスイッチに入ってくるフレームでも、フレーム終端は正常であるフレームを記録しています。CRCカウンターは、エラーを記録する特定のイングレス ポートでのみ増加しているため、この物理リンクで調査を行う必要があります。
想定されるアクション:
解決策のデフォルト アクションを参照してください。
ポート統計情報をクリアし(前掲の手順9を参照)、カウンターを確認し、4~6時間後にデータを再取得します。
例3: NOS
Non-Operational Sequence (NOS)
show int fc1/1 counters
fc1/1
5 minutes input rate 1753296 bits/sec, 219162 bytes/sec, 199 frames/sec
5 minutes output rate 2310384 bits/sec, 288798 bytes/sec, 194 frames/sec
2741512190 frames input, 2542476084276 bytes
0 class-2 frames, 0 bytes
2741512190 class-3 frames, 2542476084276 bytes
0 class-f frames, 0 bytes
0 discards, 0 errors, 0 CRC
0 unknown class, 0 too long, 0 too short
3410405365 frames output, 5164364339412 bytes
0 class-2 frames, 0 bytes
3410405365 class-3 frames, 5164364339412 bytes
0 class-f frames, 0 bytes
0 discards, 0 errors
1 input OLS, 1 LRR, 0 NOS, 307 loop inits
289 output OLS, 289 LRR, 289 NOS, 289 loop inits
0 link failures, 0 sync losses, 0 signal losses
48276 BB credit transitions from zero
16 receive B2B credit remaining
3 transmit B2B credit remaining
3 low priority transmit B2B credit remaining
一般的な理由:
リンク ネゴシエーション前の接続の切断。
想定されるアクション:
レイヤー1(物理レイヤー)とソース デバイスを確認します。