Cisco MDSスイッチ:ゾーンのアクティベーションでホストがVPLEXフロントエンド(FE)ポートへのパスを失う
Podsumowanie: ゾーンのアクティベーションで、VPLEXのフロントエンド ポートにゾーニングされたすべてのHBAがログアウトされ、パスが失われます。ESXホストがハングし、リカバリーのために再起動が必要になる場合があります。[Scott - これはESXホストにのみ影響しますか?「VPLEXにゾーニングされたすべてのHBA」という部分は、ESXホストのみに限定しているのか、または「ホストがハングし、リカバリーのために再起動が必要になる場合があります」と言い換えますか?] ...
Objawy
ホストがパスを失います。
[メモ:Scott - 概要のメモも参照してください]
ESXホストがハングし、リカバリーのために再起動する必要があります。[Scott - ハングする可能性のあるホストはESXホストだけですか?概要では、「VPLEXにゾーニングされたすべてのHBA」とあります]
ESXiの「vmkernel」ログから:
2020-08-30T03:52:23.501Z cpu187:66638)WARNING: lpfc: lpfc_els_unsol_buffer:8330: 0:(0):0115 Unknown ELS command x7f26e705 received from NPORT x1f04c0
2020-08-30T03:52:28.325Z cpu187:66638)WARNING: lpfc: lpfc_els_unsol_buffer:8330: 0:(0):0115 Unknown ELS command x7effc405 received from NPORT x1f04c0
VPLEXファームウェアのログから:
event fc/4: "This port has discovered the departure of the indicated port from the fabric."
128.221.253.37/cpu0/log:5988:W/"006016abc83a153324-2":36008:<6>2020/08/30 03:39:07.65: fc/4 A0-FC02.0: port 200000109b59a55d:100000109b59a55d:330fc0
(spn Emulex PPN-10:00:00:10:9b:59:a5:5d) (snn Emulex LPe16002B-M6 FV12.2.299.27 DV12.2.373.1 HN:localhost OS:VMware ESXi 6.5.0) (speed <unsupported by fabric>) departed
128.221.253.37/cpu0/log:5988:W/"006016abc83a153324-2":36009:<4>2020/08/30 03:39:07.65: stdf/18 FCP connection lost. IT: [Host1_vmhba1 (0x100000109b59a55d)
A0-FC02 (0xc00144879a780200)][Scott - 「VPLEXにゾーニングされたすべてのHBA」の問題について、このCiscoの問題がVPLEXにゾーニングされたすべてのHBAに影響する場合、ファームウェア ログでログアウトしているその他のホストのレポートも示す必要がありますか?上記のESXホストと同様にログアウトするその他のホストはありますか?]
event fc/3: "This port has discovered the arrival of the indicated port on the fabric."
128.221.253.37/cpu0/log:5988:W/"006016abc83a153324-2":36020:<6>2020/08/30 03:40:37.66: fc/3 A0-FC02.0: port 200000109b59a55d:100000109b59a55d:330fc0
(spn Emulex PPN-10:00:00:10:9b:59:a5:5d) (snn Emulex LPe16002B-M6 FV12.2.299.27 DV12.2.373.1 HN:localhost OS:VMware ESXi 6.5.0) (speed <unsupported by fabric>) arrived
128.221.253.37/cpu0/log:5988:W/"006016abc83a153324-2":36027:<4>2020/08/30 04:03:28.34: stdf/17 FCP connection established. IT: [Host1_vmhba1 (0x100000109b59a55d)
A0-FC02 (0xc00144879a780200)]
[Scott - 到達したことを示すその他のHBAについてもこのデータがありますか?]
変更:
ゾーンのアクティベーション。
HBAポートとVPLEXのフロントエンド ポートは、ゾーニングの変更には関係しません。
[Scott - この最後の文章はつじつまが合いません。私が理解するところでは、Ciscoスイッチでゾーンのアクティベーションを行う場合、すべてのHBAとVPLEX FEポートが関係します。また、どのCiscoスイッチのコード レベルに影響がありますか?]
Przyczyna
VPLEXは、すべてのFibre Channelポート(フロントエンド、バックエンド、およびFC-WANCOM)で90秒ごとにファブリックの検出を実行します。このとき、「Get all next」(GA_NXT)ネーム サーバー コマンドを使用して行います。これは、ゾーニングされたHBAからスイッチまたはPLOGIからのRSCNを受け取るのとは別に行います。
Ciscoバグ:CSCvw75655により、VPLEXがファブリック検出を実行中に、フロント エンド(FE)ポートで、ゾーンセットのアクティベーション/コミットが進行中の場合、VPLEXはそれ自体のFibre Channelアドレス(FCID)のみを返す可能性が少なからずあるため、それにログインしているすべてのHBAがファブリックに接続されていないと推測して、それにゾーニングされた各HBAにログアウト(PLOGO)を送信します。[Scott - VPLEXおよび/またはスイッチのログに、このアクションが行われていて、PLOGOが送信されたことが示されていますか?両方の製品でこれが見られる場合は、その例と、どのログに表示されているかを含めることはできますか?]
VPLEXは、スイッチ ネーム サーバーから正しい情報を受け取ったときに、次回90秒間のファブリック検出で、ログアウトするすべてのHBAおよびfc/3イベントに対してfc/4イベントをログに記録します。
HBAがこのログアウトをどのように処理するかは、ドライバー/ファームウェアによって異なります。この例では、ESXホストがハングし、再起動が必要です。[Scott - このイベントの影響を受けている他のホストのログからのデータはありますか?ある場合は、ESXホストのみが影響を受けていると思われないように、いくつかリストアップできますか?]
メモ:
RSCNがファブリックからVPLEXに到達できない場合があるため、VPLEXが更新されたファブリック データを使用できるように、定期的なファブリック検出を実行します。
Rozwiązanie
対処方法:
Ciscoスイッチで、次のようにネームサーバー/ゾーンサーバー共有データベース(db)機能を無効にします。
メモ:ゾーンセットのshared-db機能は、ネームサーバーとゾーンサーバーが情報を共有する効率性を上げるためのものです。この機能を無効化しても、環境には悪影響を与えません。
Ciscoでは、変更がグローバルな変更ではなく、ローカルの変更であることを確認しています。このコマンドは、VPLEXが接続されているすべてのスイッチ上で実行する必要があります。[Scott - このKBAで参照できる、この問題に言及しているCisco KBはありますか?]
修正:
NX-OS 8.4(2c)。このバージョンは、Dell EMCから一般向けにリリースされていません。
[Scott - まだDell EMCから入手できない修正を記載することはできません。一般向けに入手可能になったら、このKBAを確認し、「このバージョンは、Dell EMCから一般向けにリリースされていません」という文章を削除してください。]
Dodatkowe informacje
製品(1)
Cisco MDS 9000 NX-OSおよびSAN-OSソフトウェア
既知の対象リリース
8.3(2)
VPLEXのファブリック検出
例:
ホスト1、ホスト2、ホスト3は、1つのVPLEX FEポートにゾーニングされています。
VPLEX FE port: FCID 0x200b20
Host 1: FCID 0x340000
Host 2: FCID 0x340020
Host 3: FCID 0x340040
Working... [Scott - これはどういう意味ですか?「info」から取得またはコピーしたものですか?その場合は、「working...」を削除してください]
- VPLEXは、「0xffffff」のFiber Channelアドレス(最上位)を使用して、ネーム サーバーに「Get all next」コマンドを送信します。
- ネーム サーバーは、VPLEX FEポート(最下位)の詳細を返します。
- VPLEXは、VPLEX FEポートのFibre Channelアドレス(FCID)を使用して、ネーム サーバーに「Get all next」コマンドを送信します。
- ネーム サーバーは、ホスト1の詳細を返します。
- VPLEXは、ホスト1のFibre Channelアドレス(FCID)を使用して、ネーム サーバーに「Get all next」コマンドを送信します。
- ネーム サーバーは、ホスト2の詳細を返します。
- VPLEXは、ホスト2のFibre Channelアドレス(FCID)を使用して、ネーム サーバーに「Get all next」コマンドを送信します。
- ネーム サーバーは、ホスト3の詳細を返します。
- VPLEXは、ホスト3のFibre Channelアドレス(FCID)を使用して、ネーム サーバーに「Get all next」コマンドを送信します。
- ネーム サーバーは、VPLEX FEポートの詳細を返します。
- すでに検出されている(再クロス接続済み)自身のFibre Channelアドレス(FCID)を受け取っているため、VPLEXはここで停止します。
Ciscoバグ:CSCvw75655 ...
- VPLEXは、「0xffffff」のFiber Channelアドレス(最上位)を使用して、ネーム サーバーに「Get all next」コマンドを送信します。
- ネーム サーバーは、VPLEX FEポート(最下位)の詳細を返します。
- VPLEXは、VPLEX FEポートのFibre Channelアドレス(FCID)を使用して、ネーム サーバーに「Get all next」コマンドを送信します。
- ネーム サーバーは、VPLEX FEポートの詳細を返します。
- すでに検出されている(再クロス接続済み)自身のFibre Channelアドレス(FCID)を受け取っているため、VPLEXはここで停止します。
NX-OS 8.4(2c)に追加されたバグ:CSCvw75655の修正に関するその他の詳細:
このバグの原因について、次の点に注意してください。
この問題は、ターゲット デバイスがFCNS GA_NXTコマンドを発行し、自身のFCIDのみを取得した場合に発生します。これは、他のデバイスとゾーニングされていないことを示します。一部のターゲット デバイスは、これらのGA_NXTを定期的に発行します。これらは、RSCNやその他のトリガーによって発行されないため、この問題の影響を受けやすくなっています。
この原因は、ゾーンセットのアクティベーション/コミットが進行中のときに、FCNSがGA_NXTの返信で発行者のFCIDのみを返し、ゾーニングされた他のホストのものは返さない、小さな時間のウィンドウがあるためです。これは、Cisco MDS NX-OS 7.3(0)D1(1)で実装されたゾーンセット共有データベース関数によるものです。
Ciscoによる修正に関する説明は次のとおりです。
アクティベーションの一環として、SDBをクリアする非アクティブ化がトリガーされ、SDBをクリアすると、すべてのサブスクライバーに通知を送信します。これは現在行われていません。また、SDBコミット通知を個別に送信する新しいシーケンスを追加しました。これにより、SDBをゾーニングして構築し、最後の通知を1件送信します。
修正は、バージョン8.4(2c)にのみあります。
SDB = ゾーンセット共有データベースです。