ホストがパスを失います。
[メモ:Scott - 概要のメモも参照してください]
ESXホストがハングし、リカバリーのために再起動する必要があります。[Scott - ハングする可能性のあるホストはESXホストだけですか?概要では、「VPLEXにゾーニングされたすべてのHBA」とあります]
ESXiの「vmkernel」ログから:
2020-08-30T03:52:23.501Z cpu187:66638)WARNING: lpfc: lpfc_els_unsol_buffer:8330: 0:(0):0115 Unknown ELS command x7f26e705 received from NPORT x1f04c0
2020-08-30T03:52:28.325Z cpu187:66638)WARNING: lpfc: lpfc_els_unsol_buffer:8330: 0:(0):0115 Unknown ELS command x7effc405 received from NPORT x1f04c0
VPLEXファームウェアのログから:
event fc/4: "This port has discovered the departure of the indicated port from the fabric."
128.221.253.37/cpu0/log:5988:W/"006016abc83a153324-2":36008:<6>2020/08/30 03:39:07.65: fc/4 A0-FC02.0: port 200000109b59a55d:100000109b59a55d:330fc0
(spn Emulex PPN-10:00:00:10:9b:59:a5:5d) (snn Emulex LPe16002B-M6 FV12.2.299.27 DV12.2.373.1 HN:localhost OS:VMware ESXi 6.5.0) (speed <unsupported by fabric>) departed
128.221.253.37/cpu0/log:5988:W/"006016abc83a153324-2":36009:<4>2020/08/30 03:39:07.65: stdf/18 FCP connection lost. IT: [Host1_vmhba1 (0x100000109b59a55d)
A0-FC02 (0xc00144879a780200)][Scott - 「VPLEXにゾーニングされたすべてのHBA」の問題について、このCiscoの問題がVPLEXにゾーニングされたすべてのHBAに影響する場合、ファームウェア ログでログアウトしているその他のホストのレポートも示す必要がありますか?上記のESXホストと同様にログアウトするその他のホストはありますか?]
event fc/3: "This port has discovered the arrival of the indicated port on the fabric."
128.221.253.37/cpu0/log:5988:W/"006016abc83a153324-2":36020:<6>2020/08/30 03:40:37.66: fc/3 A0-FC02.0: port 200000109b59a55d:100000109b59a55d:330fc0
(spn Emulex PPN-10:00:00:10:9b:59:a5:5d) (snn Emulex LPe16002B-M6 FV12.2.299.27 DV12.2.373.1 HN:localhost OS:VMware ESXi 6.5.0) (speed <unsupported by fabric>) arrived
128.221.253.37/cpu0/log:5988:W/"006016abc83a153324-2":36027:<4>2020/08/30 04:03:28.34: stdf/17 FCP connection established. IT: [Host1_vmhba1 (0x100000109b59a55d)
A0-FC02 (0xc00144879a780200)]
[Scott - 到達したことを示すその他のHBAについてもこのデータがありますか?]
変更:
ゾーンのアクティベーション。
HBAポートとVPLEXのフロントエンド ポートは、ゾーニングの変更には関係しません。
[Scott - この最後の文章はつじつまが合いません。私が理解するところでは、Ciscoスイッチでゾーンのアクティベーションを行う場合、すべてのHBAとVPLEX FEポートが関係します。また、どのCiscoスイッチのコード レベルに影響がありますか?]
VPLEXは、すべてのFibre Channelポート(フロントエンド、バックエンド、およびFC-WANCOM)で90秒ごとにファブリックの検出を実行します。このとき、「Get all next」(GA_NXT)ネーム サーバー コマンドを使用して行います。これは、ゾーニングされたHBAからスイッチまたはPLOGIからのRSCNを受け取るのとは別に行います。
Ciscoバグ:CSCvw75655により、VPLEXがファブリック検出を実行中に、フロント エンド(FE)ポートで、ゾーンセットのアクティベーション/コミットが進行中の場合、VPLEXはそれ自体のFibre Channelアドレス(FCID)のみを返す可能性が少なからずあるため、それにログインしているすべてのHBAがファブリックに接続されていないと推測して、それにゾーニングされた各HBAにログアウト(PLOGO)を送信します。[Scott - VPLEXおよび/またはスイッチのログに、このアクションが行われていて、PLOGOが送信されたことが示されていますか?両方の製品でこれが見られる場合は、その例と、どのログに表示されているかを含めることはできますか?]
VPLEXは、スイッチ ネーム サーバーから正しい情報を受け取ったときに、次回90秒間のファブリック検出で、ログアウトするすべてのHBAおよびfc/3イベントに対してfc/4イベントをログに記録します。
HBAがこのログアウトをどのように処理するかは、ドライバー/ファームウェアによって異なります。この例では、ESXホストがハングし、再起動が必要です。[Scott - このイベントの影響を受けている他のホストのログからのデータはありますか?ある場合は、ESXホストのみが影響を受けていると思われないように、いくつかリストアップできますか?]
メモ:
RSCNがファブリックからVPLEXに到達できない場合があるため、VPLEXが更新されたファブリック データを使用できるように、定期的なファブリック検出を実行します。
対処方法:
Ciscoスイッチで、次のようにネームサーバー/ゾーンサーバー共有データベース(db)機能を無効にします。
製品(1)
Cisco MDS 9000 NX-OSおよびSAN-OSソフトウェア
既知の対象リリース
8.3(2)
VPLEXのファブリック検出
例:
ホスト1、ホスト2、ホスト3は、1つのVPLEX FEポートにゾーニングされています。
VPLEX FE port: FCID 0x200b20
Host 1: FCID 0x340000
Host 2: FCID 0x340020
Host 3: FCID 0x340040
Working... [Scott - これはどういう意味ですか?「info」から取得またはコピーしたものですか?その場合は、「working...」を削除してください]
Ciscoバグ:CSCvw75655 ...