PowerScale:PowerScaleノードの動的IPが断続的に切断される
Summary: この記事では、ローリング再起動またはローリングアップグレード中にPowerScaleノードの動的IPが断続的に切断される問題について説明します。これは、クライアント上の無効な(古い)アドレス解決プロトコル(ARP)エントリが原因で発生します。
Symptoms
ローリング再起動またはローリング アップグレード中に、PowerScaleクラスターと同じサブネット上の一部のクライアントがPowerScale動的IPとの接続を切断する場合があります。Isilonクラスターと同じサブネット上のクライアントにのみ問題があります。クライアントは、問題のある動的IPにpingを実行することさえできません。これは、同じIsilonクラスター内の他のノードでも発生する可能性があります。クラスター内の一部のノードで、他のノードの動的IPにpingを実行できません。動的IPにpingできないクライアント マシンのARPテーブルを確認すると、無効なエントリーが表示されます。ARPテーブルには、ダイナミックIPを間違ったMACアドレスにマッピングする古いエントリが残っています。
たとえば、ノード11が再起動され、動的IP 10.x.x.43がノード10に移動され、ダウンタイムが回避されたとします。その後、ノード1がIPへのpingに失敗し始めました。
ノード 1 の ARP テーブルを確認した後、ノード 11 のエントリが無効でした。IP 10.x.x.43がノード11のMAC ec:0d:xx:xx:c5:00にマッピングされていることが示されました。
node-1# arp -a ? (10.x.x.43) at ec:0d:xx:xx:c5:00 on mlxen1 expires in 232 seconds [ethernet]
ノード11のMACアドレスは ec:0d:xx:xx:c5:00です。
node-11: mlxen0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 node-11: options=d07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE> node-11: ether ec:0d:xx:xx:c5:00 node-11: inet 10.x.x.43 netmask 0xffffff00 broadcast 10.x.x.255 zone 1 node-11: nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> node-11: media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) node-11: status: active
ノード 11 を再起動すると、IP 10.x.x.43 がノード 10 に移動されました。
2018-11-15T16:06:45+09:00 <3.6> node-1 isi_smartconnect[5222]: Assigned unused IP 10.x.x.43 to { key=10,40gige-1 addr_idx=0 lni=40gige-1 nic=mlxen0[Up] vlan_nic=<NULL> addrs={ 10.x.x.43 } } . 2018-11-15T16:06:45+09:00 <3.6> node-1 isi_smartconnect[5222]: FLXAPI: OP: FLXAPI_OP_CURRENT_STATE Pool[2:1:1:1]: subnet0 zones: filer25.xxx.com IP[18]: 10.x.x.21:up IP[18]: 10.x.x.54:up IP[17]: 10.x.x.32:up IP[17]: 10.x.x.56:up IP[17]: 10.x.x.30:up IP[16]: 10.x.x.37:up IP[16]: 10.x.x.39:up IP[16]: 10.x.x.45:up IP[15]: 10.x.x.29:up IP[15]: 10.x.x.33:up IP[15]: 10.x.x.49:up IP[14]: 10.x.x.31:up IP[14]: 10.x.x.34:up IP[13]: 10.x.x.38:up IP[13]: 10.x.x.40:up IP[13]: 10.x.x.46:up IP[12]: 10.x.x.41:up IP[12]: 10.x.x.36:up IP[10]: 10.x.x.53:up IP[10]: 10.x.x.43:up IP[9]: 10.x.x.44:up IP[9]: 10.x.x.28:up IP[8]: 10.x.x.51:up IP[8]: 10.x.x.26:up IP[7]: 10.x.x.55:up IP[7]: 10.x.x.35:up IP[6]: 10.x.x.42:up IP[6]: 10.x.x.24:up IP[5]: 10.x.x.52:up IP[5]: 10.x.x.25:up IP[4]: 10.x.x.48:up IP[4]: 10.x.x.50:up IP[3]: 10.x.x.22:up IP[3]: 10.x.x.27:up IP[2]: 10.x.x.47:up IP[2]: 10.x.x.23:up
ノード10のMACアドレスは ec:0d:xx:xx:c0:80です。
node-10: mlxen0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 node-10: options=d07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE> node-10: ether ec:0d:xx:xx:c0:80 node-10: inet 10.x.x.43 netmask 0xffffff00 broadcast 10.x.x.255 zone 1 node-10: nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> node-10: media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) node-10: status: active
ノード 1 の ARP エントリが無効な(古い)MAC アドレスにマッピングされました。これにより、修正されるまで、クライアントまたはノードはIPアドレスに接続できません。
Cause
『PowerScale Network Design Considerations』
https://infohub.delltechnologies.com/es-es/t/dell-powerscale-network-design-considerations/
「IPアドレスの動的割り当てがあるSmartConnectゾーンでは、障害が発生したノード上の1つのIPアドレスが、クラスター内の他の3つのノードのいずれかにただちにホット ムーブされます。接続されたスイッチに複数のgratuitous Address Resolution Protocol(ARP)リクエストを送信するため、クライアントI/Oは中断されずに続行されます
同じサブネット上のホストは、IP アドレスが割り当てられた後、ノード 10 から Gratuitous ARP (GARP) パケットを受信しませんでした。したがって、ARPエントリーがホスト上で正しく更新されず、ネットワーク接続の問題が発生します。原因は、ARPブロードキャストがネットワークレベルでドロップまたはブロックされるためです。Cisco Application Centric Infrastructure(ACI)は、設定ミスが原因でこれらの問題を引き起こしています。
Resolution
解決方法:
長期的な解決策として、スイッチ側で「Gratuitous ARP Flooding」を有効にする必要があります。
次のナレッジ記事は、Cisco ACI の累積的な推奨事項を(詳細に)説明することを目的としています。
対処方法:
回避策として、古いARPエントリーは、影響を受けるホストで「arp -d」 コマンドを使用して削除できます。ホストは IP の新しい ARP 解決要求をブロードキャストし、更新された MAC アドレスで ARP テーブルを更新します。
Additional Information
この問題は、すべてのPowerScaleノードとクライアント マシンでパケット キャプチャを実行することで、さらにトラブルシューティングできます。これは、ノードが設計どおりに GARP パケットを受信したことを証明します。ただし、問題が発生したホストは GARP パケットを受信しませんでした
IP 10.x.x.43 がノード 10 に移動されたとき、ノード 10 は実際に IP 10.x.x.43 に関する GARP パケットを送信しました。
[~]$ tshark -t ad -r node-10_mlxen0.pcap | grep ARP | grep Gratui 3781 2018-11-15 16:06:47.711230 ec:0d:xx:xx:c0:80 Broadcast ARP 42 Gratuitous ARP for 10.x.x.43 (Request) 3783 2018-11-15 16:06:47.753820 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3784 2018-11-15 16:06:47.753841 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3791 2018-11-15 16:06:48.823611 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3792 2018-11-15 16:06:48.823633 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3799 2018-11-15 16:06:49.835902 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3800 2018-11-15 16:06:49.835926 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3807 2018-11-15 16:06:50.933966 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3808 2018-11-15 16:06:50.934000 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3815 2018-11-15 16:06:52.034005 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3816 2018-11-15 16:06:52.034048 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3824 2018-11-15 16:06:53.084292 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3825 2018-11-15 16:06:53.084343 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3832 2018-11-15 16:06:54.134719 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3833 2018-11-15 16:06:54.134764 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3840 2018-11-15 16:06:55.222125 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3841 2018-11-15 16:06:55.222171 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3848 2018-11-15 16:06:56.283997 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3849 2018-11-15 16:06:56.284023 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3856 2018-11-15 16:06:57.370114 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3857 2018-11-15 16:06:57.370142 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
パケット キャプチャは、ノード 1 が IP 10.x.x.43 の移動に関する GARP パケットを受信しなかったことを示しています。
[~]$ tshark -t ad -r node-1_mlxen1.pcap | grep -i arp | grep Gratuitous | grep 10.x.x.43 [~]$
パケットキャプチャは、クライアントがGARPパケットも受信しなかったことを示しています。
[~]$ tshark -t ad -r client.pcap | grep ARP | grep Gratuitous | grep 10.x.x.43 [~]$
ホストが GARP パケットを受信しない場合、IP 10.x.x.43 の ARP テーブル エントリは更新されませんでした。まだ間違ったMAC ec:0d:xx:xx:c5:00にマッピングされています。したがって、IP 10.x.x.43 に到達できませんでした。