PowerScale:与 PowerScale 节点动态 IP 间歇性断开连接

Summary: 本文介绍在滚动重新启动或滚动升级期间与 PowerScale 节点的动态 IP 间歇性断开连接的情况。发生这种情况的原因是客户端上的地址解析协议 (ARP) 条目无效(旧)。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

在滚动重新启动或滚动升级期间,与 PowerScale 群集位于同一子网上的某些客户端可能会断开与 PowerScale 动态 IP 的连接。只有与 Isilon 群集位于同一子网上的客户端才有问题。客户端甚至无法对有问题的动态 IP 执行 ping作。同一 Isilon 群集中的其他节点也会发生这种情况。群集中的某些节点无法对其他节点上的任何动态 IP 执行 ping作。检查无法 ping 通动态 IP 的客户端计算机上的 ARP 表时,显示无效条目。ARP 表仍具有将动态 IP 映射到错误的 MAC 地址的旧条目。

例如,节点 11 重新启动,动态 IP 10.x.x.43 移至节点 10,以避免停机时间。然后,节点 1 开始无法 ping IP 地址。


查看节点 1 上的 ARP 表后,节点 11 的条目无效。它显示 IP 10.x.x.43 仍映射到节点 11 的 MAC ec:0d:xx:xx:c5:00

node-1# arp -a

? (10.x.x.43) at ec:0d:xx:xx:c5:00 on mlxen1 expires in 232 seconds [ethernet]

节点 11 的 MAC 地址为 ec:0d:xx:xx:c5:00

node-11: mlxen0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500
node-11: options=d07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE>
node-11: ether ec:0d:xx:xx:c5:00
node-11: inet 10.x.x.43 netmask 0xffffff00 broadcast 10.x.x.255 zone 1 
node-11: nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL>
node-11: media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>)
node-11: status: active

节点 11 重新启动时,IP 10.x.x.43 移至节点 10。

2018-11-15T16:06:45+09:00 <3.6> node-1 isi_smartconnect[5222]: Assigned unused IP 10.x.x.43 to { key=10,40gige-1 addr_idx=0 lni=40gige-1 nic=mlxen0[Up] vlan_nic=<NULL> addrs={ 10.x.x.43 } }
.
2018-11-15T16:06:45+09:00 <3.6> node-1 isi_smartconnect[5222]: FLXAPI: OP: FLXAPI_OP_CURRENT_STATE Pool[2:1:1:1]: subnet0 zones: filer25.xxx.com IP[18]: 10.x.x.21:up IP[18]: 10.x.x.54:up IP[17]: 10.x.x.32:up IP[17]: 10.x.x.56:up IP[17]: 10.x.x.30:up IP[16]: 10.x.x.37:up IP[16]: 10.x.x.39:up IP[16]: 10.x.x.45:up IP[15]: 10.x.x.29:up IP[15]: 10.x.x.33:up IP[15]: 10.x.x.49:up IP[14]: 10.x.x.31:up IP[14]: 10.x.x.34:up IP[13]: 10.x.x.38:up IP[13]: 10.x.x.40:up IP[13]: 10.x.x.46:up IP[12]: 10.x.x.41:up IP[12]: 10.x.x.36:up IP[10]: 10.x.x.53:up IP[10]: 10.x.x.43:up IP[9]: 10.x.x.44:up IP[9]: 10.x.x.28:up IP[8]: 10.x.x.51:up IP[8]: 10.x.x.26:up IP[7]: 10.x.x.55:up IP[7]: 10.x.x.35:up IP[6]: 10.x.x.42:up IP[6]: 10.x.x.24:up IP[5]: 10.x.x.52:up IP[5]: 10.x.x.25:up IP[4]: 10.x.x.48:up IP[4]: 10.x.x.50:up IP[3]: 10.x.x.22:up IP[3]: 10.x.x.27:up IP[2]: 10.x.x.47:up IP[2]: 10.x.x.23:up

节点 10 的 MAC 地址为 ec:0d:xx:xx:c0:80

node-10: mlxen0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500
node-10: options=d07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE>
node-10: ether ec:0d:xx:xx:c0:80
node-10: inet 10.x.x.43 netmask 0xffffff00 broadcast 10.x.x.255 zone 1 
node-10: nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL>
node-10: media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>)
node-10: status: active

节点 1 上的 ARP 条目映射到无效(旧)MAC 地址。这会导致任何客户端或节点在纠正之前无法连接 IP 地址。

Cause

根据“PowerScale 网络设计注意事项”
https://infohub.delltechnologies.com/es-es/t/dell-powerscale-network-design-considerations/

“动态分配 IP 地址的 SmartConnect 分区会立即将故障节点上的一个 IP 地址热移动到群集中的其他三个节点之一。它向连接的交换机发送多个无偿地址解析协议 (ARP) 请求,以便客户端 I/O 继续不间断。

分配 IP 地址后,同一子网上的主机未收到来自节点 10 的免费 ARP (GARP) 数据包。因此,主机上的 ARP 条目未正确更新,从而导致网络连接问题。原因是 ARP 广播在网络级别被丢弃或阻塞。由于配置错误,思科以应用程序为中心的基础设施 (ACI) 导致了这些问题。

Resolution

解决方案:

作为长期解决方案,必须在交换机侧启用“免费 ARP 泛洪”。

以下知识库文章旨在(详细)介绍 Cisco ACI 的累积建议。

解决办法:

作为一种解决方法,可以在受影响的主机上使用“arp -d” 命令删除过时的 ARP 条目。主机广播 IP 的新 ARP 解析请求,并使用更新的 MAC 地址更新其 ARP 表。

Additional Information

通过在所有 PowerScale 节点和客户端计算机上捕获数据包,可以进一步解决此问题。这证明节点按设计接收了 GARP 数据包。但是,遇到问题的主机未收到 GARP 数据包。

当 IP 10.x.x.43 移动到节点 10 时,节点 10 确实发送了有关 IP 10.x.x.43 的 GARP 数据包。

[~]$ tshark -t ad -r node-10_mlxen0.pcap | grep ARP | grep Gratui
3781 2018-11-15 16:06:47.711230 ec:0d:xx:xx:c0:80 Broadcast ARP 42 Gratuitous ARP for 10.x.x.43 (Request)
3783 2018-11-15 16:06:47.753820 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3784 2018-11-15 16:06:47.753841 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3791 2018-11-15 16:06:48.823611 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3792 2018-11-15 16:06:48.823633 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3799 2018-11-15 16:06:49.835902 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3800 2018-11-15 16:06:49.835926 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3807 2018-11-15 16:06:50.933966 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3808 2018-11-15 16:06:50.934000 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3815 2018-11-15 16:06:52.034005 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3816 2018-11-15 16:06:52.034048 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3824 2018-11-15 16:06:53.084292 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3825 2018-11-15 16:06:53.084343 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3832 2018-11-15 16:06:54.134719 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3833 2018-11-15 16:06:54.134764 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3840 2018-11-15 16:06:55.222125 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3841 2018-11-15 16:06:55.222171 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3848 2018-11-15 16:06:56.283997 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3849 2018-11-15 16:06:56.284023 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3856 2018-11-15 16:06:57.370114 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3857 2018-11-15 16:06:57.370142 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)

数据包捕获显示节点 1 未收到任何与 IP 10.x.x.43 移动相关的 GARP 数据包。

[~]$ tshark -t ad -r node-1_mlxen1.pcap | grep -i arp | grep Gratuitous | grep 10.x.x.43
[~]$

数据包捕获显示客户端也未收到 GARP 数据包。

[~]$ tshark -t ad -r client.pcap | grep ARP | grep Gratuitous | grep 10.x.x.43
[~]$

当主机未收到 GARP 数据包时,其 IP 10.x.x.43 的 ARP 表条目未更新。它们仍映射到错误的 MAC ec:0d:xx:xx:c5:00。因此,它们无法访问 IP 10.x.x.43。

Affected Products

Isilon

Products

Isilon A2000, Isilon F800, Isilon F810, Isilon Gen6, Isilon H400, Isilon H500, Isilon H5600, Isilon H600, Isilon HD400, Isilon IQ 10000X-SSD, Isilon IQ 108000X, Isilon IQ 12000, Isilon IQ 12000X, Isilon IQ 1920i, Isilon IQ 3000X, Isilon IQ 32000X-SSD , Isilon IQ 36000X, Isilon IQ 5400S, Isilon IQ 6000X, Isilon IQ 72000X, Isilon IQ 9000X, Isilon IQ-Series, Isilon NL-Series, Isilon NL400, Isilon NL410, PowerScale OneFS, Isilon Performance Accelerator, Isilon S-Series, Isilon S200, Isilon S210, Isilon Scale-out NAS, Isilon SmartConnect, Isilon X-Series, Isilon X200, Isilon X210, Isilon X400, Isilon X410 ...
Article Properties
Article Number: 000056945
Article Type: Solution
Last Modified: 03 Jun 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.