PowerScale: PowerScale 노드 동적 IP에 대한 연결이 간헐적으로 끊김

Summary: 이 문서에서는 롤링 재부팅 또는 롤링 업그레이드 중에 PowerScale 노드의 동적 IP에 대한 연결이 간헐적으로 끊어지는 문제에 대해 설명합니다. 이 문제는 클라이언트의 잘못된(이전) ARP(Address Resolution Protocol) 항목으로 인해 발생합니다.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

점진적 재부팅 또는 점진적 업그레이드 중에 PowerScale 클러스터와 동일한 서브넷에 있는 일부 클라이언트와 PowerScale 동적 IP의 연결이 끊어질 수 있습니다. Isilon 클러스터와 동일한 서브넷에 있는 클라이언트에만 문제가 있습니다. 클라이언트는 문제가 있는 동적 IP를 ping할 수도 없습니다. 이 문제는 동일한 Isilon 클러스터의 다른 노드에서도 발생할 수 있습니다. 클러스터의 일부 노드는 다른 노드의 동적 IP를 ping할 수 없습니다. 동적 IP를 ping할 수 없는 클라이언트 시스템에서 ARP 테이블을 확인하면 잘못된 항목이 표시됩니다. ARP 테이블에는 여전히 동적 IP를 잘못된 MAC 주소에 매핑하는 이전 항목이 있습니다.

예를 들어 노드 11이 재부팅되고 가동 중지 시간을 방지하기 위해 동적 IP 10.x.x.43이 노드 10으로 이동되었습니다. 그런 다음 노드 1이 IP를 ping하지 못하기 시작했습니다.


노드 1에서 ARP 테이블을 검토한 후 노드 11에 대한 항목이 잘못되었습니다. IP 10.x.x.43이 여전히 노드 11의 MAC ec:0d:xx:xx:c5:00에 매핑되어 있음을 보여주었습니다.

node-1# arp -a

? (10.x.x.43) at ec:0d:xx:xx:c5:00 on mlxen1 expires in 232 seconds [ethernet]

노드 11의 MAC 주소는 ec:0d:xx:xx:c5:00입니다.

node-11: mlxen0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500
node-11: options=d07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE>
node-11: ether ec:0d:xx:xx:c5:00
node-11: inet 10.x.x.43 netmask 0xffffff00 broadcast 10.x.x.255 zone 1 
node-11: nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL>
node-11: media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>)
node-11: status: active

노드 11이 재부팅되면 IP 10.x.x.43이 노드 10으로 이동됩니다.

2018-11-15T16:06:45+09:00 <3.6> node-1 isi_smartconnect[5222]: Assigned unused IP 10.x.x.43 to { key=10,40gige-1 addr_idx=0 lni=40gige-1 nic=mlxen0[Up] vlan_nic=<NULL> addrs={ 10.x.x.43 } }
.
2018-11-15T16:06:45+09:00 <3.6> node-1 isi_smartconnect[5222]: FLXAPI: OP: FLXAPI_OP_CURRENT_STATE Pool[2:1:1:1]: subnet0 zones: filer25.xxx.com IP[18]: 10.x.x.21:up IP[18]: 10.x.x.54:up IP[17]: 10.x.x.32:up IP[17]: 10.x.x.56:up IP[17]: 10.x.x.30:up IP[16]: 10.x.x.37:up IP[16]: 10.x.x.39:up IP[16]: 10.x.x.45:up IP[15]: 10.x.x.29:up IP[15]: 10.x.x.33:up IP[15]: 10.x.x.49:up IP[14]: 10.x.x.31:up IP[14]: 10.x.x.34:up IP[13]: 10.x.x.38:up IP[13]: 10.x.x.40:up IP[13]: 10.x.x.46:up IP[12]: 10.x.x.41:up IP[12]: 10.x.x.36:up IP[10]: 10.x.x.53:up IP[10]: 10.x.x.43:up IP[9]: 10.x.x.44:up IP[9]: 10.x.x.28:up IP[8]: 10.x.x.51:up IP[8]: 10.x.x.26:up IP[7]: 10.x.x.55:up IP[7]: 10.x.x.35:up IP[6]: 10.x.x.42:up IP[6]: 10.x.x.24:up IP[5]: 10.x.x.52:up IP[5]: 10.x.x.25:up IP[4]: 10.x.x.48:up IP[4]: 10.x.x.50:up IP[3]: 10.x.x.22:up IP[3]: 10.x.x.27:up IP[2]: 10.x.x.47:up IP[2]: 10.x.x.23:up

노드 10의 MAC 주소는 ec:0d:xx:xx:c0:80입니다.

node-10: mlxen0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500
node-10: options=d07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE>
node-10: ether ec:0d:xx:xx:c0:80
node-10: inet 10.x.x.43 netmask 0xffffff00 broadcast 10.x.x.255 zone 1 
node-10: nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL>
node-10: media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>)
node-10: status: active

노드 1의 ARP 항목이 잘못된(이전) MAC 주소에 매핑되었습니다. 이로 인해 모든 클라이언트 또는 노드는 수정될 때까지 IP 주소에 연결할 수 없습니다.

Cause

"PowerScale 네트워크 설계 고려 사항"
https://infohub.delltechnologies.com/es-es/t/dell-powerscale-network-design-considerations/

에 따르면 IP 주소에 대한 동적 할당이 있는 SmartConnect 영역은 장애가 발생한 노드의 IP 주소 하나를 클러스터의 다른 3개 노드 중 하나로 즉시 핫 이동합니다. 연결된 스위치에 여러 개의 무상 ARP(Address Resolution Protocol) 요청을 전송하여 클라이언트 I/O가 중단 없이 계속되도록 합니다."

IP 주소가 할당된 후 동일한 서브넷의 호스트가 노드 10에서 GARP(Gratuitous ARP) 패킷을 수신하지 않았습니다. 따라서 ARP 항목이 호스트에서 제대로 업데이트되지 않아 네트워크 연결 문제가 발생했습니다. 원인은 ARP 브로드캐스트가 네트워크 수준에서 삭제되거나 차단되기 때문입니다. Cisco ACI(Application Centric Infrastructure)는 잘못된 컨피그레이션으로 인해 이러한 문제에 기여했습니다.

Resolution

해결 방법:

장기적인 해결책으로 스위치 측에서 "Gratuitous ARP Flooding"을 활성화해야 합니다.

다음 기술 자료 문서는 Cisco ACI의 누적 권장 사항을 자세히 설명하기 위한 것입니다.

해결 방법:

이 문제를 해결하려면 영향을 받는 호스트에서 "arp -d" 명령을 사용하여 오래된 ARP 항목을 삭제할 수 있습니다. 호스트는 IP에 대한 새 ARP 확인 요청을 브로드캐스트하고 업데이트된 MAC 주소로 ARP 테이블을 업데이트합니다.

Additional Information

이 문제는 모든 PowerScale 노드 및 클라이언트 시스템에서 패킷 캡처를 통해 추가로 해결할 수 있습니다. 이는 노드가 설계된 대로 GARP 패킷을 수신했음을 증명합니다. 그러나 문제가 발생한 호스트는 GARP 패킷을 수신하지 않았습니다.

IP 10.x.x.43이 노드 10으로 이동되었을 때 노드 10은 실제로 IP 10.x.x.43과 관련된 GARP 패킷을 전송했습니다.

[~]$ tshark -t ad -r node-10_mlxen0.pcap | grep ARP | grep Gratui
3781 2018-11-15 16:06:47.711230 ec:0d:xx:xx:c0:80 Broadcast ARP 42 Gratuitous ARP for 10.x.x.43 (Request)
3783 2018-11-15 16:06:47.753820 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3784 2018-11-15 16:06:47.753841 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3791 2018-11-15 16:06:48.823611 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3792 2018-11-15 16:06:48.823633 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3799 2018-11-15 16:06:49.835902 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3800 2018-11-15 16:06:49.835926 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3807 2018-11-15 16:06:50.933966 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3808 2018-11-15 16:06:50.934000 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3815 2018-11-15 16:06:52.034005 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3816 2018-11-15 16:06:52.034048 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3824 2018-11-15 16:06:53.084292 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3825 2018-11-15 16:06:53.084343 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3832 2018-11-15 16:06:54.134719 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3833 2018-11-15 16:06:54.134764 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3840 2018-11-15 16:06:55.222125 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3841 2018-11-15 16:06:55.222171 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3848 2018-11-15 16:06:56.283997 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3849 2018-11-15 16:06:56.284023 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3856 2018-11-15 16:06:57.370114 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
3857 2018-11-15 16:06:57.370142 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)

패킷 캡처는 노드 1이 IP 10.x.x.43의 이동과 관련된 GARP 패킷을 수신하지 않았음을 보여줍니다.

[~]$ tshark -t ad -r node-1_mlxen1.pcap | grep -i arp | grep Gratuitous | grep 10.x.x.43
[~]$

패킷 캡처는 클라이언트가 GARP 패킷도 수신하지 않았음을 보여줍니다.

[~]$ tshark -t ad -r client.pcap | grep ARP | grep Gratuitous | grep 10.x.x.43
[~]$

호스트가 GARP 패킷을 수신하지 않으면 IP 10.x.x.43에 대한 ARP 테이블 항목이 업데이트되지 않았습니다. 여전히 잘못된 MAC ec:0d:xx:xx:c5:00에 매핑됩니다. 따라서 IP 10.x.x.43에 연결할 수 없습니다.

Affected Products

Isilon

Products

Isilon A2000, Isilon F800, Isilon F810, Isilon Gen6, Isilon H400, Isilon H500, Isilon H5600, Isilon H600, Isilon HD400, Isilon IQ 10000X-SSD, Isilon IQ 108000X, Isilon IQ 12000, Isilon IQ 12000X, Isilon IQ 1920i, Isilon IQ 3000X, Isilon IQ 32000X-SSD , Isilon IQ 36000X, Isilon IQ 5400S, Isilon IQ 6000X, Isilon IQ 72000X, Isilon IQ 9000X, Isilon IQ-Series, Isilon NL-Series, Isilon NL400, Isilon NL410, PowerScale OneFS, Isilon Performance Accelerator, Isilon S-Series, Isilon S200, Isilon S210, Isilon Scale-out NAS, Isilon SmartConnect, Isilon X-Series, Isilon X200, Isilon X210, Isilon X400, Isilon X410 ...
Article Properties
Article Number: 000056945
Article Type: Solution
Last Modified: 03 Jun 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.