PowerScale. Периодическое отключение от динамических IP-адресов узла PowerScale
Summary: В этой статье описывается периодическое отключение от динамических IP-адресов узлов PowerScale во время последовательной перезагрузки или последовательной модернизации. Это происходит из-за недействительных (старых) записей протокола ARP (Address Resolution Protocol) на клиенте. ...
Symptoms
Во время последовательной перезагрузки или последовательной модернизации некоторые клиенты в той же подсети, что и кластер PowerScale, могут отключиться от динамических IP-адресов PowerScale. Проблема возникает только у клиентов в той же подсети, что и кластер Isilon. Клиенты не могут даже проверить связь между динамическими IP-адресами и вызвать проблему. То же самое может произойти и с другими узлами в том же кластере Isilon. Некоторые узлы в кластере не могут проверить связь с динамическими IP-адресами на других узлах. Проверка таблицы ARP на клиентском компьютере, который не может проверить связь с динамическим IP-адресом, показывает недопустимую запись. В таблице ARP по-прежнему есть старая запись, которая сопоставляет динамический IP-адрес с неверным MAC-адресом.
Например, узел 11 перезагрузился, а динамический IP-адрес 10.x.x.43 был перемещен на узел 10, чтобы избежать простоя. Затем узлу 1 не удалось проверить связь с IP-адресом.
После просмотра таблицы ARP на узле 1 была сделана недопустимая запись для узла 11. Он показал, что IP-адрес 10.x.x.43 по-прежнему сопоставлен с MAC-адресом узла 11 ec:0d:xx:xx:c5:00.
node-1# arp -a ? (10.x.x.43) at ec:0d:xx:xx:c5:00 on mlxen1 expires in 232 seconds [ethernet]
MAC-адрес для узла 11: ec:0d:xx:xx:c5:00.
node-11: mlxen0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 node-11: options=d07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE> node-11: ether ec:0d:xx:xx:c5:00 node-11: inet 10.x.x.43 netmask 0xffffff00 broadcast 10.x.x.255 zone 1 node-11: nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> node-11: media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) node-11: status: active
При перезагрузке узла 11 IP-адрес 10.x.x.43 был перемещен на узел 10.
2018-11-15T16:06:45+09:00 <3.6> node-1 isi_smartconnect[5222]: Assigned unused IP 10.x.x.43 to { key=10,40gige-1 addr_idx=0 lni=40gige-1 nic=mlxen0[Up] vlan_nic=<NULL> addrs={ 10.x.x.43 } } . 2018-11-15T16:06:45+09:00 <3.6> node-1 isi_smartconnect[5222]: FLXAPI: OP: FLXAPI_OP_CURRENT_STATE Pool[2:1:1:1]: subnet0 zones: filer25.xxx.com IP[18]: 10.x.x.21:up IP[18]: 10.x.x.54:up IP[17]: 10.x.x.32:up IP[17]: 10.x.x.56:up IP[17]: 10.x.x.30:up IP[16]: 10.x.x.37:up IP[16]: 10.x.x.39:up IP[16]: 10.x.x.45:up IP[15]: 10.x.x.29:up IP[15]: 10.x.x.33:up IP[15]: 10.x.x.49:up IP[14]: 10.x.x.31:up IP[14]: 10.x.x.34:up IP[13]: 10.x.x.38:up IP[13]: 10.x.x.40:up IP[13]: 10.x.x.46:up IP[12]: 10.x.x.41:up IP[12]: 10.x.x.36:up IP[10]: 10.x.x.53:up IP[10]: 10.x.x.43:up IP[9]: 10.x.x.44:up IP[9]: 10.x.x.28:up IP[8]: 10.x.x.51:up IP[8]: 10.x.x.26:up IP[7]: 10.x.x.55:up IP[7]: 10.x.x.35:up IP[6]: 10.x.x.42:up IP[6]: 10.x.x.24:up IP[5]: 10.x.x.52:up IP[5]: 10.x.x.25:up IP[4]: 10.x.x.48:up IP[4]: 10.x.x.50:up IP[3]: 10.x.x.22:up IP[3]: 10.x.x.27:up IP[2]: 10.x.x.47:up IP[2]: 10.x.x.23:up
MAC-адрес для узла 10: ec:0d:xx:xx:c0:80.
node-10: mlxen0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 node-10: options=d07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE> node-10: ether ec:0d:xx:xx:c0:80 node-10: inet 10.x.x.43 netmask 0xffffff00 broadcast 10.x.x.255 zone 1 node-10: nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> node-10: media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) node-10: status: active
Запись ARP на узле 1 была сопоставлена с недопустимым (старым) MAC-адресом. Это приводит к тому, что ни один клиент или узел не может подключиться к IP-адресу до тех пор, пока он не будет исправлен.
Cause
В соответствии с рекомендациями
по проектированию сетей PowerScale https://infohub.delltechnologies.com/es-es/t/dell-powerscale-network-design-considerations/
зона SmartConnect с динамическим распределением IP-адресов немедленно перемещает один IP-адрес на неисправном узле на один из трех других узлов в кластере. Он отправляет несколько запросов на протоколы ARP (Address Resolution Protocol) на подключенный коммутатор, так что клиентский ввод-вывод продолжается без прерываний».
Хосты в одной подсети не получали бесплатные пакеты ARP (GARP) от узла 10 после назначения IP-адреса. Таким образом, запись ARP не была обновлена должным образом на хостах, что привело к проблеме с сетевым подключением. Причина заключается в том, что ARP-рассылки либо отклоняются, либо блокируются на сетевом уровне. Инфраструктура Cisco Application Centric Infrastructure (ACI) способствовала возникновению этих проблем из-за неправильной настройки.
Resolution
Решение.
В качестве долгосрочного решения на стороне коммутатора должен быть включен «Gratuitous ARP Flooding».
Следующие статьи базы знаний предназначены для описания (подробно) совокупных рекомендаций с помощью Cisco ACI.
- [000032487] Обнаружение мошеннических IP-адресов в сетевых коммутаторах Cisco ACI
- [000028116] Клиенты отключаются после перемещения IP-адреса и использования Cisco ACI
Временное решение.
В качестве временного решения устаревшую запись ARP можно удалить с помощью команды «arp -d» на затронутых хостах. Хосты рассылают новый запрос разрешения ARP для IP-адреса и обновляют свои ARP-таблицы с помощью обновленного MAC-адреса.
Additional Information
Эту проблему можно устранить дополнительно с помощью захвата пакетов на всех узлах PowerScale и клиентских компьютерах. Это доказывает, что узел получил пакеты GARP в соответствии с проектом. Однако хост, на котором возникла проблема, не получал пакеты GARP.
Когда IP 10.x.x.43 был перемещен на узел 10, узел 10 действительно отправлял пакеты GARP относительно IP 10.x.x.43.
[~]$ tshark -t ad -r node-10_mlxen0.pcap | grep ARP | grep Gratui 3781 2018-11-15 16:06:47.711230 ec:0d:xx:xx:c0:80 Broadcast ARP 42 Gratuitous ARP for 10.x.x.43 (Request) 3783 2018-11-15 16:06:47.753820 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3784 2018-11-15 16:06:47.753841 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3791 2018-11-15 16:06:48.823611 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3792 2018-11-15 16:06:48.823633 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3799 2018-11-15 16:06:49.835902 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3800 2018-11-15 16:06:49.835926 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3807 2018-11-15 16:06:50.933966 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3808 2018-11-15 16:06:50.934000 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3815 2018-11-15 16:06:52.034005 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3816 2018-11-15 16:06:52.034048 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3824 2018-11-15 16:06:53.084292 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3825 2018-11-15 16:06:53.084343 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3832 2018-11-15 16:06:54.134719 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3833 2018-11-15 16:06:54.134764 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3840 2018-11-15 16:06:55.222125 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3841 2018-11-15 16:06:55.222171 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3848 2018-11-15 16:06:56.283997 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3849 2018-11-15 16:06:56.284023 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3856 2018-11-15 16:06:57.370114 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3857 2018-11-15 16:06:57.370142 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
Сбор пакетов показывает, что узел 1 не получил никаких пакетов GARP, связанных с перемещением IP-адреса 10.x.x.43.
[~]$ tshark -t ad -r node-1_mlxen1.pcap | grep -i arp | grep Gratuitous | grep 10.x.x.43 [~]$
Захват пакетов показывает, что клиент также не получал пакеты GREP.
[~]$ tshark -t ad -r client.pcap | grep ARP | grep Gratuitous | grep 10.x.x.43 [~]$
Когда хосты не получают пакеты GREP, их записи в таблице ARP для IP 10.x.x.43 не обновлялись. Они по-прежнему сопоставлены с неверным MAC-адресом ec:0d:xx:xx:c5:00. Таким образом, они не смогли достичь IP 10.x.x.43.