PowerScale: Občasné odpojení od dynamických IP adres uzlu PowerScale
Summary: Tento článek popisuje občasné odpojení od dynamických IP adres uzlů PowerScale během postupného restartování nebo postupného upgradu. K tomu dochází kvůli neplatným (starým) položkám protokolu ARP (Address Resolution Protocol) v klientovi. ...
Symptoms
Během postupného restartování nebo postupného upgradu se mohou někteří klienti ve stejné podsíti jako cluster PowerScale odpojit od dynamických IP adres PowerScale. Problém se vyskytne pouze klientům ve stejné podsíti s clusterem Isilon. Klienti nemohou s problémem pingnout ani dynamické IP adresy. To se může stát i ostatním uzlům ve stejném clusteru Isilon. Některé uzly v clusteru nemohou odeslat příkaz ping na žádné dynamické IP adresy na jiných uzlech. Kontrola tabulky ARP na klientském počítači, který nemůže odeslat příkaz ping na dynamickou IP adresu, zobrazí neplatnou položku. Tabulka ARP stále obsahuje starou položku, která mapuje dynamickou IP adresu na nesprávnou adresu MAC.
Například uzel 11 se restartoval a dynamická IP adresa 10.x.x.43 byla přesunuta do uzlu 10, aby nedošlo k prostojům. Poté uzel 1 začal selhávat v dotazování ping na IP adresu.
Po kontrole tabulky ARP v uzlu 1 byla položka pro uzel 11 neplatná. Ukázalo se, že IP 10.x.x.43 je stále mapována na MAC uzlu 11 ec :0d:xx:xx:c5:00.
node-1# arp -a ? (10.x.x.43) at ec:0d:xx:xx:c5:00 on mlxen1 expires in 232 seconds [ethernet]
Adresa MAC uzlu 11 je ec:0d:xx:xx:c5:00.
node-11: mlxen0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 node-11: options=d07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE> node-11: ether ec:0d:xx:xx:c5:00 node-11: inet 10.x.x.43 netmask 0xffffff00 broadcast 10.x.x.255 zone 1 node-11: nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> node-11: media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) node-11: status: active
Po restartování uzlu 11 byla adresa IP 10.x.x.43 přesunuta do uzlu 10.
2018-11-15T16:06:45+09:00 <3.6> node-1 isi_smartconnect[5222]: Assigned unused IP 10.x.x.43 to { key=10,40gige-1 addr_idx=0 lni=40gige-1 nic=mlxen0[Up] vlan_nic=<NULL> addrs={ 10.x.x.43 } } . 2018-11-15T16:06:45+09:00 <3.6> node-1 isi_smartconnect[5222]: FLXAPI: OP: FLXAPI_OP_CURRENT_STATE Pool[2:1:1:1]: subnet0 zones: filer25.xxx.com IP[18]: 10.x.x.21:up IP[18]: 10.x.x.54:up IP[17]: 10.x.x.32:up IP[17]: 10.x.x.56:up IP[17]: 10.x.x.30:up IP[16]: 10.x.x.37:up IP[16]: 10.x.x.39:up IP[16]: 10.x.x.45:up IP[15]: 10.x.x.29:up IP[15]: 10.x.x.33:up IP[15]: 10.x.x.49:up IP[14]: 10.x.x.31:up IP[14]: 10.x.x.34:up IP[13]: 10.x.x.38:up IP[13]: 10.x.x.40:up IP[13]: 10.x.x.46:up IP[12]: 10.x.x.41:up IP[12]: 10.x.x.36:up IP[10]: 10.x.x.53:up IP[10]: 10.x.x.43:up IP[9]: 10.x.x.44:up IP[9]: 10.x.x.28:up IP[8]: 10.x.x.51:up IP[8]: 10.x.x.26:up IP[7]: 10.x.x.55:up IP[7]: 10.x.x.35:up IP[6]: 10.x.x.42:up IP[6]: 10.x.x.24:up IP[5]: 10.x.x.52:up IP[5]: 10.x.x.25:up IP[4]: 10.x.x.48:up IP[4]: 10.x.x.50:up IP[3]: 10.x.x.22:up IP[3]: 10.x.x.27:up IP[2]: 10.x.x.47:up IP[2]: 10.x.x.23:up
Adresa MAC uzlu 10 je ec:0d:xx:xx:c0:80.
node-10: mlxen0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 node-10: options=d07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE> node-10: ether ec:0d:xx:xx:c0:80 node-10: inet 10.x.x.43 netmask 0xffffff00 broadcast 10.x.x.255 zone 1 node-10: nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> node-10: media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) node-10: status: active
Položka ARP na uzlu 1 byla namapována na neplatnou (starou) adresu MAC. To má za následek, že žádný klient nebo uzel nebude moci připojit IP adresu, dokud nebude opraven.
Cause
Podle zprávy "PowerScale Network Design Considerations"
https://infohub.delltechnologies.com/es-es/t/dell-powerscale-network-design-considerations/
zóna SmartConnect s dynamickým přidělováním IP adres okamžitě přesune jednu IP adresu vadného uzlu do jednoho z dalších tří uzlů v clusteru. Odesílá několik bezdůvodných požadavků protokolu ARP (Address Resolution Protocol) do připojeného přepínače, takže klientský vstupně-výstupní výkon pokračuje bez přerušení."
Hostitelé ve stejné podsíti neobdrželi pakety GARP (Gratuitous ARP) z uzlu 10 po přiřazení adresy IP. Položka ARP tedy nebyla na hostitelích správně aktualizována, což způsobuje problém se síťovým připojením. Příčinou je, že vysílání ARP je buď zahozeno, nebo blokováno na úrovni sítě. TCisco Application Centric Infrastructure (ACI) přispěla k těmto problémům kvůli nesprávné konfiguraci.
Resolution
Řešení:
Jako dlouhodobé řešení musí být na straně přepínače povoleno "Bezdůvodné zahlcení ARP".
Následující články znalostní databáze jsou určeny k popisu (podrobně) kumulativních doporučení pro Cisco ACI.
- [000032487] Detekce neautorizovaných IP adres v síťových přepínačích Cisco ACI
- [000028116] Klienti se odpojí poté, co se IP adresa přesune a používá se Cisco ACI.
Zástupné řešení:
Zástupným řešením je odstranit zastaralou položku ARP pomocí příkazu "arp -d" na dotčených hostitelích. Hostitelé vysílají nový požadavek na překlad ARP pro IP adresu a aktualizují své tabulky ARP aktualizovanou adresou MAC.
Additional Information
Tento problém lze dále řešit zachytáváním paketů na všech uzlech PowerScale a klientských počítačích. To dokazuje, že uzel přijal pakety GARP tak, jak byly navrženy. Hostitel, u kterého došlo k problému, však neobdržel pakety GARP.
Když byla IP 10.x.x.43 přesunuta do uzlu 10, uzel 10 skutečně odeslal pakety GARP týkající se IP 10.x.x.43.
[~]$ tshark -t ad -r node-10_mlxen0.pcap | grep ARP | grep Gratui 3781 2018-11-15 16:06:47.711230 ec:0d:xx:xx:c0:80 Broadcast ARP 42 Gratuitous ARP for 10.x.x.43 (Request) 3783 2018-11-15 16:06:47.753820 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3784 2018-11-15 16:06:47.753841 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3791 2018-11-15 16:06:48.823611 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3792 2018-11-15 16:06:48.823633 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3799 2018-11-15 16:06:49.835902 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3800 2018-11-15 16:06:49.835926 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3807 2018-11-15 16:06:50.933966 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3808 2018-11-15 16:06:50.934000 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3815 2018-11-15 16:06:52.034005 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3816 2018-11-15 16:06:52.034048 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3824 2018-11-15 16:06:53.084292 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3825 2018-11-15 16:06:53.084343 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3832 2018-11-15 16:06:54.134719 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3833 2018-11-15 16:06:54.134764 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3840 2018-11-15 16:06:55.222125 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3841 2018-11-15 16:06:55.222171 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3848 2018-11-15 16:06:56.283997 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3849 2018-11-15 16:06:56.284023 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3856 2018-11-15 16:06:57.370114 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3857 2018-11-15 16:06:57.370142 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
Zachytávání paketů ukazuje, že uzel 1 neobdržel žádné pakety GARP týkající se pohybu IP 10.x.x.43.
[~]$ tshark -t ad -r node-1_mlxen1.pcap | grep -i arp | grep Gratuitous | grep 10.x.x.43 [~]$
Zachytávání paketů ukazuje, že klient neobdržel ani pakety GARP.
[~]$ tshark -t ad -r client.pcap | grep ARP | grep Gratuitous | grep 10.x.x.43 [~]$
Pokud hostitelé nepřijímají pakety GARP, jejich záznamy v tabulce ARP pro IP 10.x.x.43 nebyly aktualizovány. Stále jsou namapovány na nesprávnou adresu MAC ec:0d:xx:xx:c5:00. Proto nemohli dosáhnout IP 10.x.x.43.