PowerScale: Desconexión intermitente a las IP dinámicas de nodos de PowerScale
Summary: En este artículo, se describe la desconexión intermitente a las direcciones IP dinámicas de los nodos PowerScale durante el reinicio gradual o la actualización gradual. Esto sucede debido a entradas no válidas (antiguas) del protocolo de resolución de direcciones (ARP) en el cliente. ...
Symptoms
Durante un reinicio gradual o una actualización gradual, es posible que algunos clientes de la misma subred que el clúster de PowerScale se desconecten de las IP dinámicas de PowerScale. Solo los clientes en la misma subred con el clúster Isilon tienen el problema. Los clientes ni siquiera pueden hacer ping a las IP dinámicas con el problema. Esto también le puede suceder a los otros nodos de ese mismo clúster de Isilon. Algunos nodos del clúster no pueden hacer ping a ninguna IP dinámica en otros nodos. La comprobación de la tabla ARP en una máquina cliente que no puede hacer ping a una IP dinámica muestra una entrada no válida. La tabla ARP aún tiene la entrada antigua que asigna la IP dinámica a la dirección MAC incorrecta.
Por ejemplo, el nodo 11 se reinició y la IP dinámica 10.x.x.43 se transfirió al nodo 10 para evitar tiempo de inactividad. A continuación, el nodo 1 comenzó a fallar al hacer ping a la IP.
Después de revisar la tabla ARP en el nodo 1, la entrada para el nodo 11 no era válida. Mostró que la IP 10.x.x.43 aún estaba asignada a MAC ec:0d:xx:xx:c5:00 del nodo 11.
node-1# arp -a ? (10.x.x.43) at ec:0d:xx:xx:c5:00 on mlxen1 expires in 232 seconds [ethernet]
La dirección MAC para el nodo 11 es ec:0d:xx:xx:c5:00.
node-11: mlxen0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 node-11: options=d07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE> node-11: ether ec:0d:xx:xx:c5:00 node-11: inet 10.x.x.43 netmask 0xffffff00 broadcast 10.x.x.255 zone 1 node-11: nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> node-11: media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) node-11: status: active
Cuando se reinicia el nodo 11, la IP 10.x.x.43 se transfiere al nodo 10.
2018-11-15T16:06:45+09:00 <3.6> node-1 isi_smartconnect[5222]: Assigned unused IP 10.x.x.43 to { key=10,40gige-1 addr_idx=0 lni=40gige-1 nic=mlxen0[Up] vlan_nic=<NULL> addrs={ 10.x.x.43 } } . 2018-11-15T16:06:45+09:00 <3.6> node-1 isi_smartconnect[5222]: FLXAPI: OP: FLXAPI_OP_CURRENT_STATE Pool[2:1:1:1]: subnet0 zones: filer25.xxx.com IP[18]: 10.x.x.21:up IP[18]: 10.x.x.54:up IP[17]: 10.x.x.32:up IP[17]: 10.x.x.56:up IP[17]: 10.x.x.30:up IP[16]: 10.x.x.37:up IP[16]: 10.x.x.39:up IP[16]: 10.x.x.45:up IP[15]: 10.x.x.29:up IP[15]: 10.x.x.33:up IP[15]: 10.x.x.49:up IP[14]: 10.x.x.31:up IP[14]: 10.x.x.34:up IP[13]: 10.x.x.38:up IP[13]: 10.x.x.40:up IP[13]: 10.x.x.46:up IP[12]: 10.x.x.41:up IP[12]: 10.x.x.36:up IP[10]: 10.x.x.53:up IP[10]: 10.x.x.43:up IP[9]: 10.x.x.44:up IP[9]: 10.x.x.28:up IP[8]: 10.x.x.51:up IP[8]: 10.x.x.26:up IP[7]: 10.x.x.55:up IP[7]: 10.x.x.35:up IP[6]: 10.x.x.42:up IP[6]: 10.x.x.24:up IP[5]: 10.x.x.52:up IP[5]: 10.x.x.25:up IP[4]: 10.x.x.48:up IP[4]: 10.x.x.50:up IP[3]: 10.x.x.22:up IP[3]: 10.x.x.27:up IP[2]: 10.x.x.47:up IP[2]: 10.x.x.23:up
La dirección MAC para el nodo 10 es ec:0d:xx:xx:c0:80.
node-10: mlxen0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 node-10: options=d07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE> node-10: ether ec:0d:xx:xx:c0:80 node-10: inet 10.x.x.43 netmask 0xffffff00 broadcast 10.x.x.255 zone 1 node-10: nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> node-10: media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) node-10: status: active
La entrada ARP en el nodo 1 se asignó a una dirección MAC no válida (antigua). Esto hace que cualquier cliente o nodo no pueda conectar la dirección IP hasta que se corrija.
Cause
De acuerdo con las "Consideraciones de diseño de red PowerScale https://infohub.delltechnologies.com/es-es/t/dell-powerscale-network-design-considerations/"
Una zona de SmartConnect con asignación dinámica para direcciones IP realiza inmediatamente un movimiento en caliente de una dirección IP en el nodo fallido a uno de los otros tres nodos del clúster. Envía varias solicitudes gratuitas de protocolos de resolución de direcciones (ARP) al conmutador conectado, de modo que las I/O del cliente continúen sin interrupciones".
Los hosts en la misma subred no recibieron paquetes ARP gratuitos (GARP) del nodo 10 después de que se asignó la dirección IP. Por lo tanto, la entrada ARP no se actualizó correctamente en los hosts, lo que da como resultado un problema de conexión de red. La causa es que las transmisiones de ARP se descartan o bloquean en el nivel de red. La infraestructura centrada en aplicaciones (ACI) de Cisco ha contribuido a estos problemas debido a una configuración incorrecta.
Resolution
Solución:
Como solución a largo plazo, se debe habilitar la "inundación gratuita de ARP" en el lado del switch.
Los siguientes artículos de la base de conocimientos están destinados a describir (en detalle) las recomendaciones acumulativas con Cisco ACI.
- [000032487] Detección de IP no autorizada en switches de red Cisco ACI
- [000028116] Los clientes se desconectan después de que se transfiere la dirección IP y Cisco ACI está en uso
Solución alternativa:
Como solución alternativa, la entrada de ARP obsoleta se puede eliminar con el comando "arp -d" en los hosts afectados. Los hosts transmiten una nueva solicitud de resolución de ARP para la IP y actualizan sus tablas de ARP con la dirección MAC actualizada.
Additional Information
Este problema se puede solucionar aún más con una captura de paquetes en todos los nodos PowerScale y máquinas cliente. Esto demuestra que el nodo recibió los paquetes GARP según lo diseñado. Sin embargo, el host que experimentó el problema no recibió paquetes GARP.
Cuando la IP 10.x.x.43 se transfirió al nodo 10, el nodo 10 envió paquetes GARP con respecto a la IP 10.x.x.43.
[~]$ tshark -t ad -r node-10_mlxen0.pcap | grep ARP | grep Gratui 3781 2018-11-15 16:06:47.711230 ec:0d:xx:xx:c0:80 Broadcast ARP 42 Gratuitous ARP for 10.x.x.43 (Request) 3783 2018-11-15 16:06:47.753820 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3784 2018-11-15 16:06:47.753841 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3791 2018-11-15 16:06:48.823611 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3792 2018-11-15 16:06:48.823633 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3799 2018-11-15 16:06:49.835902 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3800 2018-11-15 16:06:49.835926 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3807 2018-11-15 16:06:50.933966 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3808 2018-11-15 16:06:50.934000 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3815 2018-11-15 16:06:52.034005 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3816 2018-11-15 16:06:52.034048 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3824 2018-11-15 16:06:53.084292 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3825 2018-11-15 16:06:53.084343 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3832 2018-11-15 16:06:54.134719 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3833 2018-11-15 16:06:54.134764 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3840 2018-11-15 16:06:55.222125 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3841 2018-11-15 16:06:55.222171 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3848 2018-11-15 16:06:56.283997 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3849 2018-11-15 16:06:56.284023 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3856 2018-11-15 16:06:57.370114 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3857 2018-11-15 16:06:57.370142 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
La captura de paquetes muestra que el nodo 1 no recibió ningún paquete GARP con respecto al movimiento de IP 10.x.x.43.
[~]$ tshark -t ad -r node-1_mlxen1.pcap | grep -i arp | grep Gratuitous | grep 10.x.x.43 [~]$
La captura de paquetes muestra que el cliente tampoco recibió los paquetes GARP.
[~]$ tshark -t ad -r client.pcap | grep ARP | grep Gratuitous | grep 10.x.x.43 [~]$
Cuando los hosts no reciben paquetes GARP, sus entradas de la tabla ARP para IP 10.x.x.43 no se actualizan. Aún están mapeados a la MAC incorrecta ec:0d:xx:xx:c5:00. Por lo tanto, no pudieron alcanzar la IP 10.x.x.43.