PowerScale: Disconnessione intermittente agli IP dinamici dei nodi PowerScale
Summary: Questo articolo descrive la disconnessione intermittente agli IP dinamici dei nodi PowerScale durante il riavvio o l'aggiornamento in sequenza. Ciò si verifica a causa di voci ARP (Address Resolution Protocol) non valide (precedenti) sul client. ...
Symptoms
Durante un riavvio o un aggiornamento in sequenza, alcuni client sulla stessa subnet del cluster PowerScale potrebbero disconnettersi dagli IP dinamici PowerScale. Solo i client sulla stessa subnet con il cluster Isilon presentano il problema. I client non possono nemmeno eseguire il ping degli IP dinamici con il problema. Ciò può verificarsi anche per gli altri nodi nello stesso cluster Isilon. Alcuni nodi del cluster non possono eseguire il ping di IP dinamici su altri nodi. Il controllo della tabella ARP su un computer client che non è in grado di eseguire il ping di un IP dinamico mostra una voce non valida. La tabella ARP ha ancora la vecchia voce che mappa l'IP dinamico all'indirizzo MAC errato.
Ad esempio, il nodo 11 è stato riavviato e l'IP dinamico 10.x.x.43 è stato spostato al nodo 10 per evitare downtime. Quindi, il nodo 1 ha iniziato a non riuscire a eseguire il ping dell'IP.
Dopo aver esaminato la tabella ARP sul nodo 1, la voce relativa al nodo 11 non è valida. Ha mostrato che IP 10.x.x.43 era ancora mappato al MAC ec:0d:xx:xx:c5:00 del nodo 11.
node-1# arp -a ? (10.x.x.43) at ec:0d:xx:xx:c5:00 on mlxen1 expires in 232 seconds [ethernet]
L'indirizzo MAC per il nodo 11 è ec:0d:xx:xx:c5:00.
node-11: mlxen0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 node-11: options=d07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE> node-11: ether ec:0d:xx:xx:c5:00 node-11: inet 10.x.x.43 netmask 0xffffff00 broadcast 10.x.x.255 zone 1 node-11: nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> node-11: media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) node-11: status: active
Quando il nodo 11 viene riavviato, IP 10.x.x.43 è stato spostato al nodo 10.
2018-11-15T16:06:45+09:00 <3.6> node-1 isi_smartconnect[5222]: Assigned unused IP 10.x.x.43 to { key=10,40gige-1 addr_idx=0 lni=40gige-1 nic=mlxen0[Up] vlan_nic=<NULL> addrs={ 10.x.x.43 } } . 2018-11-15T16:06:45+09:00 <3.6> node-1 isi_smartconnect[5222]: FLXAPI: OP: FLXAPI_OP_CURRENT_STATE Pool[2:1:1:1]: subnet0 zones: filer25.xxx.com IP[18]: 10.x.x.21:up IP[18]: 10.x.x.54:up IP[17]: 10.x.x.32:up IP[17]: 10.x.x.56:up IP[17]: 10.x.x.30:up IP[16]: 10.x.x.37:up IP[16]: 10.x.x.39:up IP[16]: 10.x.x.45:up IP[15]: 10.x.x.29:up IP[15]: 10.x.x.33:up IP[15]: 10.x.x.49:up IP[14]: 10.x.x.31:up IP[14]: 10.x.x.34:up IP[13]: 10.x.x.38:up IP[13]: 10.x.x.40:up IP[13]: 10.x.x.46:up IP[12]: 10.x.x.41:up IP[12]: 10.x.x.36:up IP[10]: 10.x.x.53:up IP[10]: 10.x.x.43:up IP[9]: 10.x.x.44:up IP[9]: 10.x.x.28:up IP[8]: 10.x.x.51:up IP[8]: 10.x.x.26:up IP[7]: 10.x.x.55:up IP[7]: 10.x.x.35:up IP[6]: 10.x.x.42:up IP[6]: 10.x.x.24:up IP[5]: 10.x.x.52:up IP[5]: 10.x.x.25:up IP[4]: 10.x.x.48:up IP[4]: 10.x.x.50:up IP[3]: 10.x.x.22:up IP[3]: 10.x.x.27:up IP[2]: 10.x.x.47:up IP[2]: 10.x.x.23:up
L'indirizzo MAC per il nodo 10 è ec:0d:xx:xx:c0:80.
node-10: mlxen0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 node-10: options=d07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE> node-10: ether ec:0d:xx:xx:c0:80 node-10: inet 10.x.x.43 netmask 0xffffff00 broadcast 10.x.x.255 zone 1 node-10: nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> node-10: media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) node-10: status: active
La voce ARP sul nodo 1 è stata mappata a un indirizzo MAC non valido (precedente). Di conseguenza, qualsiasi client o nodo non è in grado di connettere l'indirizzo IP fino a quando non viene corretto.
Cause
Secondo le "Considerazioni sulla progettazione della rete PowerScale https://infohub.delltechnologies.com/es-es/t/dell-powerscale-network-design-considerations/
"Una zona SmartConnect con allocazione dinamica per gli indirizzi IP sposta immediatamente a caldo un indirizzo IP sul nodo guasto in uno degli altri tre nodi del cluster. Invia diverse richieste ARP (Address Resolution Protocol) gratuite allo switch connesso, in modo che l'I/O client continui senza interruzioni.
Gli host sulla stessa subnet non hanno ricevuto pacchetti GARP gratuiti (GARP) dal nodo 10 dopo l'assegnazione dell'indirizzo IP. Pertanto, la voce ARP non è stata aggiornata correttamente sugli host, causando un problema di connessione di rete. Il motivo è che le trasmissioni ARP vengono interrotte o bloccate a livello di rete. Cisco Application Centric Infrastructure (ACI) ha contribuito a questi problemi a causa di una configurazione errata.
Resolution
Soluzione:
Come soluzione a lungo termine, l'opzione "Flooding ARP gratuito" deve essere abilitata sul lato switch.
I seguenti articoli della Knowledge Base hanno lo scopo di descrivere (in dettaglio) i suggerimenti cumulativi con Cisco ACI.
- [000032487] Rilevamento di IP non autorizzati negli switch di rete Cisco ACI
- [000028116] I client si disconnettono dopo lo spostamento dell'indirizzo IP e Cisco ACI è in uso
Soluzione alternativa:
Come soluzione alternativa, la voce ARP obsoleta potrebbe essere eliminata con il comando "arp -d" sugli host interessati. Gli host trasmettono una nuova richiesta di risoluzione ARP per l'IP e aggiornano le tabelle ARP con l'indirizzo MAC aggiornato.
Additional Information
Questo problema può essere risolto ulteriormente con un'acquisizione di pacchetti su tutti i nodi PowerScale e i computer client. Ciò dimostra che il nodo ha ricevuto i pacchetti GARP come previsto. Tuttavia, l'host che ha riscontrato il problema non ha ricevuto i pacchetti GARP.
Quando IP 10.x.x.43 è stato spostato al nodo 10, il nodo 10 ha effettivamente inviato pacchetti GARP relativi a IP 10.x.x.43.
[~]$ tshark -t ad -r node-10_mlxen0.pcap | grep ARP | grep Gratui 3781 2018-11-15 16:06:47.711230 ec:0d:xx:xx:c0:80 Broadcast ARP 42 Gratuitous ARP for 10.x.x.43 (Request) 3783 2018-11-15 16:06:47.753820 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3784 2018-11-15 16:06:47.753841 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3791 2018-11-15 16:06:48.823611 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3792 2018-11-15 16:06:48.823633 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3799 2018-11-15 16:06:49.835902 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3800 2018-11-15 16:06:49.835926 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3807 2018-11-15 16:06:50.933966 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3808 2018-11-15 16:06:50.934000 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3815 2018-11-15 16:06:52.034005 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3816 2018-11-15 16:06:52.034048 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3824 2018-11-15 16:06:53.084292 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3825 2018-11-15 16:06:53.084343 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3832 2018-11-15 16:06:54.134719 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3833 2018-11-15 16:06:54.134764 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3840 2018-11-15 16:06:55.222125 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3841 2018-11-15 16:06:55.222171 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3848 2018-11-15 16:06:56.283997 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3849 2018-11-15 16:06:56.284023 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3856 2018-11-15 16:06:57.370114 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request) 3857 2018-11-15 16:06:57.370142 ec:0d:xx:xx:c0:80 Broadcast ARP 60 Gratuitous ARP for 10.x.x.43 (Request)
L'acquisizione dei pacchetti mostra che il nodo 1 non ha ricevuto pacchetti GARP relativi allo spostamento di IP 10.x.x.43.
[~]$ tshark -t ad -r node-1_mlxen1.pcap | grep -i arp | grep Gratuitous | grep 10.x.x.43 [~]$
L'acquisizione dei pacchetti mostra che anche il client non ha ricevuto i pacchetti GAR.
[~]$ tshark -t ad -r client.pcap | grep ARP | grep Gratuitous | grep 10.x.x.43 [~]$
Quando gli host non ricevono pacchetti GARP, le voci della tabella ARP per IP 10.x.x.43 non vengono aggiornate. Sono ancora mappati al MAC errato ec:0d:xx:xx:c5:00. Pertanto, non potevano raggiungere IP 10.x.x.43.