PowerFlex 3.5: Desconexión entre pares cuando se utiliza la replicación
Summary: Después de configurar la replicación de PowerFlex, el estado del sistema par es "Desacoplado" con el mensaje de error "REMOTE_PEER_MDM_DENIED_MESSAGE_AS_NO_WORKING_CLIENT_CONNECTION_TO_THIS_PEER". ...
Symptoms
Este problema puede ocurrir inmediatamente después de configurar la replicación de PowerFlex, pero también se puede observar después de algunos cambios de red o cuando el MDM maestro en cualquiera de los lados se cambia a un nodo específico.
scli --query_replication_peer_system en un lado (SiteA) devuelve:
query-all-Replication Peer System returned 1 Replication Peer System nodes. Replication Peer System ID: 045a1aa61167b20f Replication Peer System internal ID: eef8648500000000 Name: SiteB State: Decoupled, REMOTE_PEER_MDM_DENIED_MESSAGE_AS_NO_WORKING_CLIENT_CONNECTION_TO_THIS_PEER IP: 192.168.89.14,192.168.89.13,192.168.89.18 Port: 7611 Version: N/A SDR-SDR connectivity status: All connected
El resultado de "netstat" se ve similar a lo siguiente:
tcp 0 0 192.168.86.19:50470 192.168.89.14:7611 ESTABLISHED 36766/mdm-3.5.1100. tcp 0 0 192.168.86.19:50464 192.168.89.14:7611 ESTABLISHED 36766/mdm-3.5.1100. tcp 0 0 192.168.86.19:50216 192.168.89.14:7611 ESTABLISHED 36766/mdm-3.5.1100. tcp 0 0 192.168.86.19:50458 192.168.89.14:7611 ESTABLISHED 36766/mdm-3.5.1100.
Observe que hay cuatro conexiones salientes al puerto 7611 en el MDM par, pero no hay conexiones entrantes desde el sitio B al puerto 7611 en el host local.
Otro lado (SiteB) se muestra como Desacoplado, NOT_CONN, por ejemplo:
Query-all-Replication Peer System returned 1 Replication Peer System nodes. Replication Peer System ID: 0966250f2fae770f Replication Peer System internal ID: c0f3862b00000000 Name: SiteA State: Decoupled, NOT_CONN IP: 192.168.86.20,192.168.86.13,192.168.86.19 Port: 7611 Version: 3.5.1100 SDR-SDR connectivity status: All connected
El resultado de "netstat" en este lado podría ser similar a lo siguiente:
B -> A tcp 0 157 192.168.89.14:7611 192.168.86.19:50470 ESTABLISHED 446371/mdm-3.5.1100 tcp 0 0 192.168.89.14:7611 192.168.86.19:50216 ESTABLISHED 446371/mdm-3.5.1100 tcp 0 0 192.168.89.14:7611 192.168.86.19:50464 ESTABLISHED 446371/mdm-3.5.1100 tcp 0 0 192.168.89.14:7611 192.168.86.19:50458 ESTABLISHED 446371/mdm-3.5.1100 tcp 0 0 192.168.89.14:54460 192.168.86.19:7611 SYN_SENT 446371/mdm-3.5.1100 tcp 0 0 192.168.89.14:54456 192.168.86.19:7611 SYN_SENT 446371/mdm-3.5.1100 tcp 0 0 192.168.89.14:54458 192.168.86.19:7611 SYN_SENT 446371/mdm-3.5.1100 tcp 0 0 192.168.89.14:54454 192.168.86.19:7611 SYN_SENT 446371/mdm-3.5.1100
Hay conexiones que provienen del sitio A (192.168.89.14) y los números de puerto de origen coinciden con la salida "netstat" en el sitio A, pero las conexiones salientes están en SYN_SENT estado, lo que significa que no pueden finalizar el protocolo de enlace TCP con el sitio A y, en efecto, no pueden establecer el emparejamiento de MDM.
Impacto
La replicación no funciona Según la causa raíz, es posible que no funcione en absoluto o solo cuando un nodo específico se convierta en MDM principal en uno de los lados.
Cause
Este problema se debe a una configuración incorrecta de la dirección IP de MDM o a problemas de red entre sitios. Por ejemplo, si el sitio A está configurado con las direcciones IP correctas, pero el sitio B se configuró con direcciones IP que no pertenecen a los MDM del sitio A, este problema podría ocurrir.
Si hay algún problema de conectividad de red (firewall, enrutamiento, etc.) entre los sitios, el cliente también puede experimentar un problema similar. Otra razón son las IP duplicadas en cualquiera de los lados (es decir, hay dos MDM en ejecución con la misma IP) o algún tipo de dispositivo de red que intercepta las sesiones TCP salientes (proxy).
En este caso en particular, el MDM del sitio B mantenía los sockets TCP abiertos contra uno de los MDM del sitio A, pero no estaba conectado a ese MDM, sino que la conexión se mantenía activa artificialmente gracias a uno de los routers en la ruta entre sitios:
Así es como se veía la salida de netstat en ambos sitios:
A -> B tcp 0 0 192.168.86.19:50470 192.168.89.14:7611 ESTABLISHED 36766/mdm-3.5.1100. tcp 0 0 192.168.86.19:50464 192.168.89.14:7611 ESTABLISHED 36766/mdm-3.5.1100. tcp 0 0 192.168.86.19:50216 192.168.89.14:7611 ESTABLISHED 36766/mdm-3.5.1100. tcp 0 0 192.168.86.19:50458 192.168.89.14:7611 ESTABLISHED 36766/mdm-3.5.1100. B -> A tcp 0 0 192.168.89.14:54460 192.168.86.19:7611 ESTABLISHED 446371/mdm-3.5.1100 tcp 0 0 192.168.89.14:54456 192.168.86.19:7611 ESTABLISHED 446371/mdm-3.5.1100 tcp 0 0 192.168.89.14:54458 192.168.86.19:7611 ESTABLISHED 446371/mdm-3.5.1100 tcp 0 0 192.168.89.14:54454 192.168.86.19:7611 ESTABLISHED 446371/mdm-3.5.1100 tcp6 0 157 192.168.89.14:7611 192.168.86.19:50470 ESTABLISHED 446371/mdm-3.5.1100 tcp6 0 0 192.168.89.14:7611 192.168.86.19:50216 ESTABLISHED 446371/mdm-3.5.1100 tcp6 0 0 192.168.89.14:7611 192.168.86.19:50464 ESTABLISHED 446371/mdm-3.5.1100 tcp6 0 0 192.168.89.14:7611 192.168.86.19:50458 ESTABLISHED 446371/mdm-3.5.1100
Tenga en cuenta que el sitio B (192.168.89.14) muestra cuatro conexiones ESTABLECIDAS a la dirección IP del sitio A (192.168.86.19) en el puerto 7611, pero no vemos lo mismo en la salida "netstat" en el sitio A: algún tipo de proxy de red mantuvo vivas estas sesiones TCP.
Resolution
Corrija la configuración de IP del MDM par. Pruebe la conectividad entre sitios en el puerto TCP/7611. Cambie la propiedad de MDM principal a diferentes nodos del clúster o reinicie el servicio de MDM para cerrar los conectores antiguos.
Versiones afectadas
PowerFlex 3.5 y superior
Problema corregido en la versión
N/D: problema de PowerFlex no es