ScaleIO: Solución de problemas MDM_Disconnect errores
Summary: La propiedad del administrador de metadatos principal (MDM) se transfiere entre servidores MDM con frecuencia.
Symptoms
Cuando se utiliza la herramienta showevents.py, aparece el siguiente evento:
6956 2017-07-06 18:21:05.803 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, ID 27fea9a11c073e82, lost connection
Lo siguiente aparece en los registros trc del servidor MDM secundario:
06/07 18:21:05.486947 0x7ffbc89feeb0:netPath_IsKaNeeded:01858: :: Connected Live CLIENT path 0x7ffb9400a060 of portal 0x7ffb94003780 net 0x7ffbac0044b0 socket 17 inflights 0 didn't receive message for 3 iterations from 10.xxx.xxx.xxx:9011. Marking as down
Cause
Por lo general, las desconexiones de MDM se producen cuando los MDM secundarios o el tiebreaker no han visto una conexión persistente dentro del período de tiempo de espera agotado de 500 milisegundos.
Resolution
Compruebe las tarjetas de interfaz de red (NIC) en los servidores MDM y TB para ver si hay paquetes descartados:
[root@scaleio-1 ~]# ifconfig ens192 ens192: flags=4163 mtu 1500 inet 10.xxx.xxx.xxx netmask 255.xxx.xxx.0 broadcast 10.xxx.xxx.xxx inet6 fe80::250:56ff:feb7:2a06 prefixlen 64 scopeid 0x20 ether 00:50:56:b7:2a:06 txqueuelen 1000 (Ethernet) RX packets 311779767 bytes 53460032583 (49.7 GiB) RX errors 0 dropped 41 overruns 0 frame 0 TX packets 312147963 bytes 45970694962 (42.8 GiB) TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
Además, compruebe la latencia de la conexión entre los nodos de MDM y TB mediante el comando ping:
[root@scaleio-1 ~]# ping 10.xxx.xxx.xxx PING 10.xxx.xxx.xxx (10.xxx.xxx.xxx) 56(84) bytes of data. 64 bytes from 10.xxx.xxx.xxx: icmp_seq=1 ttl=64 time=0.414 ms 64 bytes from 10.xxx.xxx.xxx: icmp_seq=2 ttl=64 time=0.395 ms 64 bytes from 10.xxx.xxx.xxx: icmp_seq=3 ttl=64 time=0.370 ms 64 bytes from 10.xxx.xxx.xxx: icmp_seq=4 ttl=64 time=0.399 ms 64 bytes from 10.xxx.xxx.xxx: icmp_seq=5 ttl=64 time=0.497 ms 64 bytes from 10.xxx.xxx.xxx: icmp_seq=6 ttl=64 time=0.534 ms
Si la latencia varía o se acerca a los 500 ms, este podría ser el problema de la desconexión.
También hay razones ajenas a la red para la desconexión del MDM. Si el proceso se bloquea o no recibe los recursos de CPU adecuados, no puede enviar el paquete keepalive de manera oportuna. Compruebe la utilización de CPU del sistema mediante el comando top.
En los sistemas VMware, es posible que la máquina virtual (VM) no reciba suficientes recursos si el sistema tiene un exceso de suscripciones. Puede comprobar si esta es la situación examinando el tiempo de disponibilidad de la CPU para la VM.