ScaleIO : Dépannage des erreurs de MDM_Disconnect
Summary: La propriété du MDM (Primary Metadata Manager) se déplace fréquemment entre les serveurs MDM.
Symptoms
L’événement suivant s’affiche lors de l’utilisation de l’outil showevents.py :
6956 2017-07-06 18:21:05.803 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, ID 27fea9a11c073e82, lost connection
Les éléments suivants s’affichent dans les journaux trc du serveur MDM secondaire :
06/07 18:21:05.486947 0x7ffbc89feeb0:netPath_IsKaNeeded:01858: :: Connected Live CLIENT path 0x7ffb9400a060 of portal 0x7ffb94003780 net 0x7ffbac0044b0 socket 17 inflights 0 didn't receive message for 3 iterations from 10.xxx.xxx.xxx:9011. Marking as down
Cause
Les déconnexions MDM se produisent généralement lorsque les MDM secondaires ou le tiebreaker n’ont pas constaté de connexion persistante dans le délai d’expiration de 500 millisecondes.
Resolution
Vérifiez les cartes d’interface réseau (NIC) sur les serveurs MDM et TB pour les paquets abandonnés :
[root@scaleio-1 ~]# ifconfig ens192 ens192: flags=4163 mtu 1500 inet 10.xxx.xxx.xxx netmask 255.xxx.xxx.0 broadcast 10.xxx.xxx.xxx inet6 fe80::250:56ff:feb7:2a06 prefixlen 64 scopeid 0x20 ether 00:50:56:b7:2a:06 txqueuelen 1000 (Ethernet) RX packets 311779767 bytes 53460032583 (49.7 GiB) RX errors 0 dropped 41 overruns 0 frame 0 TX packets 312147963 bytes 45970694962 (42.8 GiB) TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
En outre, vérifiez la latence de la connexion entre les nœuds MDM et TB à l’aide de la commande ping :
[root@scaleio-1 ~]# ping 10.xxx.xxx.xxx PING 10.xxx.xxx.xxx (10.xxx.xxx.xxx) 56(84) bytes of data. 64 bytes from 10.xxx.xxx.xxx: icmp_seq=1 ttl=64 time=0.414 ms 64 bytes from 10.xxx.xxx.xxx: icmp_seq=2 ttl=64 time=0.395 ms 64 bytes from 10.xxx.xxx.xxx: icmp_seq=3 ttl=64 time=0.370 ms 64 bytes from 10.xxx.xxx.xxx: icmp_seq=4 ttl=64 time=0.399 ms 64 bytes from 10.xxx.xxx.xxx: icmp_seq=5 ttl=64 time=0.497 ms 64 bytes from 10.xxx.xxx.xxx: icmp_seq=6 ttl=64 time=0.534 ms
Si la latence varie ou s’approche de 500 ms, cela peut être à l’origine du problème de déconnexion.
Il existe également des raisons non réseau pour lesquelles le MDM se déconnecte. Si le processus se bloque ou ne reçoit pas les ressources processeur adéquates, il ne peut pas envoyer le paquet keepalive en temps voulu. Vérifiez l’utilisation du processeur du système à l’aide de la commande top.
Sur les systèmes VMware, la machine virtuelle (VM) peut ne pas recevoir suffisamment de ressources si le système est sursouscrit. Vous pouvez vérifier si c’est le cas en examinant le temps de préparation du processeur pour la machine virtuelle.