ScaleIO: Risoluzione degli errori MDM_Disconnect
Summary: La proprietà di Primary Metadata Manager (MDM) si sposta frequentemente tra i server MDM.
Symptoms
Quando si utilizza lo strumento showevents.py, viene visualizzato il seguente evento:
6956 2017-07-06 18:21:05.803 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, ID 27fea9a11c073e82, lost connection
Nei registri trc del server MDM secondario viene visualizzato quanto segue:
06/07 18:21:05.486947 0x7ffbc89feeb0:netPath_IsKaNeeded:01858: :: Connected Live CLIENT path 0x7ffb9400a060 of portal 0x7ffb94003780 net 0x7ffbac0044b0 socket 17 inflights 0 didn't receive message for 3 iterations from 10.xxx.xxx.xxx:9011. Marking as down
Cause
Le disconnessioni degli MDM si verificano in genere quando gli MDM secondari o il tiebreaker non hanno rilevato un keep-alive entro il periodo di timeout di 500 millisecondi.
Resolution
Controllare le schede di interfaccia di rete (NIC) sui server MDM e TB per verificare la presenza di pacchetti ignorati:
[root@scaleio-1 ~]# ifconfig ens192 ens192: flags=4163 mtu 1500 inet 10.xxx.xxx.xxx netmask 255.xxx.xxx.0 broadcast 10.xxx.xxx.xxx inet6 fe80::250:56ff:feb7:2a06 prefixlen 64 scopeid 0x20 ether 00:50:56:b7:2a:06 txqueuelen 1000 (Ethernet) RX packets 311779767 bytes 53460032583 (49.7 GiB) RX errors 0 dropped 41 overruns 0 frame 0 TX packets 312147963 bytes 45970694962 (42.8 GiB) TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
Inoltre, controllare la latenza della connessione tra i nodi MDM e TB utilizzando il comando ping:
[root@scaleio-1 ~]# ping 10.xxx.xxx.xxx PING 10.xxx.xxx.xxx (10.xxx.xxx.xxx) 56(84) bytes of data. 64 bytes from 10.xxx.xxx.xxx: icmp_seq=1 ttl=64 time=0.414 ms 64 bytes from 10.xxx.xxx.xxx: icmp_seq=2 ttl=64 time=0.395 ms 64 bytes from 10.xxx.xxx.xxx: icmp_seq=3 ttl=64 time=0.370 ms 64 bytes from 10.xxx.xxx.xxx: icmp_seq=4 ttl=64 time=0.399 ms 64 bytes from 10.xxx.xxx.xxx: icmp_seq=5 ttl=64 time=0.497 ms 64 bytes from 10.xxx.xxx.xxx: icmp_seq=6 ttl=64 time=0.534 ms
Se la latenza varia o si avvicina a 500 ms, questo potrebbe essere il problema della disconnessione.
Esistono inoltre motivi non di rete per la disconnessione dell MDM. Se il processo si blocca o non riceve risorse di CPU adeguate, non è in grado di inviare il pacchetto keepalive in modo tempestivo. Controllare l'utilizzo della CPU nel sistema utilizzando il comando top.
Nei sistemi VMware, la macchina virtuale (VM) potrebbe non ricevere risorse sufficienti se il sistema ha superato le sottoscrizioni. È possibile verificare se questa è la situazione esaminando il tempo di preparazione della CPU per la VM.