ScaleIO: MDM_Disconnect hatalarda sorun giderme
Summary: Birincil Meta Veri Yöneticisi (MDM) sahipliği, MDM sunucuları arasında sık sık taşınır.
Symptoms
showevents.py aracı kullanılırken aşağıdaki olay görüntülenir:
6956 2017-07-06 18:21:05.803 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, ID 27fea9a11c073e82, lost connection
İkincil MDM sunucusunun trc günlüklerinde aşağıdakiler görünür:
06/07 18:21:05.486947 0x7ffbc89feeb0:netPath_IsKaNeeded:01858: :: Connected Live CLIENT path 0x7ffb9400a060 of portal 0x7ffb94003780 net 0x7ffbac0044b0 socket 17 inflights 0 didn't receive message for 3 iterations from 10.xxx.xxx.xxx:9011. Marking as down
Cause
MDM bağlantısının kesilmesi genellikle ikincil MDM'ler veya eşitlik bozucu, 500 milisaniyelik zaman aşımı süresi içinde canlı tutma işlemi görmediğinde gerçekleşir.
Resolution
Bırakılan paketler için MDM ve TB sunucularındaki Ağ Arabirim Kartlarını (NIC'ler) kontrol edin:
[root@scaleio-1 ~]# ifconfig ens192 ens192: flags=4163 mtu 1500 inet 10.xxx.xxx.xxx netmask 255.xxx.xxx.0 broadcast 10.xxx.xxx.xxx inet6 fe80::250:56ff:feb7:2a06 prefixlen 64 scopeid 0x20 ether 00:50:56:b7:2a:06 txqueuelen 1000 (Ethernet) RX packets 311779767 bytes 53460032583 (49.7 GiB) RX errors 0 dropped 41 overruns 0 frame 0 TX packets 312147963 bytes 45970694962 (42.8 GiB) TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
Ayrıca, ping komutunu kullanarak MDM düğümleri ile TB arasındaki bağlantının gecikme süresini kontrol edin:
[root@scaleio-1 ~]# ping 10.xxx.xxx.xxx PING 10.xxx.xxx.xxx (10.xxx.xxx.xxx) 56(84) bytes of data. 64 bytes from 10.xxx.xxx.xxx: icmp_seq=1 ttl=64 time=0.414 ms 64 bytes from 10.xxx.xxx.xxx: icmp_seq=2 ttl=64 time=0.395 ms 64 bytes from 10.xxx.xxx.xxx: icmp_seq=3 ttl=64 time=0.370 ms 64 bytes from 10.xxx.xxx.xxx: icmp_seq=4 ttl=64 time=0.399 ms 64 bytes from 10.xxx.xxx.xxx: icmp_seq=5 ttl=64 time=0.497 ms 64 bytes from 10.xxx.xxx.xxx: icmp_seq=6 ttl=64 time=0.534 ms
Gecikme süresi değişirse veya 500 ms'ye yaklaşırsa bağlantı kesilmesi sorunu bu olabilir.
MDM bağlantısının kesilmesinin ağ dışı nedenleri de vardır. İşlem askıda kalırsa veya yeterli CPU kaynağı almıyorsa etkin tutma paketini zamanında gönderemez. Top komutunu kullanarak sistemde CPU kullanımı olup olmadığını kontrol edin.
VMware sistemlerinde, sisteme aşırı abone olunursa Sanal Makine (VM) yeterli kaynak alamayabilir. VM için CPU hazır olma süresini inceleyerek durumun bu olup olmadığını kontrol edebilirsiniz.