ScaleIO: Rozwiązywanie problemów MDM_Disconnect błędów
Summary: Własność głównego menedżera metadanych (MDM) jest często przenoszona między serwerami MDM.
Symptoms
Podczas korzystania z narzędzia showevents.py pojawia się następujące zdarzenie:
6956 2017-07-06 18:21:05.803 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, ID 27fea9a11c073e82, lost connection
W dziennikach trc dodatkowego serwera MDM pojawiają się następujące elementy:
06/07 18:21:05.486947 0x7ffbc89feeb0:netPath_IsKaNeeded:01858: :: Connected Live CLIENT path 0x7ffb9400a060 of portal 0x7ffb94003780 net 0x7ffbac0044b0 socket 17 inflights 0 didn't receive message for 3 iterations from 10.xxx.xxx.xxx:9011. Marking as down
Cause
Rozłączenia MDM zwykle występują, gdy pomocnicze MDM lub dogrywka nie widzą utrzymania aktywności w okresie limitu czasu wynoszącym 500 milisekund.
Resolution
Sprawdź karty interfejsu sieciowego (NIC) na serwerach MDM i TB pod kątem porzuconych pakietów:
[root@scaleio-1 ~]# ifconfig ens192 ens192: flags=4163 mtu 1500 inet 10.xxx.xxx.xxx netmask 255.xxx.xxx.0 broadcast 10.xxx.xxx.xxx inet6 fe80::250:56ff:feb7:2a06 prefixlen 64 scopeid 0x20 ether 00:50:56:b7:2a:06 txqueuelen 1000 (Ethernet) RX packets 311779767 bytes 53460032583 (49.7 GiB) RX errors 0 dropped 41 overruns 0 frame 0 TX packets 312147963 bytes 45970694962 (42.8 GiB) TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
Ponadto sprawdź opóźnienie połączenia między węzłami MDM a TB za pomocą polecenia ping:
[root@scaleio-1 ~]# ping 10.xxx.xxx.xxx PING 10.xxx.xxx.xxx (10.xxx.xxx.xxx) 56(84) bytes of data. 64 bytes from 10.xxx.xxx.xxx: icmp_seq=1 ttl=64 time=0.414 ms 64 bytes from 10.xxx.xxx.xxx: icmp_seq=2 ttl=64 time=0.395 ms 64 bytes from 10.xxx.xxx.xxx: icmp_seq=3 ttl=64 time=0.370 ms 64 bytes from 10.xxx.xxx.xxx: icmp_seq=4 ttl=64 time=0.399 ms 64 bytes from 10.xxx.xxx.xxx: icmp_seq=5 ttl=64 time=0.497 ms 64 bytes from 10.xxx.xxx.xxx: icmp_seq=6 ttl=64 time=0.534 ms
Jeśli opóźnienie zmienia się lub zbliża się do 500 ms, może to być przyczyną rozłączenia.
Istnieją również pozasieciowe przyczyny rozłączenia MDM. Jeśli proces zawiesza się lub nie otrzymuje odpowiednich zasobów procesora, nie może wysłać pakietu keepalive w odpowiednim czasie. Sprawdź system pod kątem wykorzystania procesora za pomocą polecenia górnego.
W systemach VMware maszyna wirtualna (VM) może nie otrzymać wystarczających zasobów, jeśli system ma nadsubskrypcję. Możesz sprawdzić, czy tak jest, sprawdzając czas gotowości procesora dla maszyny wirtualnej.