ScaleIO: Feilsøke MDM_Disconnect feil
Summary: Eierskap av Primary Metadata Manager (MDM) flyttes regelmessig mellom MDM-servere.
Symptoms
Følgende hendelse vises når du bruker verktøyet showevents.py:
6956 2017-07-06 18:21:05.803 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, ID 27fea9a11c073e82, lost connection
Følgende vises i trc-loggene for den sekundære MDM-serveren:
06/07 18:21:05.486947 0x7ffbc89feeb0:netPath_IsKaNeeded:01858: :: Connected Live CLIENT path 0x7ffb9400a060 of portal 0x7ffb94003780 net 0x7ffbac0044b0 socket 17 inflights 0 didn't receive message for 3 iterations from 10.xxx.xxx.xxx:9011. Marking as down
Cause
MDM-frakoblinger oppstår vanligvis når de sekundære MDM-ene eller tiebreakeren ikke har sett en holde seg i live innenfor tidsavbruddsperioden på 500 millisekunder.
Resolution
Kontroller nettverksgrensesnittkortene (NIC-er) på MDM- og TB-serverne for tapte pakker:
[root@scaleio-1 ~]# ifconfig ens192 ens192: flags=4163 mtu 1500 inet 10.xxx.xxx.xxx netmask 255.xxx.xxx.0 broadcast 10.xxx.xxx.xxx inet6 fe80::250:56ff:feb7:2a06 prefixlen 64 scopeid 0x20 ether 00:50:56:b7:2a:06 txqueuelen 1000 (Ethernet) RX packets 311779767 bytes 53460032583 (49.7 GiB) RX errors 0 dropped 41 overruns 0 frame 0 TX packets 312147963 bytes 45970694962 (42.8 GiB) TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
I tillegg må du kontrollere ventetiden for tilkoblingen mellom MDM-nodene og TB ved hjelp av ping-kommandoen:
[root@scaleio-1 ~]# ping 10.xxx.xxx.xxx PING 10.xxx.xxx.xxx (10.xxx.xxx.xxx) 56(84) bytes of data. 64 bytes from 10.xxx.xxx.xxx: icmp_seq=1 ttl=64 time=0.414 ms 64 bytes from 10.xxx.xxx.xxx: icmp_seq=2 ttl=64 time=0.395 ms 64 bytes from 10.xxx.xxx.xxx: icmp_seq=3 ttl=64 time=0.370 ms 64 bytes from 10.xxx.xxx.xxx: icmp_seq=4 ttl=64 time=0.399 ms 64 bytes from 10.xxx.xxx.xxx: icmp_seq=5 ttl=64 time=0.497 ms 64 bytes from 10.xxx.xxx.xxx: icmp_seq=6 ttl=64 time=0.534 ms
Hvis ventetiden varierer eller nærmer seg 500 ms, kan dette være problemet for frakoblingen.
Det er også årsaker til at MDM kobles fra andre enn nettverket. Hvis prosessen blir hengt eller ikke mottar tilstrekkelige CPU-ressurser, kan den ikke sende KeepAlive-pakken i tide. Kontroller systemet for CPU-bruk ved hjelp av den øverste kommandoen.
På VMware-systemer kan det hende at den virtuelle maskinen (VM) ikke mottar tilstrekkelige ressurser hvis systemet abonnerer for mye. Du kan sjekke om dette er situasjonen ved å undersøke CPU-klartid for VM.