MDM이 동기화되지 않은 경우 PowerFlex 전환 실패
Summary: 네트워크 연결 문제로 인해 보조 MDM 상태가 Not synchronized가 됩니다.
Symptoms
시나리오
기본 MDM과 보조 MDM 간의 MDM 연결 끊김 및 연결 문제가 지속되면 보조 MDM/s 상태가 Not synchronized가 됩니다.
조짐
기본 MDM과 보조 MDM 간의 연결이 일관되지 않으면 다음과 같은 증상이 나타납니다.
scli --query_cluster의 출력에 Secondary MDM/s disconnected가 표시됩니다.
scli --query_cluster의 출력에 Secondary MDM/s Not synchronized가 표시됩니다.
Cmatrix는 재구축이 중단되었음을 보여줍니다.
SDC<>SDS 연결 문제(SDS가 문제가 있는 MDM에 있음)
query_all output:
(info) Notice the Secondary MDMs' status.
Status: Not synchronized
Cluster:
Name: parsio, ID: 06002ca3767a6153, Mode: 5_node, State: Degraded, Active: 5/5, Replicas: 1/3
Virtual IPs: 192.168.20.100
Master MDM:
Name: parsiomanager2, ID: 0x148190e6333dbc12
IPs: 192.168.20.2, Management IPs: 10.8.8.56, Port: 9011, Virtual IP interfaces: eth1
Version: 2.6.10000
Actor ID: 0x1d0ac48b18c6f742, Voter ID: 0x2bb7b8b1353f6a82
Certificate Info:
Subject: /GN=MDM/CN=ScaleIO-10-8-8-56/L=Hopkinton/ST=Massachusetts/C=US/O=EMC/OU=ASD
Issuer: /GN=MDM/CN=ScaleIO-10-8-8-56/L=Hopkinton/ST=Massachusetts/C=US/O=EMC/OU=ASD
Valid From: Apr 2 11:25:03 2019 GMT
Valid To: Mar 31 12:25:03 2029 GMT
Thumbprint: 60:C0:50:38:FC:3D:49:D5:00:8F:9F:CE:4F:27:D2:23:A1:E3:07:AF
Slave MDMs:
Name: parsiomanager1, ID: 0x51ddc23b3cddea90
IPs: 192.168.20.1, Management IPs: 10.8.8.54, Port: 9011, Virtual IP interfaces: eth1
Status: Not synchronized, Version: 2.6.10000
Actor ID: 0x641bc8002b885d00, Voter ID: 0x06f3ab9245ee83d0, Replication State: Synchronization in-progress
Certificate Info:
Subject: /GN=MDM/CN=ScaleIO-10-8-8-54/L=Hopkinton/ST=Massachusetts/C=US/O=EMC/OU=ASD
Issuer: /GN=MDM/CN=ScaleIO-10-8-8-54/L=Hopkinton/ST=Massachusetts/C=US/O=EMC/OU=ASD
Valid From: Apr 2 11:33:08 2019 GMT
Valid To: Mar 31 12:33:08 2029 GMT
Thumbprint: A3:49:37:C3:66:2F:53:05:96:2D:74:10:1F:D2:DF:A4:E7:F5:85:7B
Name: parsiomanager3, ID: 0x3bf30e1a42079e61
IPs: 192.168.20.4, Management IPs: 10.8.8.59, Port: 9011, Virtual IP interfaces: eth1
Status: Not synchronized, Version: 2.6.10000
Actor ID: 0x667027d528ddfcd1, Voter ID: 0x493913d41133d6b1, Replication State: Synchronization in-progress
Certificate Info:
Subject: /GN=MDM/CN=ScaleIO-10-8-8-59/L=Hopkinton/ST=Massachusetts/C=US/O=EMC/OU=ASD
Issuer: /GN=MDM/CN=ScaleIO-10-8-8-59/L=Hopkinton/ST=Massachusetts/C=US/O=EMC/OU=ASD
Valid From: Apr 2 10:17:11 2019 GMT
Valid To: Mar 31 11:17:11 2029 GMT
Thumbprint: E9:10:DD:56:E9:2D:C8:6F:ED:D8:57:75:FF:DF:BB:15:41:FA:C1:32
Tie-Breakers:
Name: parsiotb1, ID: 0x3c5587221ac0cfe4
IPs: 192.168.20.3, Port: 9011
Status: Normal, Version: 2.6.10000
Voter ID: 0x683fd39d2af27284
Name: parsiotb2, ID: 0x20c2b3f30969f533
IPs: 192.168.20.5, Port: 9011
Status: Normal, Version: 2.6.10000
MDM 이벤트:
(정보) MDM 및 SDC에서 SDS의 연결이 여러 번 끊어지는 것을 볼 수 있습니다. 아래는 아래에 예가 나와 있습니다.
MDM, ID 51ddc23b3cddea90, 연결이 끊어졌습니다.
MDM, ID 3bf30e1a42079e61이 응답하지 않습니다.
SDC ID: 9503ac9800000003이 SDS parsioesx02.ansys.com-ESX의 IP 192.168.20.2에서 연결이 끊어졌습니다. 아이디: 10d84abe00000002
4856 2020-12-01 12:19:38.735 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, ID 51ddc23b3cddea90, lost connection 4857 2020-12-01 12:19:38.204 MDM_CLUSTER_CONNECTED INFO The MDM, ID 51ddc23b3cddea90, connected 4858 2020-12-01 12:19:43.397 MDM_CLUSTER_NOT_RESPOND WARNING The MDM, ID 3bf30e1a42079e61, is not responding 4859 2020-12-01 12:19:44.824 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, ID 3bf30e1a42079e61, lost connection 4860 2020-12-01 12:19:44.203 MDM_CLUSTER_CONNECTED INFO The MDM, ID 3bf30e1a42079e61, connected 4861 2020-12-01 12:19:44.569 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, ID 51ddc23b3cddea90, lost connection 4862 2020-12-01 12:19:44.701 MDM_CLUSTER_CONNECTED INFO The MDM, ID 51ddc23b3cddea90, connected 4863 2020-12-01 12:19:45.276 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, ID 51ddc23b3cddea90, lost connection 4864 2020-12-01 12:19:45.397 MDM_CLUSTER_CONNECTED INFO The MDM, ID 51ddc23b3cddea90, connected 4865 2020-12-01 12:19:48.480 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, ID 3bf30e1a42079e61, lost connection 4866 2020-12-01 12:19:48.601 MDM_CLUSTER_CONNECTED INFO The MDM, ID 3bf30e1a42079e61, connected 4867 2020-12-01 12:19:49.431 SDC_DISCONNECTED_FROM_SDS_IP WARNING SDC ID: 9503ac9800000003 disconnected from IP 192.168.20.2 of SDS parsioesx02.ansys.com-ESX; ID: 10d84abe00000002 4868 2020-12-01 12:19:50.377 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, ID 51ddc23b3cddea90, lost connection 4869 2020-12-01 12:19:50.403 SDC_CONNECTED_TO_SDS_IP INFO SDC ID: 9503ac9800000003 is now connected to IP 192.168.20.2 of SDS parsioesx02.ansys.com-ESX; ID: 10d84abe00000002 4870 2020-12-01 12:19:50.498 MDM_CLUSTER_CONNECTED INFO The MDM, ID 51ddc23b3cddea90, connected 4871 2020-12-01 12:19:51.183 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, ID 3bf30e1a42079e61, lost connection 4872 2020-12-01 12:19:51.304 MDM_CLUSTER_CONNECTED INFO The MDM, ID 3bf30e1a42079e61, connected 4873 2020-12-01 12:19:53.669 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, ID 51ddc23b3cddea90, lost connection 4874 2020-12-01 12:19:53.800 MDM_CLUSTER_CONNECTED INFO The MDM, ID 51ddc23b3cddea90, connected 4875 2020-12-01 12:19:54.833 SDC_DISCONNECTED_FROM_SDS_IP WARNING SDC ID: 9503ac9800000003 disconnected from IP 192.168.20.2 of SDS parsioesx02.ansys.com-ESX; ID: 10d84abe00000002 4876 2020-12-01 12:19:56.858 SDC_CONNECTED_TO_SDS_IP INFO SDC ID: 9503ac9800000003 is now connected to IP 192.168.20.2 of SDS parsioesx02.ansys.com-ESX; ID: 10d84abe00000002 4877 2020-12-01 12:19:56.867 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, ID 3bf30e1a42079e61, lost connection 4878 2020-12-01 12:19:56.197 MDM_CLUSTER_CONNECTED INFO The MDM, ID 3bf30e1a42079e61, connected 4879 2020-12-01 12:19:56.873 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, ID 51ddc23b3cddea90, lost connection 4880 2020-12-01 12:19:57.426 MDM_CLUSTER_CONNECTED INFO The MDM, ID 51ddc23b3cddea90, connected 4881 2020-12-01 12:19:58.284 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, ID 3bf30e1a42079e61, lost connection 4882 2020-12-01 12:19:58.405 MDM_CLUSTER_CONNECTED INFO The MDM, ID 3bf30e1a42079e61, connected 4883 2020-12-01 12:19:59.995 SDC_DISCONNECTED_FROM_SDS_IP WARNING SDC ID: 9503ac9800000003 disconnected from IP 192.168.20.2 of SDS parsioesx02.ansys.com-ESX; ID: 10d84abe00000002 4884 2020-12-01 12:20:00.997 SDC_CONNECTED_TO_SDS_IP INFO SDC ID: 9503ac9800000003 is now connected to IP 192.168.20.2 of SDS parsioesx02.ansys.com-ESX; ID: 10d84abe00000002 4885 2020-12-01 12:20:01.372 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, ID 51ddc23b3cddea90, lost connection 4886 2020-12-01 12:20:01.503 MDM_CLUSTER_CONNECTED INFO The MDM, ID 51ddc23b3cddea90, connected
MDM trc.x:
(정보) 여러 개의 조합이 DEGRADED 상태로 전환되어 재구축을 시작합니다. 아래와 같은 예가 있습니다.
멀티 헤드: f7c90002 행: 1022 성능 저하->성능 저하(INITIATE_MIGRATE)
01/12 12:21:31.587572 0x7f24a0ad6eb0:multiHeadRow_MoveState_Inner:02966: [multiHead_HandleMigrate:892]: MultiHead: f7c90002 Row: 1022 DEGRADED->DEGRADED (INITIATE_MIGRATE) 01/12 12:21:31.587578 0x7f24a0ad6eb0:multiHeadRow_MoveState_Inner:02966: [multiHead_HandleMigrate:892]: MultiHead: f7c90002 Row: 380 DEGRADED->DEGRADED (INITIATE_MIGRATE) ... 01/12 12:21:31.590164 0x7f24a064deb0:mdmTgtMsg_SendAsyncAddSingleCombEX:04000: TgtId: 10d871cb00000000 CombId: 7be4000081e9 CombState: SECONDARY raid: [tgtId: 10d84abe00000002, state: 0x1, type: SECONDARY] primaryTgtGenNum: 121 mdmTgtConnectionGenNum: 7311 tgtCombCmdGenNum: 1 01/12 12:21:31.590407 0x7f24a0ae8eb0:mdmTgtMsg_SendAsyncStartMigrate:04605: TgtId: 10d84abe00000002 CombId: 7be4000081e9 MigrateTo:10d871cb00000000 primaryTgtGenNum: 121 tgtCombCmdGenNum: 461 mdmTgtConnectionGenNum: 7346 migrateNum: 246 isFwdRebuild: 1 01/12 12:21:31.590552 0x7f24a0ae8eb0:multiHeadRow_MoveState_Inner:02966: [multiHead_HandleMigrate:892]: MultiHead: f7c80001 Row: 489 DEGRADED->DEGRADED (INITIATE_MIGRATE) ... 01/12 12:21:31.592950 0x7f24a0833eb0:mdmTgtMsg_SendAsyncAddSingleCombEX:04000: TgtId: 10d8bfeb00000004 CombId: 7be38000034a CombState: SECONDARY raid: [tgtId: 10d84abe00000002, state: 0x1, type: SECONDARY] primaryTgtGenNum: 128 mdmTgtConnectionGenNum: 4958 tgtCombCmdGenNum: 1 01/12 12:21:31.592958 0x7f24a0833eb0:mdmTgtMsg_SendAsyncAbortMigrate:04674: TgtId: 10d84abe00000002 CombId: 7be3800001b8 primaryTgtGenNum: 70 tgtCombCmdGenNum: 592 mdmTgtConnectionGenNum: 7346 01/12 12:21:31.592971 0x7f24a0833eb0:mdmTgtMsg_SendAsyncAbortMigrate:04674: TgtId: 10d84abe00000002 CombId: 7be3800000eb primaryTgtGenNum: 152 tgtCombCmdGenNum: 623 mdmTgtConnectionGenNum: 7346 01/12 12:21:31.593121 0x7f24a0ae8eb0:mdmTgtMsg_SendAsyncFreeComb:04408: TgtId: 10d871cb00000000 CombId: 7be3800001b8 mdmTgtConnectionGenNum: 7311 01/12 12:21:31.593138 0x7f24a0ae8eb0:mdmTgtMsg_SendAsyncFreeComb:04408: TgtId: 10d898de00000001 CombId: 7be3800000eb mdmTgtConnectionGenNum: 7321
Cmatrix 출력:
(정보) 아래와 같이 재구축이 중지되어 UI에서 멈춘 것처럼 보입니다.
Policy=REBUILD_STOPPED, issue=MULTIPLE, coolingOff=FALSE, bypass=FALSE
--------------------------------------------------------------------------
cmatrix status dump (FdID=8ba78f9f00000000, 01/12 11:00:54.998786)
policy=REBUILD_STOPPED, issue=MULTIPLE, coolingOff=FALSE, bypass=FALSE
nMaxRows=032, nActiveRows=005, nKnownTgts=005
matrixGen=495, nCycles=2377, duration [ms]: average<1, max=0
matrix memory foot-print is 17344 [bytes]
row/ column ownership:
i=000 :: tgtId=10d871cb00000000 (fsId=10d871cb00000000)
i=001 :: tgtId=10d898de00000001 (fsId=10d898de00000001)
i=002 :: tgtId=10d84abe00000002 (fsId=10d84abe00000002)
i=003 :: tgtId=10d898ee00000003 (fsId=10d898ee00000003)
i=004 :: tgtId=10d8bfeb00000004 (fsId=10d8bfeb00000004)
cells:
I+D++
+I+++
+DI++
+++I+
++++I
영향
MDM 클러스터가 동기화되지 않았습니다. 이 상태에서는 MDM 전환이 불가능합니다.
연결이 반복적으로 끊어지면 서비스 가용성이 중단됩니다.
재구축이 중단되고 시스템이 DU의 잠재적인 단일 장애 지점에 있습니다.
SDC에 IO 오류가 표시될 수 있습니다.
Cause
마스터 MDM이 데이터 블록의 상태를 변경해야 하는 경우 이러한 상태 변경 사항을 MDM 저장소 파일에 기록한 다음 해당 변경 사항을 슬레이브 MDM에 동기화해야 합니다. 이러한 쓰기 작업이 완료되면 MDM은 SDS에 변경 사항이 완료되었음을 알리고 (재구축이 완료될 때까지) 운영 복제본에서만 SDC에 IO 쓰기 역할을 재개할 수 있습니다.
운영 MDM이 보조 MDM을 업데이트할 수 없으면 MDM이 SDS 요청에 신속하게 응답할 수 없게 되고 SDC에서 IO 오류가 발생할 수 있습니다.
클러스터 구성원 간의 동기화 부족으로 인해 MDM 전환이 불가능하고 문제가 기본 MDM에 있는 것 같으므로 연결 문제가 없는 다른 위치에 다른 MDM을 시스템에 추가하고 보조 MDM 중 하나로 교체한 다음 전환해야 합니다. 이렇게 하여 문제가 있는 운영 MDM을 클러스터에서 쫓아냅니다.
Resolution
해결 방법
SVM 환경에서 GW VM이 ESXi Server의 로컬 드라이브에 상주하지 않는 경우 전환을 위한 새 MDM 설치 작업에 GW VM을 사용할 수 있으며, 문제가 없는 다른 ESXi로 vMotion을 수행하거나 이 해결 방법을 위해 모든 VM에 MDM을 설치할 수 있습니다.
비 SVM 환경에서는 VM 또는 비 MDM 노드를 사용하여 전환을 위한 새 MDM을 설치할 수 있습니다.
영향을 받는 버전
해당 없음, 네트워크 문제
수정된 버전
N/A