Přepnutí PowerFlex selhalo, když se uzel MDM nesynchronizoval
Summary: Problémy s připojením k síti způsobují, že sekundární MDM/s se změní na Nesynchronizováno.
Symptoms
Scénář
Konzistentní odpojování MDM a problémy s připojením mezi primárním a sekundárním MDM/s způsobují, že sekundární MDM/s se zobrazuje jako Nesynchronizováno.
Symptomy
Nekonzistentní konektivita mezi primárními a sekundárními MDM/s vykazuje následující příznaky:
Výstup příkazu scli --query_cluster zobrazí odpojený sekundární modul MDM/s.
Výstup příkazu scli --query_cluster zobrazuje sekundární MDM/s jako nesynchronizované.
Cmatrix ukazuje, že přebudování je zablokované.
Problémy s připojením SDC<>SDS (SDS se nachází v problematickém uzlu MDM).
query_all output:
(info) Notice the Secondary MDMs' status.
Status: Not synchronized
Cluster:
Name: parsio, ID: 06002ca3767a6153, Mode: 5_node, State: Degraded, Active: 5/5, Replicas: 1/3
Virtual IPs: 192.168.20.100
Master MDM:
Name: parsiomanager2, ID: 0x148190e6333dbc12
IPs: 192.168.20.2, Management IPs: 10.8.8.56, Port: 9011, Virtual IP interfaces: eth1
Version: 2.6.10000
Actor ID: 0x1d0ac48b18c6f742, Voter ID: 0x2bb7b8b1353f6a82
Certificate Info:
Subject: /GN=MDM/CN=ScaleIO-10-8-8-56/L=Hopkinton/ST=Massachusetts/C=US/O=EMC/OU=ASD
Issuer: /GN=MDM/CN=ScaleIO-10-8-8-56/L=Hopkinton/ST=Massachusetts/C=US/O=EMC/OU=ASD
Valid From: Apr 2 11:25:03 2019 GMT
Valid To: Mar 31 12:25:03 2029 GMT
Thumbprint: 60:C0:50:38:FC:3D:49:D5:00:8F:9F:CE:4F:27:D2:23:A1:E3:07:AF
Slave MDMs:
Name: parsiomanager1, ID: 0x51ddc23b3cddea90
IPs: 192.168.20.1, Management IPs: 10.8.8.54, Port: 9011, Virtual IP interfaces: eth1
Status: Not synchronized, Version: 2.6.10000
Actor ID: 0x641bc8002b885d00, Voter ID: 0x06f3ab9245ee83d0, Replication State: Synchronization in-progress
Certificate Info:
Subject: /GN=MDM/CN=ScaleIO-10-8-8-54/L=Hopkinton/ST=Massachusetts/C=US/O=EMC/OU=ASD
Issuer: /GN=MDM/CN=ScaleIO-10-8-8-54/L=Hopkinton/ST=Massachusetts/C=US/O=EMC/OU=ASD
Valid From: Apr 2 11:33:08 2019 GMT
Valid To: Mar 31 12:33:08 2029 GMT
Thumbprint: A3:49:37:C3:66:2F:53:05:96:2D:74:10:1F:D2:DF:A4:E7:F5:85:7B
Name: parsiomanager3, ID: 0x3bf30e1a42079e61
IPs: 192.168.20.4, Management IPs: 10.8.8.59, Port: 9011, Virtual IP interfaces: eth1
Status: Not synchronized, Version: 2.6.10000
Actor ID: 0x667027d528ddfcd1, Voter ID: 0x493913d41133d6b1, Replication State: Synchronization in-progress
Certificate Info:
Subject: /GN=MDM/CN=ScaleIO-10-8-8-59/L=Hopkinton/ST=Massachusetts/C=US/O=EMC/OU=ASD
Issuer: /GN=MDM/CN=ScaleIO-10-8-8-59/L=Hopkinton/ST=Massachusetts/C=US/O=EMC/OU=ASD
Valid From: Apr 2 10:17:11 2019 GMT
Valid To: Mar 31 11:17:11 2029 GMT
Thumbprint: E9:10:DD:56:E9:2D:C8:6F:ED:D8:57:75:FF:DF:BB:15:41:FA:C1:32
Tie-Breakers:
Name: parsiotb1, ID: 0x3c5587221ac0cfe4
IPs: 192.168.20.3, Port: 9011
Status: Normal, Version: 2.6.10000
Voter ID: 0x683fd39d2af27284
Name: parsiotb2, ID: 0x20c2b3f30969f533
IPs: 192.168.20.5, Port: 9011
Status: Normal, Version: 2.6.10000
Události MDM:
(info) Všimněte si několikanásobného odpojení MDM a SDC od SDS, příklady jsou níže.
MDM, ID 51ddc23b3cddea90, ztráta připojení.
MDM, ID 3bf30e1a42079e61, nereaguje.
ID SDC: 9503ac98000000003 odpojeno od IP 192.168.20.2 SDS parsioesx02.ansys.com-ESX; ID: 10D84ABE00000002
4856 2020-12-01 12:19:38.735 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, ID 51ddc23b3cddea90, lost connection 4857 2020-12-01 12:19:38.204 MDM_CLUSTER_CONNECTED INFO The MDM, ID 51ddc23b3cddea90, connected 4858 2020-12-01 12:19:43.397 MDM_CLUSTER_NOT_RESPOND WARNING The MDM, ID 3bf30e1a42079e61, is not responding 4859 2020-12-01 12:19:44.824 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, ID 3bf30e1a42079e61, lost connection 4860 2020-12-01 12:19:44.203 MDM_CLUSTER_CONNECTED INFO The MDM, ID 3bf30e1a42079e61, connected 4861 2020-12-01 12:19:44.569 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, ID 51ddc23b3cddea90, lost connection 4862 2020-12-01 12:19:44.701 MDM_CLUSTER_CONNECTED INFO The MDM, ID 51ddc23b3cddea90, connected 4863 2020-12-01 12:19:45.276 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, ID 51ddc23b3cddea90, lost connection 4864 2020-12-01 12:19:45.397 MDM_CLUSTER_CONNECTED INFO The MDM, ID 51ddc23b3cddea90, connected 4865 2020-12-01 12:19:48.480 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, ID 3bf30e1a42079e61, lost connection 4866 2020-12-01 12:19:48.601 MDM_CLUSTER_CONNECTED INFO The MDM, ID 3bf30e1a42079e61, connected 4867 2020-12-01 12:19:49.431 SDC_DISCONNECTED_FROM_SDS_IP WARNING SDC ID: 9503ac9800000003 disconnected from IP 192.168.20.2 of SDS parsioesx02.ansys.com-ESX; ID: 10d84abe00000002 4868 2020-12-01 12:19:50.377 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, ID 51ddc23b3cddea90, lost connection 4869 2020-12-01 12:19:50.403 SDC_CONNECTED_TO_SDS_IP INFO SDC ID: 9503ac9800000003 is now connected to IP 192.168.20.2 of SDS parsioesx02.ansys.com-ESX; ID: 10d84abe00000002 4870 2020-12-01 12:19:50.498 MDM_CLUSTER_CONNECTED INFO The MDM, ID 51ddc23b3cddea90, connected 4871 2020-12-01 12:19:51.183 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, ID 3bf30e1a42079e61, lost connection 4872 2020-12-01 12:19:51.304 MDM_CLUSTER_CONNECTED INFO The MDM, ID 3bf30e1a42079e61, connected 4873 2020-12-01 12:19:53.669 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, ID 51ddc23b3cddea90, lost connection 4874 2020-12-01 12:19:53.800 MDM_CLUSTER_CONNECTED INFO The MDM, ID 51ddc23b3cddea90, connected 4875 2020-12-01 12:19:54.833 SDC_DISCONNECTED_FROM_SDS_IP WARNING SDC ID: 9503ac9800000003 disconnected from IP 192.168.20.2 of SDS parsioesx02.ansys.com-ESX; ID: 10d84abe00000002 4876 2020-12-01 12:19:56.858 SDC_CONNECTED_TO_SDS_IP INFO SDC ID: 9503ac9800000003 is now connected to IP 192.168.20.2 of SDS parsioesx02.ansys.com-ESX; ID: 10d84abe00000002 4877 2020-12-01 12:19:56.867 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, ID 3bf30e1a42079e61, lost connection 4878 2020-12-01 12:19:56.197 MDM_CLUSTER_CONNECTED INFO The MDM, ID 3bf30e1a42079e61, connected 4879 2020-12-01 12:19:56.873 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, ID 51ddc23b3cddea90, lost connection 4880 2020-12-01 12:19:57.426 MDM_CLUSTER_CONNECTED INFO The MDM, ID 51ddc23b3cddea90, connected 4881 2020-12-01 12:19:58.284 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, ID 3bf30e1a42079e61, lost connection 4882 2020-12-01 12:19:58.405 MDM_CLUSTER_CONNECTED INFO The MDM, ID 3bf30e1a42079e61, connected 4883 2020-12-01 12:19:59.995 SDC_DISCONNECTED_FROM_SDS_IP WARNING SDC ID: 9503ac9800000003 disconnected from IP 192.168.20.2 of SDS parsioesx02.ansys.com-ESX; ID: 10d84abe00000002 4884 2020-12-01 12:20:00.997 SDC_CONNECTED_TO_SDS_IP INFO SDC ID: 9503ac9800000003 is now connected to IP 192.168.20.2 of SDS parsioesx02.ansys.com-ESX; ID: 10d84abe00000002 4885 2020-12-01 12:20:01.372 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, ID 51ddc23b3cddea90, lost connection 4886 2020-12-01 12:20:01.503 MDM_CLUSTER_CONNECTED INFO The MDM, ID 51ddc23b3cddea90, connected
MDM trc.x:
(info) Všimněte si, že více hřebenů přejde do DEGRADOVANÉHO stavu a začne se obnovovat, příklady jsou níže.
Vícehlavé: f7c90002 Řádek: 1022 SNÍŽENÝ> VÝKON (INITIATE_MIGRATE)
01/12 12:21:31.587572 0x7f24a0ad6eb0:multiHeadRow_MoveState_Inner:02966: [multiHead_HandleMigrate:892]: MultiHead: f7c90002 Row: 1022 DEGRADED->DEGRADED (INITIATE_MIGRATE) 01/12 12:21:31.587578 0x7f24a0ad6eb0:multiHeadRow_MoveState_Inner:02966: [multiHead_HandleMigrate:892]: MultiHead: f7c90002 Row: 380 DEGRADED->DEGRADED (INITIATE_MIGRATE) ... 01/12 12:21:31.590164 0x7f24a064deb0:mdmTgtMsg_SendAsyncAddSingleCombEX:04000: TgtId: 10d871cb00000000 CombId: 7be4000081e9 CombState: SECONDARY raid: [tgtId: 10d84abe00000002, state: 0x1, type: SECONDARY] primaryTgtGenNum: 121 mdmTgtConnectionGenNum: 7311 tgtCombCmdGenNum: 1 01/12 12:21:31.590407 0x7f24a0ae8eb0:mdmTgtMsg_SendAsyncStartMigrate:04605: TgtId: 10d84abe00000002 CombId: 7be4000081e9 MigrateTo:10d871cb00000000 primaryTgtGenNum: 121 tgtCombCmdGenNum: 461 mdmTgtConnectionGenNum: 7346 migrateNum: 246 isFwdRebuild: 1 01/12 12:21:31.590552 0x7f24a0ae8eb0:multiHeadRow_MoveState_Inner:02966: [multiHead_HandleMigrate:892]: MultiHead: f7c80001 Row: 489 DEGRADED->DEGRADED (INITIATE_MIGRATE) ... 01/12 12:21:31.592950 0x7f24a0833eb0:mdmTgtMsg_SendAsyncAddSingleCombEX:04000: TgtId: 10d8bfeb00000004 CombId: 7be38000034a CombState: SECONDARY raid: [tgtId: 10d84abe00000002, state: 0x1, type: SECONDARY] primaryTgtGenNum: 128 mdmTgtConnectionGenNum: 4958 tgtCombCmdGenNum: 1 01/12 12:21:31.592958 0x7f24a0833eb0:mdmTgtMsg_SendAsyncAbortMigrate:04674: TgtId: 10d84abe00000002 CombId: 7be3800001b8 primaryTgtGenNum: 70 tgtCombCmdGenNum: 592 mdmTgtConnectionGenNum: 7346 01/12 12:21:31.592971 0x7f24a0833eb0:mdmTgtMsg_SendAsyncAbortMigrate:04674: TgtId: 10d84abe00000002 CombId: 7be3800000eb primaryTgtGenNum: 152 tgtCombCmdGenNum: 623 mdmTgtConnectionGenNum: 7346 01/12 12:21:31.593121 0x7f24a0ae8eb0:mdmTgtMsg_SendAsyncFreeComb:04408: TgtId: 10d871cb00000000 CombId: 7be3800001b8 mdmTgtConnectionGenNum: 7311 01/12 12:21:31.593138 0x7f24a0ae8eb0:mdmTgtMsg_SendAsyncFreeComb:04408: TgtId: 10d898de00000001 CombId: 7be3800000eb mdmTgtConnectionGenNum: 7321
Výstup Cmatrix:
(info) Všimněte si, že opětovné sestavení je zastavené, a proto vypadá, že se zaseklo v uživatelském rozhraní, například níže.
Policy=REBUILD_STOPPED, issue=MULTIPLE, coolingOff=FALSE, bypass=NEPRAVDA
--------------------------------------------------------------------------
cmatrix status dump (FdID=8ba78f9f00000000, 01/12 11:00:54.998786)
policy=REBUILD_STOPPED, issue=MULTIPLE, coolingOff=FALSE, bypass=FALSE
nMaxRows=032, nActiveRows=005, nKnownTgts=005
matrixGen=495, nCycles=2377, duration [ms]: average<1, max=0
matrix memory foot-print is 17344 [bytes]
row/ column ownership:
i=000 :: tgtId=10d871cb00000000 (fsId=10d871cb00000000)
i=001 :: tgtId=10d898de00000001 (fsId=10d898de00000001)
i=002 :: tgtId=10d84abe00000002 (fsId=10d84abe00000002)
i=003 :: tgtId=10d898ee00000003 (fsId=10d898ee00000003)
i=004 :: tgtId=10d8bfeb00000004 (fsId=10d8bfeb00000004)
cells:
I+D++
+I+++
+DI++
+++I+
++++I
Dopad
Cluster MDM není synchronizovaný, přepnutí uzlu MDM není v tomto stavu možné.
Opakovaná ztráta konektivity způsobuje narušení provozuschopnosti.
Opětovné vytvoření se zaseklo a systém se nachází v potenciálním jediném bodě selhání pro DU.
Na SDC se mohou zobrazit chyby vstupně-výstupních operací.
Cause
Když hlavní uzel MDM musí změnit stav datových bloků, musí tyto změny stavu zapsat do souboru úložiště MDM a poté tyto změny synchronizovat s podřízenými uzly MDM. Po dokončení těchto operací zápisu uzel MDM upozorní úložiště SDS, že změny jsou dokončeny, a úložiště může pokračovat v poskytování operací IO a zapisovat IO do disků SDC pouze z primární kopie (dokud nebude opětovné vytvoření dokončeno).
Jakmile primární uzel MDM nemůže aktualizovat sekundární uzel MDM, způsobí, že uzel MDM nebude schopen dostatečně rychle reagovat na požadavky úložišť SDS a může způsobit vstupně-výstupní chyby na řadičích SDC.
Jelikož přepnutí uzlu MDM není možné kvůli nedostatečné synchronizaci mezi členy clusteru a problém se zdá být v primárním uzlu MDM, je nutné do systému přidat další uzel MDM na jiném místě, kde problém s konektivitou neexistuje, nahradit jej jedním ze sekundárních uzlů a poté na něj přepnout. tímto způsobem vykopněte problematický primární MDM z clusteru.
Resolution
Zástupné řešení
V prostředí SVM lze virtuální počítač GW použít pro operaci instalace a nový uzel MDM pro přepnutí, pokud se nenachází na místní jednotce serveru ESXi, a lze jej přesunout na jiný systém ESXi, který problém nemá, nebo nainstalovat uzel MDM na libovolný virtuální počítač v rámci tohoto zástupného řešení.
V jiném prostředí než SVM lze virtuální počítač nebo uzel bez MDM použít pro operaci instalace a nový uzel MDM pro přepnutí.
Dotčené verze
Není k dispozici, problémy se sítí
Opraveno ve verzi
Není k dispozici