PowerFlex: MDMs führen kein Failover durch, wenn reine SDS-Netzwerke verloren gehen

Zusammenfassung: Der MDM-Cluster führt kein Failover durch, wenn die reinen SDS-Netzwerke ausfallen.

Dieser Artikel gilt für Dieser Artikel gilt nicht für Dieser Artikel ist nicht an ein bestimmtes Produkt gebunden. In diesem Artikel werden nicht alle Produktversionen aufgeführt.

Symptome

Der MDM-Cluster wählt keinen neuen primären Node, wenn die MDMs mit reinen SDC-IP-Adressen eines Node konfiguriert sind und die reinen SDS-Netzwerke ausfallen. 

Das PowerFlex-Ereignisprotokoll zeigt alle getrennten SDSs außer dem lokalen SDS des MDM (f6a8cda900000000) an:
 

2018-01-31 18:43:34.738 SDS_DECOUPLED             ERROR    	 SDS: scaleio-1-13010600 (id: f6a8cdab00000002) decoupled. 
2018-01-31 18:43:34.738 SDS_DECOUPLED             ERROR    	 SDS: scaleio-1-13010503 (id: f6a8cdaf00000006) decoupled. 
2018-01-31 18:43:34.738 SDS_DECOUPLED             ERROR    	 SDS: scaleio-1-13010505 (id: f6a8cdb100000008) decoupled. 
2018-01-31 18:43:34.738 SDS_DECOUPLED             ERROR    	 SDS: scaleio-1-13010504 (id: f6a8cdb200000009) decoupled. 
2018-01-31 18:43:35.740 MDM_DATA_FAILED           CRITICAL 	 The system is now in DATA FAILURE state. Some data is unavailable. 
2018-01-31 18:43:35.740 SDS_DECOUPLED             ERROR    	 SDS: scaleio-1-13010500 (id: f6a8cdaa00000001) decoupled. 
2018-01-31 18:43:35.740 SDS_DECOUPLED             ERROR    	 SDS: scaleio-1-13010602 (id: f6a8cdac00000003) decoupled. 
2018-01-31 18:43:35.741 SDS_DECOUPLED             ERROR    	 SDS: scaleio-1-13010502 (id: f6a8cdad00000004) decoupled. 
2018-01-31 18:43:35.741 SDS_DECOUPLED             ERROR    	 SDS: scaleio-1-13010601 (id: f6a8cdae00000005) decoupled. 
2018-01-31 18:43:35.741 SDS_DECOUPLED             ERROR    	 SDS: scaleio-1-13010603 (id: f6a8cdb000000007) decoupled. 
2018-01-31 18:43:35.741 SDS_DECOUPLED             ERROR    	 SDS: scaleio-1-13010604 (id: f6a8cdb30000000a) decoupled. 
2018-01-31 18:43:35.741 SDS_DECOUPLED             ERROR    	 SDS: scaleio-1-13010605 (id: f6a8cdb40000000b) decoupled.

Connectivity matrix shows all SDSes as Unavailable except for the MDM's local SDS (f6a8cda900000000), which shows as connected and reports the other SDSes as disconnected:

In der Konnektivitätsmatrix werden alle SDSes als "Nicht verfügbar" angezeigt, mit Ausnahme des lokalen SDS des MDM (f6a8cda900000000), der als verbunden angezeigt wird und die anderen SDSs als getrennt meldet:

--------------------------------------------------------------------------
cmatrix status dump (FdID=68e6168500000000, 31/01 18:43:36.744925)
	policy=REBUILD_ALLOWED, issue=SINGLE, coolingOff=TRUE, bypass=FALSE
	nMaxRows=032, nActiveRows=003, nKnownTgts=003
	matrixGen=23, nCycles=767041, duration [ms]: average<1, max=0
	matrix memory foot-print is 17312 [bytes]
row/ column ownership:
	i=000 :: tgtId=f6a8cda900000000 (fsId=f6a8cda900000000)
	i=001 :: tgtId=f6a8cdaa00000001 (fsId=f6a8cdaa00000001)
	i=002 :: tgtId=f6a8cdad00000004 (fsId=f6a8cdad00000004)
cells:
	IDD
	UIU
	UUI
--------------------------------------------------------------------------

 

Auswirkungen

Nichtverfügbarkeit von Daten 

Ursache

Fehlkonfiguration des MDM-Clusters, wenn SDS-IP-Rollen verwendet werden. 

MDM-Netzwerke:

MDMs werden dem MDM-Cluster mit zwei Arten von IP-Adressen hinzugefügt: "MDM-IP" und "MDM-Management-IP": 
 

Master MDM:
    Name: scaleio-1-13010500, ID: 0x1e0f57292c8cb3d0
        IPs: 10.8.88.78, 10.9.88.78, Management IPs: 160.6.40.78, Port: 9011, Virtual IP interfaces: N/A
        Version: 2.0.11000
        Actor ID: 0x29ae453d7f732290, Voter ID: 0x5cbb063079e27880 
Slave MDMs:
    Name: scaleio-1-13010501, ID: 0x61c023380fd9add3
        IPs: 10.8.88.80, 10.9.88.80, Management IPs: 160.6.40.80, Port: 9011, Virtual IP interfaces: N/A
        Status: Normal, Version: 2.0.11000
        Actor ID: 0x62b15c4a5f66df63, Voter ID: 0x54fc1da64efdb503, Replication State: Normal
 
    Name: scaleio-1-13010600, ID: 0x2b51a16a2be29722
        IPs: 10.8.88.79, 10.9.88.79, Management IPs: 160.6.40.79, Port: 9011, Virtual IP interfaces: N/A
        Status: Normal, Version: 2.0.11000
        Actor ID: 0x777bf7f569f01082, Voter ID: 0x158f1c0841d4c712, Replication State: Normal

TL; DR: Die MDMs überwachen nur die "MDM-IP"-Adressen für die Clustersynchronisierung und verlieren die Synchronisierung mit einem MDM nur, wenn er mit diesen IP-Adressen nicht reagiert. (10.8.88.xx und 10.9.88.xx in diesem Beispiel.)

 

SDS-Netzwerke:

Die SDSs sind mit jeweils vier IP-Adressen konfiguriert: (query_all Ausgabe)

Protection Domain 68e6168500000000 Name: domain_PD_0000
SDS ID: f6a8cdad00000004 Name: scaleio-1-13010502 State: Connected, Joined IP: 10.8.88.85,10.9.88.85,10.10.88.8,10.11.88.8 Port: 7072 Version: 2.0.11000
SDS ID: f6a8cdaa00000001 Name: scaleio-1-13010500 State: Connected, Joined IP: 10.8.88.78,10.9.88.78,10.10.88.1,10.11.88.1 Port: 7072 Version: 2.0.11000
SDS ID: f6a8cda900000000 Name: scaleio-1-13010501 State: Connected, Joined IP: 10.8.88.80,10.9.88.80,10.10.88.3,10.11.88.3 Port: 7072 Version: 2.0.11000
The SDS IP role configuration is split into SDC-only and SDS-only, (per TGT_dump in MDM getinfo):

Die Konfiguration der SDS-IP-Rolle ist in Nur-SDC und Nur-SDS aufgeteilt (pro TGT_dump in MDM getinfo):

0: ID: f6a8cda900000000 Name: scaleio-1-13010501 fdId: 68e6168500000000 fsId: 0000000000000000
IP:  10.8.88.80,10.9.88.80,10.10.88.3,10.11.88.3 Port: 7072
 States: NORMAL UpDown: UP Process: IDLE RefCnt: 7 GenNum: 910  KeepaliveState: NORMAL    IPs:  10.8.88.80 (SDC Only) 10.9.88.80 (SDC Only) 10.10.88.3 (SDS Only) 10.11.88.3 (SDS Only)
As this cluster had SDS IP roles in use, the MDM reported correctly in its connectivity matrix output that all SDSes (besides its local SDS) were unavailable when the SDS-only networks failed: (Note that even though the SDSes aren't all in the same PD and cmatrix only shows one PD per file)

Da in diesem Cluster SDS-IP-Rollen verwendet wurden, meldete der MDM in seiner Konnektivitätsmatrixausgabe korrekt, dass alle SDSs (außer dem lokalen SDS) nicht verfügbar waren, wenn die SDS-Netzwerke ausfielen: (Beachten Sie, dass, obwohl sich die SDSs nicht alle in derselben PD befinden und cmatrix nur eine PD pro Datei anzeigt.)

--------------------------------------------------------------------------
cmatrix status dump (FdID=68e6168500000000, 31/01 18:43:36.744925)
	policy=REBUILD_ALLOWED, issue=SINGLE, coolingOff=TRUE, bypass=FALSE
	nMaxRows=032, nActiveRows=003, nKnownTgts=003
	matrixGen=23, nCycles=767041, duration [ms]: average<1, max=0
	matrix memory foot-print is 17312 [bytes]
row/ column ownership:
	i=000 :: tgtId=f6a8cda900000000 (fsId=f6a8cda900000000)
	i=001 :: tgtId=f6a8cdaa00000001 (fsId=f6a8cdaa00000001)
	i=002 :: tgtId=f6a8cdad00000004 (fsId=f6a8cdad00000004)
cells:
	IDD
	UIU
	UUI
--------------------------------------------------------------------------

Der Grund dafür ist, dass der MDM nur IP-Adressen mit einer SDS-Rolle (entweder "SDS-only" oder "All") auf Keepalives von den SDSs überwacht. 

Zusammenfassung:

In diesem Fall war die Node-Node-Konnektivität über die Netzwerke 10.8.88.xx und 10.9.88.xx (nur SDC) in Ordnung – ebenso wie die Synchronisierung des MDM-Clusters. 

Die Node-Node-Konnektivität über die Netzwerke 10.10.88.x und 10.11.88.x (nur SDS) wurde unterbrochen und die MDM-SDS-Keepalives schlugen fehl. 

Aus Sicht des primären MDM trat nur bei jedem SDS außer dem lokalen ein Timeout auf. 

Lösung

Kein Workaround. Der MDM-Cluster muss entsprechend für die SDS-Netzwerkkonfiguration konfiguriert werden. 

Bei Verwendung von SDS-IP-Rollen sollten sich die MDM-IPs nur in den SDS-Netzwerken der Hosts befinden. 

Wäre dies der Fall gewesen, hätte der Verlust beider NICs dazu geführt, dass der MDM-Cluster auf einen anderen Node versprungen wäre, eine Neuerstellung begonnen hätte und der Volume-Zugriff nicht unterbrochen worden wäre. 

Es ist nicht erforderlich, die MDM-IP-Konfiguration der SDCs in die reinen SDS-IPs zu ändern, da der MDM-Prozess alle IP-Adressen überwacht.

 

Weitere Informationen

Betroffene Versionen

Alle  

Behoben in Version

N/A, funktioniert wie vorgesehen  

Betroffene Produkte

VxFlex Product Family

Produkte

PowerFlex rack, VxFlex Product Family
Artikeleigenschaften
Artikelnummer: 000040756
Artikeltyp: Solution
Zuletzt geändert: 01 Okt. 2025
Version:  5
Antworten auf Ihre Fragen erhalten Sie von anderen Dell NutzerInnen
Support Services
Prüfen Sie, ob Ihr Gerät durch Support Services abgedeckt ist.