PowerFlex:SDSのみのネットワークが失われてもMDMはフェールオーバーしない
概要: SDSのみのネットワークに障害が発生した場合、MDMクラスターはフェールオーバーしません。
現象
MDMがノードのSDCのみのIPアドレスで構成されている場合、MDMクラスターは新しいプライマリーを選択せず、SDSのみのネットワークに障害が発生します。
PowerFlexイベント ログには、MDMのローカルSDS(f6a8cda9000000000) を除くすべてのSDSが次のように切断されていることが示されます。
2018-01-31 18:43:34.738 SDS_DECOUPLED ERROR SDS: scaleio-1-13010600 (id: f6a8cdab00000002) decoupled. 2018-01-31 18:43:34.738 SDS_DECOUPLED ERROR SDS: scaleio-1-13010503 (id: f6a8cdaf00000006) decoupled. 2018-01-31 18:43:34.738 SDS_DECOUPLED ERROR SDS: scaleio-1-13010505 (id: f6a8cdb100000008) decoupled. 2018-01-31 18:43:34.738 SDS_DECOUPLED ERROR SDS: scaleio-1-13010504 (id: f6a8cdb200000009) decoupled. 2018-01-31 18:43:35.740 MDM_DATA_FAILED CRITICAL The system is now in DATA FAILURE state. Some data is unavailable. 2018-01-31 18:43:35.740 SDS_DECOUPLED ERROR SDS: scaleio-1-13010500 (id: f6a8cdaa00000001) decoupled. 2018-01-31 18:43:35.740 SDS_DECOUPLED ERROR SDS: scaleio-1-13010602 (id: f6a8cdac00000003) decoupled. 2018-01-31 18:43:35.741 SDS_DECOUPLED ERROR SDS: scaleio-1-13010502 (id: f6a8cdad00000004) decoupled. 2018-01-31 18:43:35.741 SDS_DECOUPLED ERROR SDS: scaleio-1-13010601 (id: f6a8cdae00000005) decoupled. 2018-01-31 18:43:35.741 SDS_DECOUPLED ERROR SDS: scaleio-1-13010603 (id: f6a8cdb000000007) decoupled. 2018-01-31 18:43:35.741 SDS_DECOUPLED ERROR SDS: scaleio-1-13010604 (id: f6a8cdb30000000a) decoupled. 2018-01-31 18:43:35.741 SDS_DECOUPLED ERROR SDS: scaleio-1-13010605 (id: f6a8cdb40000000b) decoupled. Connectivity matrix shows all SDSes as Unavailable except for the MDM's local SDS (f6a8cda900000000), which shows as connected and reports the other SDSes as disconnected:
接続マトリックスには、MDMのローカルSDS(f6a8cda900000000)を除き、すべてのSDSが使用不可と表示されます。これは接続済みとして表示され、他のSDSは切断済みとして報告されます。
-------------------------------------------------------------------------- cmatrix status dump (FdID=68e6168500000000, 31/01 18:43:36.744925) policy=REBUILD_ALLOWED, issue=SINGLE, coolingOff=TRUE, bypass=FALSE nMaxRows=032, nActiveRows=003, nKnownTgts=003 matrixGen=23, nCycles=767041, duration [ms]: average<1, max=0 matrix memory foot-print is 17312 [bytes] row/ column ownership: i=000 :: tgtId=f6a8cda900000000 (fsId=f6a8cda900000000) i=001 :: tgtId=f6a8cdaa00000001 (fsId=f6a8cdaa00000001) i=002 :: tgtId=f6a8cdad00000004 (fsId=f6a8cdad00000004) cells: IDD UIU UUI --------------------------------------------------------------------------
問題
データ欠損
原因
SDS IPロールを使用している場合のMDMクラスターの構成ミス。
MDMネットワーク:
MDMは、次の2種類のIPアドレスを使用してMDMクラスターに追加されます。[MDM IP]と[MDM Management IP]:
Master MDM:
Name: scaleio-1-13010500, ID: 0x1e0f57292c8cb3d0
IPs: 10.8.88.78, 10.9.88.78, Management IPs: 160.6.40.78, Port: 9011, Virtual IP interfaces: N/A
Version: 2.0.11000
Actor ID: 0x29ae453d7f732290, Voter ID: 0x5cbb063079e27880
Slave MDMs:
Name: scaleio-1-13010501, ID: 0x61c023380fd9add3
IPs: 10.8.88.80, 10.9.88.80, Management IPs: 160.6.40.80, Port: 9011, Virtual IP interfaces: N/A
Status: Normal, Version: 2.0.11000
Actor ID: 0x62b15c4a5f66df63, Voter ID: 0x54fc1da64efdb503, Replication State: Normal
Name: scaleio-1-13010600, ID: 0x2b51a16a2be29722
IPs: 10.8.88.79, 10.9.88.79, Management IPs: 160.6.40.79, Port: 9011, Virtual IP interfaces: N/A
Status: Normal, Version: 2.0.11000
Actor ID: 0x777bf7f569f01082, Voter ID: 0x158f1c0841d4c712, Replication State: Normal
TLの;博士:MDMは、クラスター同期のために「MDM IP」アドレスのみを監視し、これらのIPアドレスを使用して応答しない限り、MDMとの同期を失うことはありません。(この例では10.8.88.xxと10.9.88.xx)。
SDSネットワーク:
SDSは、それぞれ4つのIPアドレスで構成されます。(query_all出力)
Protection Domain 68e6168500000000 Name: domain_PD_0000 SDS ID: f6a8cdad00000004 Name: scaleio-1-13010502 State: Connected, Joined IP: 10.8.88.85,10.9.88.85,10.10.88.8,10.11.88.8 Port: 7072 Version: 2.0.11000 SDS ID: f6a8cdaa00000001 Name: scaleio-1-13010500 State: Connected, Joined IP: 10.8.88.78,10.9.88.78,10.10.88.1,10.11.88.1 Port: 7072 Version: 2.0.11000 SDS ID: f6a8cda900000000 Name: scaleio-1-13010501 State: Connected, Joined IP: 10.8.88.80,10.9.88.80,10.10.88.3,10.11.88.3 Port: 7072 Version: 2.0.11000 The SDS IP role configuration is split into SDC-only and SDS-only, (per TGT_dump in MDM getinfo):
SDS IPロールの構成は、SDCのみとSDSのみに分割されます(MDM getinfoのTGT_dumpごと)。
0: ID: f6a8cda900000000 Name: scaleio-1-13010501 fdId: 68e6168500000000 fsId: 0000000000000000 IP: 10.8.88.80,10.9.88.80,10.10.88.3,10.11.88.3 Port: 7072 States: NORMAL UpDown: UP Process: IDLE RefCnt: 7 GenNum: 910 KeepaliveState: NORMAL IPs: 10.8.88.80 (SDC Only) 10.9.88.80 (SDC Only) 10.10.88.3 (SDS Only) 10.11.88.3 (SDS Only) As this cluster had SDS IP roles in use, the MDM reported correctly in its connectivity matrix output that all SDSes (besides its local SDS) were unavailable when the SDS-only networks failed: (Note that even though the SDSes aren't all in the same PD and cmatrix only shows one PD per file)
このクラスターにはSDS IPロールが使用されていたため、SDSのみのネットワークに障害が発生したときに、MDMはすべてのSDS(ローカルSDS以外)が使用できなかったことを接続マトリックス出力で正しく報告しました。(SDSがすべて同じPDにあるわけではなく、cmatrixにはファイルごとに1つのPDしか表示されないことに注意してください)
-------------------------------------------------------------------------- cmatrix status dump (FdID=68e6168500000000, 31/01 18:43:36.744925) policy=REBUILD_ALLOWED, issue=SINGLE, coolingOff=TRUE, bypass=FALSE nMaxRows=032, nActiveRows=003, nKnownTgts=003 matrixGen=23, nCycles=767041, duration [ms]: average<1, max=0 matrix memory foot-print is 17312 [bytes] row/ column ownership: i=000 :: tgtId=f6a8cda900000000 (fsId=f6a8cda900000000) i=001 :: tgtId=f6a8cdaa00000001 (fsId=f6a8cdaa00000001) i=002 :: tgtId=f6a8cdad00000004 (fsId=f6a8cdad00000004) cells: IDD UIU UUI --------------------------------------------------------------------------
これは、MDMがSDSからのキープアライブについて、SDSロール(「SDS専用」または「All」のいずれか)を持つIPアドレスのみを監視するためです。
[Summary]:
この場合、10.8.88.xxおよび10.9.88.xx(SDCのみ)ネットワークを使用したノード間接続は正常に動作し、MDMクラスターの同期も正常に行われました。
10.10.88.xおよび10.11.88.x(SDSのみ)ネットワークを使用するノード間接続が中断され、MDM-SDSキープアライブが失敗しました。
プライマリーMDMの観点から見ると、発生した唯一のイベントは、ローカルのSDSがタイムアウトしたすべてのSDSでした。
解決方法
回避策はありません。MDMクラスターをSDSネットワーク構成に合わせて適切に構成する必要があります。
SDS IPロールを使用する場合、MDM IPはホストのSDS専用ネットワークにのみ存在する必要があります。
この場合、両方のNICが失われると、MDMクラスターが別のノードに障害が発生し、再構築が開始され、ボリューム アクセスが中断されることはありませんでした。
MDMプロセスはすべてのIPアドレスをリスンするため、SDCのMDM IP構成をSDSのみのIPに変更する必要はありません。
その他の情報
問題が発生するバージョン
すべて
修正バージョン
該当なし、設計通りに動作