PowerFlex 3.x: NDU中にSDSがパニック状態になり、アップグレードが停止する
Summary: NDU中に、SDSでローリング カーネル パニックが発生することがあります。
Symptoms
VxFlex OS 3.0.x.xからPowerFlex 3.5.x.xまたは3.6.0.xにアップグレードすると
SDSのローリング カーネル パニックにより、システムがアップグレードを続行できなくなります。
SDSプロセスでパニックが発生し続け、次のスタック トレースで再起動します。
27/07 08:07:25.381223 Panic in file /data/build/workspace/ScaleIO-Common-Job/src/tgt/spef/l2p_sm/l2p_resolver/l2p_resolver_sync_services.c, line 1828, function Resolver_Inter_SyncUnmatchedVto, PID 133106.Panic Expression ALWAYS_ASSERT PANIC_ID_tgt_1588256010820.
/opt/emc/scaleio/sds/bin/sds-3.5.1100.107(mosDbg_PanicPrepare+0x13a) [0x93b62a]
/opt/emc/scaleio/sds/bin/sds-3.5.1100.107(Resolver_Inter_SyncUnmatchedVto+0x69c) [0x643ddc]
/opt/emc/scaleio/sds/bin/sds-3.5.1100.107(Resolver_Inter_SyncOffsetData+0xd2) [0x644082]
/opt/emc/scaleio/sds/bin/sds-3.5.1100.107(Resolver_SyncOffset+0x3e6) [0x6446f6]
/opt/emc/scaleio/sds/bin/sds-3.5.1100.107(Resolver_Sync+0x1e4) [0x645c54]
/opt/emc/scaleio/sds/bin/sds-3.5.1100.107(L2PGateway_Inter_Sync+0x59) [0x6542d9]
/opt/emc/scaleio/sds/bin/sds-3.5.1100.107(L2PGateway_Inter_UpdateRamCopyEx+0x163) [0x901ba3]
/opt/emc/scaleio/sds/bin/sds-3.5.1100.107(L2PGateway_Inter_Update+0x4f7) [0x9060f7]
/opt/emc/scaleio/sds/bin/sds-3.5.1100.107(L2PGateway_Sync+0x64) [0x9073d4]
/opt/emc/scaleio/sds/bin/sds-3.5.1100.107(feIo_L2PGatewayUpdate+0x3d8) [0x90cf98]
Cause
システムの後方再構築中に、インスタント メンテナンス モード(IMM)の終了時に、プライマリー(PRI)およびセカンダリー(SEC)SDSで誤ったデータ同期メッセージが送受信されます。したがって、SEC SDS は、データの不整合の可能性を回避するために、サービスを突然再起動します。
IMM終了後の再構築中に、書き込みコマンドIOが失敗すると、内部の整合性チェック(SDSサービスのクラッシュを引き起こす内部データ整合性チェック)が誤って実行される可能性があるという、IMM中のまれなシナリオです。失敗した書き込みコマンドIOは、IMMの開始前に発生し、IMM中に同じデータセット内の近くのオフセットに別のIOが送信されました。
Resolution
ゲートウェイを使用した自動アップグレード
- ゲートウェイUIを使用してアップグレードを停止します。
- 障害が発生したSDSをクラスターから削除し、再度追加します。
- IMゲートウェイUIからアップグレードを再開し、[Allow upgrade even in already in Upgrade]チェックボックスをオンにします。アップグレードは最初からやり直され、まだアップグレードされていないコンポーネントで続行されます。
手動アップグレード
オプション#1
- 同じデバイスで障害が発生した場合は、その単一のデバイスをオフラインにします。そうでない場合は、SDSからすべてのSDSデバイスを削除します。
- 再構築が完了するまで待ちます。
- 削除したら、SDSをアップグレードし、クラスターに再度追加します。
- 再バランシングをトリガーするクラスターからアップグレードする必要がある次のSDSを削除します。
- 削除したら、SDSをアップグレードし、クラスターに再度追加します。
- アップグレードが必要な次のSDSを削除するのに十分な容量がシステムにあるまで、再バランシングを続行します。すべてのSDSがアップグレードされるまでこれを繰り返します。
オプション#2
完全な3番目のコピーを作成するには、IMMの代わりに保護メンテナンス モード(PMM)を使用します。この問題はPMMでは発生しません。たとえば、再構築中にSDSがクラッシュし、バックアップして繰り返すためにサービス クラッシュ ループが発生します。これを解決するには、クラッシュしているSDSを十分な期間停止させて、MDMが後方ではなく順方向の再構築を指示するようにします。問題のあるデータ セットが再構築されたら、SDSを正常にバックアップできます。
影響を受けるバージョン:
VxFlex OS 3.0.x.x
PowerFlex 3.5.x.x
PowerFlex 3.6.0.x-3.6.1.x
修正バージョン:
PowerFlex 3.6.2