PowerFlex 3.x: Během upgradu bez rušení dojde k panice SDS a zastaví upgrade
Summary: Během upgradů bez rušení může u úložiště SDS docházet k postupné panice jádra.
Symptoms
Upgrade z verze VxFlex OS 3.0.x.x na PowerFlex 3.5.x.x nebo 3.6.0.x
Postupná panika jádra SDS zabrání systému v pokračování upgradu.
Proces SDS stále panikaří a restartuje se s následujícím trasováním zásobníku:
27/07 08:07:25.381223 Panic in file /data/build/workspace/ScaleIO-Common-Job/src/tgt/spef/l2p_sm/l2p_resolver/l2p_resolver_sync_services.c, line 1828, function Resolver_Inter_SyncUnmatchedVto, PID 133106.Panic Expression ALWAYS_ASSERT PANIC_ID_tgt_1588256010820.
/opt/emc/scaleio/sds/bin/sds-3.5.1100.107(mosDbg_PanicPrepare+0x13a) [0x93b62a]
/opt/emc/scaleio/sds/bin/sds-3.5.1100.107(Resolver_Inter_SyncUnmatchedVto+0x69c) [0x643ddc]
/opt/emc/scaleio/sds/bin/sds-3.5.1100.107(Resolver_Inter_SyncOffsetData+0xd2) [0x644082]
/opt/emc/scaleio/sds/bin/sds-3.5.1100.107(Resolver_SyncOffset+0x3e6) [0x6446f6]
/opt/emc/scaleio/sds/bin/sds-3.5.1100.107(Resolver_Sync+0x1e4) [0x645c54]
/opt/emc/scaleio/sds/bin/sds-3.5.1100.107(L2PGateway_Inter_Sync+0x59) [0x6542d9]
/opt/emc/scaleio/sds/bin/sds-3.5.1100.107(L2PGateway_Inter_UpdateRamCopyEx+0x163) [0x901ba3]
/opt/emc/scaleio/sds/bin/sds-3.5.1100.107(L2PGateway_Inter_Update+0x4f7) [0x9060f7]
/opt/emc/scaleio/sds/bin/sds-3.5.1100.107(L2PGateway_Sync+0x64) [0x9073d4]
/opt/emc/scaleio/sds/bin/sds-3.5.1100.107(feIo_L2PGatewayUpdate+0x3d8) [0x90cf98]
Cause
Během zpětného opětovného sestavení systému se při ukončení režimu IMM (Instant Maintenance Mode) odešle a přijme na primárním (PRI) a sekundárním (SEC) úložišti SDS nesprávná zpráva o synchronizaci dat. SEC SDS tedy službu náhle restartuje, aby se předešlo možné nekonzistenci dat.
Ve vzácných případech může během IMM chybný zápis příkazu IO falešně vést k interní kontrole správnosti (interní kontrola integrity dat, která způsobí selhání služby SDS) během opětovného vytvoření po dokončení ukončení IMM. K neúspěšnému zápisu příkazu IO dojde před Enter IMM a během IMM byl odeslán další IO na blízký offset ve stejné datové sadě.
Resolution
Automatizovaný upgrade pomocí brány
- Zastavte upgrade pomocí uživatelského rozhraní brány.
- Odeberte vadný SDS z clusteru a poté jej přidejte zpět.
- Restartujte upgrade z uživatelského rozhraní služby IM Gateway a zaškrtněte políčko "Allow upgrade, i když už jste ve stavu upgradu" – upgrade by měl začít znovu a pokračovat s komponentami, které ještě nebyly upgradovány:
Ruční upgrade
Možnost #1
- Pokud stejné zařízení selže při každém z výskytů, vypněte toto jediné zařízení. Pokud ne, odeberte z něj všechna zařízení SDS.
- Počkejte na dokončení přebudování.
- Po odebrání upgradujte SDS a přidejte jej zpět do clusteru.
- Odeberte z clusteru další SDS, který je nutné upgradovat, což spustí opětovné vyvážení.
- Po odebrání upgradujte SDS a přidejte jej zpět do clusteru.
- Vyvažování nechte pokračovat, dokud systém nebude mít dostatečnou kapacitu k odebrání dalšího bezpečnostního listu, který je nutné upgradovat – tento postup opakujte, dokud nebudou upgradovány všechny bezpečnostní listy.
Možnost #2
Pro vytvoření úplné třetí kopie použijte místo IMM režim chráněné údržby (PMM). K problému by nemělo dojít u PMM, například ke smyčce selhání služby, protože dojde k chybě SDS během opětovného vytvoření, vrátí se zpět a opakuje se. Způsob, jak to udělat, je vyřadit selhávající SDS na dostatečně dlouhou dobu, aby MDM dal pokyn k dopřednému přebudování, nikoli zpětnému. Jakmile se problematická datová sada obnoví, lze SDS úspěšně obnovit.
Dotčené verze:
Operační systém VxFlex 3.0.x.x
, PowerFlex 3.5.x.x
, PowerFlex 3.6.0.x-3.6.1.x
Opraveno ve verzi:
PowerFlex 3.6.2