PowerFlex: Chyby vstupně-výstupních operací klienta při použití replikace
Summary: U klientských serverů dochází u zařízení se systémem PowerFlex k chybám I/O. Celkový back-end (MDM a SDS) se zdá být v pořádku. Je využívána replikace PowerFlex a u jedné nebo více skupin RCG dochází k chybám RPO. ...
Symptoms
- Žádná snížená nebo vadná kapacita
- Žádné jednotky SDS nebyly odpojeny a žádná zařízení SDS nenahlásila chyby
- Žádné odpojené uzly MDM
- Využívá se funkce replikace
Jedna nebo více výstrah v uživatelském rozhraní, které hlásí následující chyby:
Minor - Remote Consistency Group RPO Exceeded
Major - The RCG consistent image is too large to be consumed by the destination in one piece.
Protokoly událostí MDM mohou hlásit následující:
2024-06-11 15:55:56.592000:0001566:RPL_PD_CAP_UTILIZATION_MINOR WARNING Protection Domain ID <pd_id> Replication journal capacity is at MINOR utilization level
...
2024-06-11 16:20:12.848000:0001567:RPL_PD_CAP_UTILIZATION_MAJOR ERROR Protection Domain ID <pd_id> Replication journal capacity is at MAJOR utilization level
...
2024-06-11 17:19:57.272000:0001584:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at VERY_HIGH utilization level
...
2024-06-11 17:52:26.352000:0001585:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at CRITICAL utilization level
...
2024-06-11 16:25:14.381000:0001576:RPL_CG_MOVED_TO_SLIM_MODE INFO Replication Consistency Group ID <rcg_id> entered slim mode
...
2024-06-11 18:27:29.738000:0001586:SDR_CRITICAL_CAP_CHANGE ERROR SDR ID <sdr_id>) handling user data changed discarded old user data and stopped to accumulate new user data due critical capacity
Důsledky
Klienti nemají přístup ke svazkům, které jsou replikovány.
Cause
Vzácná softwarová závada může nastat tehdy, když se komponenta MDM a SDR neshodnou na interních čítačích souvisejících s kapacitou žurnálu.
Tento nesoulad může způsobit, že uzel MDM nezruší přidělení (uvolnění) dodatečné kapacity žurnálu, když je kapacita SDR plná, což může vést k chybám I/O na klientských serverech využívajících zařízení zálohovaná systémem PowerFlex.
Resolution
K vyřešení problému je vyžadován postupný restart všech komponent SDR a je nutné přepnout vlastnictví MDM ve zdrojovém systému.
Restartujte komponenty SDR v cílové lokalitě.
1. Než budete pokračovat krokem 2, identifikujte všechna SDR a ověřte, zda jsou v dobrém stavu:
scli --query_all_sdr
2. Přejděte do režimu údržby na SDR:
scli --enter_sdr_maintenance_mode --sdr_name <name>
3. Ověřte, zda je SDR v režimu údržby, spuštěním příkazu v kroku 1.
4. Restartujte komponentu SDR
pkill sdr
5. Opakujte kroky 1 až 4 pro všechna SDR ve zdrojové lokalitě.
6. Ukončení SDR z režimu údržby:
scli --exit_sdr_maintenance_mode --sdr_name <name>
7. Jakmile se všechna SDR restartují a jsou v dobrém stavu, změňte vlastnictví MDM:
#3.x
scli --switch_mdm_ownership --new_master_mdm_name <name>
#4.x
scli --switch_mdm_ownership --new_primary_mdm_name <name>
8. Ověřte, zda již nejsou hlášeny chyby I/O na klientských serverech. Pokud klient přešel do systému souborů pouze pro čtení, může klientský server vyžadovat restartování.
Dotčené verze
PowerFlex 3.x
PFMP 4.x
Opraveno ve verzi
PowerFlex 4.5.3
PowerFlex 4.5.4 – upgrade na verzi 4.5.4 HF1
PowerFlex 4.5.5 – není k dispozici
žádná oprava PowerFlex 4.5.6 a vyšší
Additional Information
Dotčené verze
PowerFlex 3.x
PowerFlex 4.x
Opraveno ve verzi
PowerFlex 4.5.3
PowerFlex 4.5.4 – upgrade na verzi 4.5.4 HF1
PowerFlex 4.5.5 – není k dispozici žádná oprava.
PowerFlex 4.5.6 a vyšší