PowerFlex: Klient-IO-fel när replikering används
Summary: Klientservrar har I/O-fel på enheter med PowerFlex-stöd. Den övergripande serverdelen (MDM:er och SDS:er) verkar vara felfri. PowerFlex-replikering används och det finns några RPO-fel mot en eller flera av RCG:erna. ...
Symptoms
- Ingen försämrad eller trasig kapacitet
- Inga SDS:er kopplades bort och inga SDS-enheter rapporterade fel
- Inga frånkopplade MDM-enheter
- Replikeringsfunktionen används
En eller flera aviseringar i användargränssnittet som rapporterar följande fel:
Minor - Remote Consistency Group RPO Exceeded
Major - The RCG consistent image is too large to be consumed by the destination in one piece.
MDM-händelseloggar kan rapportera följande:
2024-06-11 15:55:56.592000:0001566:RPL_PD_CAP_UTILIZATION_MINOR WARNING Protection Domain ID <pd_id> Replication journal capacity is at MINOR utilization level
...
2024-06-11 16:20:12.848000:0001567:RPL_PD_CAP_UTILIZATION_MAJOR ERROR Protection Domain ID <pd_id> Replication journal capacity is at MAJOR utilization level
...
2024-06-11 17:19:57.272000:0001584:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at VERY_HIGH utilization level
...
2024-06-11 17:52:26.352000:0001585:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at CRITICAL utilization level
...
2024-06-11 16:25:14.381000:0001576:RPL_CG_MOVED_TO_SLIM_MODE INFO Replication Consistency Group ID <rcg_id> entered slim mode
...
2024-06-11 18:27:29.738000:0001586:SDR_CRITICAL_CAP_CHANGE ERROR SDR ID <sdr_id>) handling user data changed discarded old user data and stopped to accumulate new user data due critical capacity
Påverkan
Klienter kan inte komma åt volymer som replikeras.
Cause
Ett sällsynt programvarufel kan uppstå där MDM-enheten och SDR-komponenten är oense om de interna räknarna som är relaterade till journalkapacitet.
Den här avvikelsen kan leda till att MDM-enheten inte kan avallokera (släppa) ytterligare journalkapacitet när SDR-kapaciteten är full, vilket kan leda till I/O-fel på klientservrar som använder enheter som stöds av PowerFlex.
Resolution
En löpande omstart av alla SDR-komponenter krävs och MDM-ägarskapet på källsystemet måste bytas för att problemet ska kunna lösas.
Starta om SDR-komponenter på målwebbplatsen
1. Identifiera alla SDR:er och kontrollera att de är i ett felfritt tillstånd innan du fortsätter till steg 2:
scli --query_all_sdr
2. Gå in i underhållsläge på SDR:
scli --enter_sdr_maintenance_mode --sdr_name <name>
3. Kontrollera att SDR är i underhållsläge genom att köra kommandot i steg 1.
4. Starta om SDR-komponenten
pkill sdr
5. Upprepa steg 1–4 för alla SDR:er på källwebbplatsen .
6. Avsluta SDR från underhållsläge:
scli --exit_sdr_maintenance_mode --sdr_name <name>
7. Byt MDM-ägarskap när alla SDR:er har startats om och är i ett felfritt tillstånd:
#3.x
scli --switch_mdm_ownership --new_master_mdm_name <name>
#4.x
scli --switch_mdm_ownership --new_primary_mdm_name <name>
8. Verifiera att I/O-felen på klientservrarna inte längre rapporteras. Om klienten har angett ett skrivskyddat filsystem kan klientservern kräva en omstart.
Versioner som påverkas
PowerFlex 3.x
PFMP 4.x
Åtgärdat i version
PowerFlex 4.5.3
PowerFlex 4.5.4 – uppgradera till 4.5.4 HF1
PowerFlex 4.5.5 – ingen korrigering tillgänglig
PowerFlex 4.5.6 och senare
Additional Information
Versioner som påverkas
PowerFlex 3.x
PowerFlex 4.x
Åtgärdat i version
PowerFlex 4.5.3
PowerFlex 4.5.4 – uppgradera till 4.5.4 HF1
PowerFlex 4.5.5 – ingen korrigering tillgänglig.
PowerFlex 4.5.6 och senare