PowerFlex: Klient-I/O-feil når replikering brukes
Summary: Klientservere opplever I/O-feil mot PowerFlex-støttede enheter. Den generelle backend (MDM og SDS) ser ut til å være sunn. PowerFlex-replikering brukes, og det er noen RPO-feil mot ett eller flere av RCG-ene. ...
Symptoms
- Ingen redusert eller feilet kapasitet
- Ingen SDS-er ble frakoblet, og ingen SDS-enheter rapporterte feil
- Ingen frakoblede MDM-er
- Replikeringsfunksjonen brukes
Ett eller flere varsler i brukergrensesnittet som rapporterer følgende feil:
Minor - Remote Consistency Group RPO Exceeded
Major - The RCG consistent image is too large to be consumed by the destination in one piece.
MDM-hendelseslogger kan rapportere følgende:
2024-06-11 15:55:56.592000:0001566:RPL_PD_CAP_UTILIZATION_MINOR WARNING Protection Domain ID <pd_id> Replication journal capacity is at MINOR utilization level
...
2024-06-11 16:20:12.848000:0001567:RPL_PD_CAP_UTILIZATION_MAJOR ERROR Protection Domain ID <pd_id> Replication journal capacity is at MAJOR utilization level
...
2024-06-11 17:19:57.272000:0001584:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at VERY_HIGH utilization level
...
2024-06-11 17:52:26.352000:0001585:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at CRITICAL utilization level
...
2024-06-11 16:25:14.381000:0001576:RPL_CG_MOVED_TO_SLIM_MODE INFO Replication Consistency Group ID <rcg_id> entered slim mode
...
2024-06-11 18:27:29.738000:0001586:SDR_CRITICAL_CAP_CHANGE ERROR SDR ID <sdr_id>) handling user data changed discarded old user data and stopped to accumulate new user data due critical capacity
Innvirkning
Klienter får ikke tilgang til volumer som replikeres.
Cause
En sjelden programvarefeil kan oppstå der MDM- og SDR-komponenten er uenige om de interne tellerne knyttet til journalkapasitet.
Dette avviket kan føre til at MDM-en ikke klarer å allokere (frigi) ekstra journalkapasitet når kapasiteten til SDR-en er full, noe som kan føre til I/O-feil på klientservere som bruker enheter støttet av PowerFlex.
Resolution
Det kreves en rullerende omstart av alle SDR-komponenter, og MDM-eierskapet på kildesystemet må byttes for å løse problemet.
Start SDR-komponenter på nytt på målområdet
1. Identifiser alle SDR og kontroller at de er i en sunn tilstand før du fortsetter til trinn 2:
scli --query_all_sdr
2. Gå til vedlikeholdsmodus på SDR:
scli --enter_sdr_maintenance_mode --sdr_name <name>
3. Kontroller at SDR er i vedlikeholdsmodus ved å kjøre kommandoen i trinn 1.
4. Start SDR-komponenten på nytt
pkill sdr
5. Gjenta trinn 1–4 for alle SDRer på kildeområdet .
6. Avslutt SDR fra vedlikeholdsmodus:
scli --exit_sdr_maintenance_mode --sdr_name <name>
7. Bytt MDM-eierskap når alle SDR-ene er startet på nytt og er i god stand:
#3.x
scli --switch_mdm_ownership --new_master_mdm_name <name>
#4.x
scli --switch_mdm_ownership --new_primary_mdm_name <name>
8. Kontrollere at I/O-feil på klientserverne ikke lenger rapporteres. Hvis klienten har angitt et skrivebeskyttet filsystem, kan det hende at klientserveren må startes på nytt.
Berørte versjoner
PowerFlex 3.x
PFMP 4.x
Løst i versjon
PowerFlex 4.5.3
PowerFlex 4.5.4 – oppgrader til 4.5.4 HF1
PowerFlex 4.5.5 – ingen reparasjon tilgjengelig
PowerFlex 4.5.6 og nyere
Additional Information
Berørte versjoner
PowerFlex 3.x
PowerFlex 4.x
Løst i versjon
PowerFlex 4.5.3
PowerFlex 4.5.4 – oppgrader til 4.5.4 HF1
PowerFlex 4.5.5 – ingen tilgjengelig hurtigreparasjon.
PowerFlex 4.5.6 og nyere