PowerFlex: Klient-IO-fejl, når replikering bruges
Summary: Klientservere oplever I/O-fejl mod PowerFlex-understøttede enheder. Den samlede backend (MDM'er og SDS'er) ser ud til at være sund. PowerFlex-replikering anvendes, og der er nogle RPO-fejl mod en eller flere af RCG'erne. ...
Symptoms
- Ingen forringet eller fejlbehæftet kapacitet
- Ingen SDS'er blev afkoblet, og ingen SDS-enheder rapporterede fejl
- Ingen afbrudte MDM'er
- Replikeringsfunktionen anvendes
En eller flere advarsler i brugergrænsefladen, der rapporterer følgende fejl:
Minor - Remote Consistency Group RPO Exceeded
Major - The RCG consistent image is too large to be consumed by the destination in one piece.
MDM-hændelseslogfiler rapporterer muligvis følgende:
2024-06-11 15:55:56.592000:0001566:RPL_PD_CAP_UTILIZATION_MINOR WARNING Protection Domain ID <pd_id> Replication journal capacity is at MINOR utilization level
...
2024-06-11 16:20:12.848000:0001567:RPL_PD_CAP_UTILIZATION_MAJOR ERROR Protection Domain ID <pd_id> Replication journal capacity is at MAJOR utilization level
...
2024-06-11 17:19:57.272000:0001584:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at VERY_HIGH utilization level
...
2024-06-11 17:52:26.352000:0001585:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at CRITICAL utilization level
...
2024-06-11 16:25:14.381000:0001576:RPL_CG_MOVED_TO_SLIM_MODE INFO Replication Consistency Group ID <rcg_id> entered slim mode
...
2024-06-11 18:27:29.738000:0001586:SDR_CRITICAL_CAP_CHANGE ERROR SDR ID <sdr_id>) handling user data changed discarded old user data and stopped to accumulate new user data due critical capacity
Påvirkning
Klienter kan ikke få adgang til diskenheder, der replikeres.
Cause
Der kan opstå en sjælden softwarefejl, hvis MDM og SDR-komponenten er uenige om de interne tællere, der er relateret til journalkapacitet.
Denne uoverensstemmelse kan medføre, at MDM ikke kan ophæve tildelingen (frigive) yderligere kladdekapacitet, når SDR'ens kapacitet er fuld, hvilket potentielt kan føre til I/O-fejl på klientservere, der anvender enheder, der understøttes af PowerFlex.
Resolution
Der kræves en rullende genstart af alle SDR-komponenter, og MDM-ejerskabet på kildesystemet skal skiftes for at løse problemet.
Genstart SDR-komponenter på destinationswebstedet
1. Identificer alle SDR'erne, og valider, at de er i en sund tilstand, før du fortsætter til trin 2:
scli --query_all_sdr
2. Aktivér vedligeholdelsestilstand på SDR:
scli --enter_sdr_maintenance_mode --sdr_name <name>
3. Bekræft, at SDR er i vedligeholdelsestilstand ved at køre kommandoen i trin 1.
4. Genstart SDR-komponenten
pkill sdr
5. Gentag trin 1-4 for alle SDR er på kildewebstedet .
6. Afslut SDR er fra vedligeholdelsestilstand:
scli --exit_sdr_maintenance_mode --sdr_name <name>
7. Skift MDM-ejerskab, når alle SDR er genstartet og er i en sund tilstand:
#3.x
scli --switch_mdm_ownership --new_master_mdm_name <name>
#4.x
scli --switch_mdm_ownership --new_primary_mdm_name <name>
8. Kontrollér, at I/O-fejlene på klientserverne ikke længere rapporteres. Hvis klienten har indtastet et skrivebeskyttet filsystem, kræver klientserveren muligvis en genstart.
Påvirkede versioner
PowerFlex 3.x
PFMP 4.x
Fast i version
PowerFlex 4.5.3
PowerFlex 4.5.4 – opgradering til 4.5.4 HF1
PowerFlex 4.5.5 – ingen tilgængelig rettelse
PowerFlex 4.5.6 og nyere
Additional Information
Påvirkede versioner
PowerFlex 3.x
PowerFlex 4.x
Fast i version
PowerFlex 4.5.3
PowerFlex 4.5.4 – opgradering til 4.5.4 HF1
PowerFlex 4.5.5 – ingen rettelse tilgængelig.
PowerFlex 4.5.6 og højere