PowerFlex: Client IO-fouten bij gebruik van replicatie
Summary: Clientservers ondervinden I/O-fouten op apparaten met PowerFlex-back-up. De algehele backend (MDM's en SDS'en) lijkt in orde te zijn. PowerFlex-replicatie wordt gebruikt en er zijn enkele RPO-fouten tegen een of meer van de RCG's. ...
Symptoms
- Geen verslechterde of defecte capaciteit
- Er zijn geen SDS-servers ontkoppeld en er zijn geen SDS-apparaten die fouten melden
- Geen losgekoppelde MDM's
- De replicatiefunctie wordt gebruikt
Een of meer meldingen in de gebruikersinterface melden de volgende fouten:
Minor - Remote Consistency Group RPO Exceeded
Major - The RCG consistent image is too large to be consumed by the destination in one piece.
MDM-gebeurtenislogboeken kunnen het volgende melden:
2024-06-11 15:55:56.592000:0001566:RPL_PD_CAP_UTILIZATION_MINOR WARNING Protection Domain ID <pd_id> Replication journal capacity is at MINOR utilization level
...
2024-06-11 16:20:12.848000:0001567:RPL_PD_CAP_UTILIZATION_MAJOR ERROR Protection Domain ID <pd_id> Replication journal capacity is at MAJOR utilization level
...
2024-06-11 17:19:57.272000:0001584:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at VERY_HIGH utilization level
...
2024-06-11 17:52:26.352000:0001585:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at CRITICAL utilization level
...
2024-06-11 16:25:14.381000:0001576:RPL_CG_MOVED_TO_SLIM_MODE INFO Replication Consistency Group ID <rcg_id> entered slim mode
...
2024-06-11 18:27:29.738000:0001586:SDR_CRITICAL_CAP_CHANGE ERROR SDR ID <sdr_id>) handling user data changed discarded old user data and stopped to accumulate new user data due critical capacity
Impact
Clients hebben geen toegang tot volumes die worden gerepliceerd.
Cause
Een zeldzaam softwaredefect kan optreden wanneer de MDM- en de SDR-component het niet eens zijn over de interne tellers met betrekking tot de journaalcapaciteit.
Deze discrepantie kan ertoe leiden dat de MDM er niet in slaagt extra journaalcapaciteit ongedaan te maken (vrij te geven) wanneer de capaciteit van de SDR vol is, wat mogelijk kan leiden tot I/O-fouten op clientservers die gebruikmaken van apparaten die worden ondersteund door PowerFlex.
Resolution
Een rollende herstart van alle SDR-componenten is vereist en het MDM-eigendom op het bronsysteem moet worden overgeschakeld om het probleem op te lossen.
Start SDR-onderdelen opnieuw op de doelsite
1. Identificeer alle SDR's en controleer of ze in orde zijn voordat u doorgaat met stap 2:
scli --query_all_sdr
2. Ga naar de onderhoudsmodus op de SDR:
scli --enter_sdr_maintenance_mode --sdr_name <name>
3. Bevestig dat de SDR in de onderhoudsmodus staat door de opdracht in stap 1 uit te voeren.
4. Start de SDR-component opnieuw op
pkill sdr
5. Herhaal stap 1-4 voor alle SDR's op de bronsite .
6. Haal SDR's uit de onderhoudsmodus:
scli --exit_sdr_maintenance_mode --sdr_name <name>
7. Verander het MDM-eigendom zodra alle SDR's opnieuw zijn gestart en zich in een gezonde toestand bevinden:
#3.x
scli --switch_mdm_ownership --new_master_mdm_name <name>
#4.x
scli --switch_mdm_ownership --new_primary_mdm_name <name>
8. Bevestig dat de I/O-fouten op de clientservers niet meer worden gemeld. Als de client een alleen-lezen bestandssysteem heeft ingevoerd, moet de clientserver mogelijk opnieuw worden opgestart.
Versies waarop dit van toepassing is
PowerFlex 3.x
PFMP 4.x
Opgelost in versie
PowerFlex 4.5.3
PowerFlex 4.5.4 - upgrade naar 4.5.4 HF1
PowerFlex 4.5.5 - geen oplossing beschikbaar
PowerFlex 4.5.6 en hoger
Additional Information
Versies waarop dit van toepassing is
PowerFlex 3.x
PowerFlex 4.x
Opgelost in versie
PowerFlex 4.5.3
PowerFlex 4.5.4 - upgrade naar 4.5.4 HF1
PowerFlex 4.5.5 - geen oplossing beschikbaar.
PowerFlex 4.5.6 en hoger