PowerFlex: Client-I/O-Fehler bei Verwendung der Replikation
Summary: Auf Clientservern treten I/O-Fehler bei PowerFlex-gestützten Geräten auf. Das gesamte Back-end (MDMs und SDSs) scheint fehlerfrei zu sein. Die PowerFlex-Replikation wird verwendet und es sind einige RPO-Fehler für eine oder mehrere RCGs aufgetreten. ...
Symptoms
- Keine heruntergestufte oder ausgefallene Kapazität
- Es wurden keine SDSes entkoppelt und keine SDS-Geräte meldeten Fehler.
- Keine getrennten MDMs
- Die Replikationsfunktion wird genutzt
Eine oder mehrere Warnmeldungen in der Benutzeroberfläche melden die folgenden Fehler:
Minor - Remote Consistency Group RPO Exceeded
Major - The RCG consistent image is too large to be consumed by the destination in one piece.
MDM-Ereignisprotokolle melden möglicherweise Folgendes:
2024-06-11 15:55:56.592000:0001566:RPL_PD_CAP_UTILIZATION_MINOR WARNING Protection Domain ID <pd_id> Replication journal capacity is at MINOR utilization level
...
2024-06-11 16:20:12.848000:0001567:RPL_PD_CAP_UTILIZATION_MAJOR ERROR Protection Domain ID <pd_id> Replication journal capacity is at MAJOR utilization level
...
2024-06-11 17:19:57.272000:0001584:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at VERY_HIGH utilization level
...
2024-06-11 17:52:26.352000:0001585:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at CRITICAL utilization level
...
2024-06-11 16:25:14.381000:0001576:RPL_CG_MOVED_TO_SLIM_MODE INFO Replication Consistency Group ID <rcg_id> entered slim mode
...
2024-06-11 18:27:29.738000:0001586:SDR_CRITICAL_CAP_CHANGE ERROR SDR ID <sdr_id>) handling user data changed discarded old user data and stopped to accumulate new user data due critical capacity
Auswirkungen
Clients können nicht auf Volumes zugreifen, die repliziert werden.
Cause
Ein seltener Softwarefehler kann auftreten, wenn sich der MDM und die SDR-Komponente bei den internen Zählern in Bezug auf die Journalkapazität nicht einig sind.
Diese Diskrepanz kann dazu führen, dass der MDM die Zuweisung zusätzlicher Journalkapazität nicht aufheben (freigeben) kann, wenn die SDR-Kapazität voll ist. Dies kann zu I/O-Fehlern auf Clientservern führen, die von PowerFlex gesicherte Geräte verwenden.
Resolution
Ein sequenzieller Neustart aller SDR-Komponenten ist erforderlich und die MDM-Eigentumsrechte auf dem Quellsystem müssen getauscht werden, um das Problem zu beheben.
SDR-Komponenten am Zielstandort neu starten
1. Identifizieren Sie alle SDRs und überprüfen Sie, ob sie sich in einem fehlerfreien Zustand befinden, bevor Sie mit Schritt 2 fortfahren:
scli --query_all_sdr
2. Wechseln Sie in den Wartungsmodus auf dem SDR:
scli --enter_sdr_maintenance_mode --sdr_name <name>
3. Überprüfen Sie, ob sich der SDR im Wartungsmodus befindet, indem Sie den Befehl in Schritt 1 ausführen.
4. Starten Sie die SDR-Komponente neu
pkill sdr
5. Wiederholen Sie die Schritte 1 bis 4 für alle SDRs am Quellstandort .
6. Beenden Sie den Wartungsmodus für SDRs:
scli --exit_sdr_maintenance_mode --sdr_name <name>
7. Wechseln Sie die MDM-Eigentumsrechte, sobald alle SDRs neu gestartet wurden und sich in einem fehlerfreien Zustand befinden:
#3.x
scli --switch_mdm_ownership --new_master_mdm_name <name>
#4.x
scli --switch_mdm_ownership --new_primary_mdm_name <name>
8. Überprüfen Sie, ob die I/O-Fehler auf den Client-Servern nicht mehr gemeldet werden. Wenn der Client in ein schreibgeschütztes Dateisystem eingetreten ist, erfordert der Client-Server möglicherweise einen Neustart.
Betroffene Versionen
PowerFlex 3.x
PFMP 4.x
Behoben in Version
PowerFlex 4.5.3
PowerFlex 4.5.4 – Upgrade auf 4.5.4 HF1
PowerFlex 4.5.5 – keine Korrektur verfügbar
PowerFlex 4.5.6 und höher
Additional Information
Betroffene Versionen
PowerFlex 3.x
PowerFlex 4.x
Behoben in Version
PowerFlex 4.5.3
PowerFlex 4.5.4 – Upgrade auf 4.5.4 HF1
PowerFlex 4.5.5 – keine Korrektur verfügbar.
PowerFlex 4.5.6 und höher