PowerFlex: Errori di I/O del client durante l'utilizzo della replica
Summary: I server client riscontrano errori di I/O sui dispositivi supportati da PowerFlex. Il back-end complessivo (MDM e SDS) sembra essere integro. È in corso l'utilizzo della replica PowerFlex e sono presenti alcuni errori RPO rispetto a uno o più RCG. ...
Symptoms
- Nessuna capacità danneggiata o guasta
- Nessun SDS è stato disaccoppiato e nessun dispositivo SDS ha segnalato errori
- Nessun MDM disconnesso
- La funzione di replica è in uso
Uno o più avvisi nell'interfaccia utente segnalano i seguenti errori:
Minor - Remote Consistency Group RPO Exceeded
Major - The RCG consistent image is too large to be consumed by the destination in one piece.
I registri eventi MDM possono segnalare quanto segue:
2024-06-11 15:55:56.592000:0001566:RPL_PD_CAP_UTILIZATION_MINOR WARNING Protection Domain ID <pd_id> Replication journal capacity is at MINOR utilization level
...
2024-06-11 16:20:12.848000:0001567:RPL_PD_CAP_UTILIZATION_MAJOR ERROR Protection Domain ID <pd_id> Replication journal capacity is at MAJOR utilization level
...
2024-06-11 17:19:57.272000:0001584:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at VERY_HIGH utilization level
...
2024-06-11 17:52:26.352000:0001585:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at CRITICAL utilization level
...
2024-06-11 16:25:14.381000:0001576:RPL_CG_MOVED_TO_SLIM_MODE INFO Replication Consistency Group ID <rcg_id> entered slim mode
...
2024-06-11 18:27:29.738000:0001586:SDR_CRITICAL_CAP_CHANGE ERROR SDR ID <sdr_id>) handling user data changed discarded old user data and stopped to accumulate new user data due critical capacity
Impatto
I client non sono in grado di accedere ai volumi replicati.
Cause
Un raro difetto del software può verificarsi quando MDM e il componente SDR non sono d'accordo sui contatori interni correlati alla capacità del journal.
Questa discrepanza può far sì che l MDM non riesca a annullare l'allocazione(rilascio) della capacità di journal aggiuntiva quando la capacità dell SDR è piena, causando potenzialmente errori di I/O sui server client che utilizzano dispositivi supportati da PowerFlex.
Resolution
È necessario un riavvio continuo di tutti i componenti SDR e la proprietà MDM sul sistema di origine deve essere commutata per risolvere il problema.
Riavviare i componenti SDR nel sito di destinazione
1. Identificare tutti gli SDR e verificare che siano in uno stato integro prima di continuare con il passaggio 2:
scli --query_all_sdr
2. Accedere alla modalità di manutenzione sull SDR:
scli --enter_sdr_maintenance_mode --sdr_name <name>
3. Verificare che l SDR sia in modalità di manutenzione eseguendo il comando nel passaggio 1.
4. Riavviare il componente SDR
pkill sdr
5. Ripetere i passaggi da 1 a 4 per tutti gli SDR nel sito di origine .
6. Uscita degli SDR dalla modalità di manutenzione:
scli --exit_sdr_maintenance_mode --sdr_name <name>
7. Cambiare la proprietà dell MDM, una volta che tutti gli SDR sono stati riavviati e si trovano in uno stato integro:
#3.x
scli --switch_mdm_ownership --new_master_mdm_name <name>
#4.x
scli --switch_mdm_ownership --new_primary_mdm_name <name>
8. Verificare che gli errori di I/O sui server client non siano più segnalati. Se il client ha inserito un file system read-only, il server client potrebbe richiedere un riavvio.
Versioni interessate
PowerFlex 3.x
PFMP 4.x
Risolto nella versione
PowerFlex 4.5.3
PowerFlex 4.5.4 - upgrade alla versione 4.5.4 HF1
PowerFlex 4.5.5 - nessuna correzione disponibile
PowerFlex 4.5.6 e versioni successive
Additional Information
Versioni interessate
PowerFlex 3.x
PowerFlex 4.x
Risolto nella versione
PowerFlex 4.5.3
PowerFlex 4.5.4 - upgrade alla versione 4.5.4 HF1
PowerFlex 4.5.5 - nessuna correzione disponibile.
PowerFlex 4.5.6 e versioni successive