PowerFlex: Erros de E/S do client quando a replicação está sendo usada
Summary: Os servidores client estão enfrentando erros de E/S em dispositivos com suporte do PowerFlex. O back-end geral (MDMs e SDSs) parece estar íntegro. A replicação do PowerFlex está sendo utilizada e há alguns erros de RPO em relação a um ou mais RCGs. ...
Symptoms
- Nenhuma capacidade degradada ou com falha
- Nenhum SDSes foi dissociado e nenhum dispositivo SDS relatou erros
- Nenhum MDM desconectado
- O recurso de replicação está sendo utilizado
Um ou mais alertas na interface do usuário relatando os seguintes erros:
Minor - Remote Consistency Group RPO Exceeded
Major - The RCG consistent image is too large to be consumed by the destination in one piece.
Os registros de eventos do MDM podem relatar o seguinte:
2024-06-11 15:55:56.592000:0001566:RPL_PD_CAP_UTILIZATION_MINOR WARNING Protection Domain ID <pd_id> Replication journal capacity is at MINOR utilization level
...
2024-06-11 16:20:12.848000:0001567:RPL_PD_CAP_UTILIZATION_MAJOR ERROR Protection Domain ID <pd_id> Replication journal capacity is at MAJOR utilization level
...
2024-06-11 17:19:57.272000:0001584:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at VERY_HIGH utilization level
...
2024-06-11 17:52:26.352000:0001585:RPL_PD_CAP_UTILIZATION_CRITICAL CRITICAL Protection Domain ID <pd_id> Replication journal capacity is at CRITICAL utilization level
...
2024-06-11 16:25:14.381000:0001576:RPL_CG_MOVED_TO_SLIM_MODE INFO Replication Consistency Group ID <rcg_id> entered slim mode
...
2024-06-11 18:27:29.738000:0001586:SDR_CRITICAL_CAP_CHANGE ERROR SDR ID <sdr_id>) handling user data changed discarded old user data and stopped to accumulate new user data due critical capacity
Impacto
Os clients não conseguem acessar volumes que estão sendo replicados.
Cause
Um defeito raro de software pode ocorrer quando o MDM e o componente SDR discordam nos contadores internos relacionados à capacidade de registro.
Essa discrepância pode fazer com que o MDM não desaloque (libere) a capacidade de registro adicional quando a capacidade do SDR está cheia, possivelmente levando a erros de E/S em servidores client que utilizam dispositivos com apoio do PowerFlex.
Resolution
Uma reinicialização contínua de todos os componentes do SDR é necessária, e a propriedade do MDM no sistema de origem precisa ser alternada para resolver o problema.
Reiniciar os componentes do SDR no local de destino
1. Identifique todos os SDRs e confirme se eles estão em um estado íntegro antes de continuar para a etapa 2:
scli --query_all_sdr
2. Entre no modo de manutenção no SDR:
scli --enter_sdr_maintenance_mode --sdr_name <name>
3. Valide se o SDR está no modo de manutenção executando o comando na etapa 1.
4. Reinicie o componente SDR
pkill sdr
5. Repita as etapas de 1 a 4 para todos os SDRs no local de origem .
6. Saia dos SDRs do modo de manutenção:
scli --exit_sdr_maintenance_mode --sdr_name <name>
7. Alterne a propriedade do MDM assim que todos os SDRs forem reiniciados e estiverem em um estado íntegro:
#3.x
scli --switch_mdm_ownership --new_master_mdm_name <name>
#4.x
scli --switch_mdm_ownership --new_primary_mdm_name <name>
8. Confirme se os erros de E/S nos servidores client não são mais relatados. Se o client tiver inserido um file system somente leitura, talvez seja necessário reinicializar o servidor.
Versões afetadas
PowerFlex 3.x
PFMP 4.x
Correção feita na versão
PowerFlex 4.5.3
PowerFlex 4.5.4 — upgrade para a versão 4.5.4 HF1
PowerFlex 4.5.5 — nenhuma correção disponível
PowerFlex 4.5.6 e posterior
Additional Information
Versões afetadas
PowerFlex 3.x
PowerFlex 4.x
Correção feita na versão
PowerFlex 4.5.3
PowerFlex 4.5.4 — upgrade para a versão 4.5.4 HF1
PowerFlex 4.5.5 — nenhuma correção disponível.
PowerFlex 4.5.6 e superior