XtremIO: O DPG tem duas falhas de SSD simultâneas que causam impacto sobre o desempenho
Summary: Este artigo apresenta informações sobre como o XtremIO gerencia falhas simultâneas de duas unidades de estado sólido (SSD) em um grupo de proteção de dados (DPG) e explica como isso pode afetar o desempenho. Ele também oferece algumas recomendações sobre como ajudar a reduzir o impacto no desempenho durante a recriação do DPG. ...
Symptoms
Um impacto no desempenho é observado quando uma segunda SSD falha antes que o DPG conclua uma recriação de uma falha de SSD anterior.
Cause
Em um XtremIO, se um SSD falhar, o DPG será recriado nos SSDs íntegros restantes para manter a proteção de dados. O processo de recriação do DPG é diferente para falhas de SSD única do que para falhas de SSD simultâneas.
Quando apenas um SSD falha:
- O sistema entra em um único estado degradado e tem apenas um bloco de paridade para recuperar os dados.
- A recriação do DPG começa a reconstruir os dados da SSD com falha nas SSDs íntegras restantes para retornar a um status de bloco de paridade dupla para proteção de dados.
- Quando o DPG está recriando a partir de uma única falha de SSD, o processo de recriação é feito em segundo plano e a E/S recebida ainda é priorizada.
Quando duas falhas simultâneas de SSD no mesmo DPG:
- O sistema entra em um estado degradado duplo, o que significa que nenhuma proteção de paridade permanece.
- O risco de perda de dados aumenta drasticamente, de modo que o sistema prioriza a recuperação. Isso usa mais CPUs para reconstruir o DPG mais rapidamente.
- O XtremIO prioriza as operações de recriação sobre a E/S do usuário, consumindo os recursos de CPU e memória para evitar a perda de dados.
- Esse tipo de recriação requer atualizações massivas de metadados. Ele deve calcular a paridade para cada fração afetada e realiza verificações de integridade dos dados para ajudar a garantir que não haja corrupção.
Alertas que podem ser exibidos quando o DPG está sendo recriado:
| Nome do alerta | Código do sintoma | Descrição |
|---|---|---|
rebuild_0_to_20_done |
XTR0800211 |
A reconstrução do DPG foi iniciada. |
rebuild_20_to_40_done |
XTR0800221 |
A recriação do DPG está em andamento. Mais de 20% da reconstrução foi concluída. |
rebuild_40_to_60_done |
XTR0800231 |
A recriação do DPG está em andamento. Mais de 40% da reconstrução foi concluída. |
rebuild_60_to_80_done |
XTR0800241 |
A recriação do DPG está em andamento. Mais de 60% da reconstrução foi concluída. |
rebuild_99_done |
XTR0800251 |
A recriação do DPG está em andamento. Mais de 80% da reconstrução foi concluída. |
rg_state_integrate |
XTR0800904 |
O DPG está realizando a integração de SSD. |
ssd_assigning_to_rg |
XTR0900106 |
A SSD está sendo atribuída ao DPG. |
O comando da CLI show-data-protection-groups também pode ser executado para verificar o progresso de uma recriação do DPG:
xmcli (tech)> show-data-protection-groups Name Index Cluster-Name Index State Num-Of-SSDs Useful-SSD-Space User-Space User-Space-In-Use Rebuild-Progress Preparation-Progress Proactive-Metadata-Loading Rebuild-Prevention Brick-Name Index X1-DPG-1 1 LAB-XIO001 1 normal 28 97.809T 85.690T 65.344T 0 0 False none X1 1 X2-DPG-1 3 LAB-XIO001 1 double_degraded 26 97.809T 83.690T 65.359T 0 54 False assigning_disk X2 2
Resolution
Quando dois SSDs dentro do mesmo DPG falham simultaneamente, o desempenho pode ser afetado devido aos recursos consumidos para recriar a paridade. Não há como interromper a recriação do DPG nem há um comando para acelerá-la. No entanto, se o cliente estiver enfrentando uma degradação significativa do desempenho devido ao modo de proteção degradado duplo (rg_double_degrade), as seguintes ações podem ajudar a reduzir o impacto, se possível:
- Pause quaisquer backups, replicação ou trabalhos intensos de E/S até que a recriação do DPG seja concluída.
- Se possível, faça failover da maioria dos hosts ativos para outro armazenamento até que a recriação do DPG seja concluída.
- Se estiver usando VMs, desligue ou migre VMs ou coloque os hosts no modo de manutenção.
- Se possível, use QoS ou controle de fluxo no host para reduzir a carga no array durante a recriação.
Quando a recriação do DPG for concluída, qualquer impacto relacionado ao desempenho deverá resolver.
Additional Information
Artigos relacionados:
(Talvez seja necessário fazer login como um usuário registrado do Suporte Dell para visualizar esses artigos.)