XtremIO: O DPG tem duas falhas de SSD simultâneas que causam impacto sobre o desempenho

Summary: Este artigo apresenta informações sobre como o XtremIO gerencia falhas simultâneas de duas unidades de estado sólido (SSD) em um grupo de proteção de dados (DPG) e explica como isso pode afetar o desempenho. Ele também oferece algumas recomendações sobre como ajudar a reduzir o impacto no desempenho durante a recriação do DPG. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Um impacto no desempenho é observado quando uma segunda SSD falha antes que o DPG conclua uma recriação de uma falha de SSD anterior.

Cause

Em um XtremIO, se um SSD falhar, o DPG será recriado nos SSDs íntegros restantes para manter a proteção de dados. O processo de recriação do DPG é diferente para falhas de SSD única do que para falhas de SSD simultâneas.

Quando apenas um SSD falha:

  • O sistema entra em um único estado degradado e tem apenas um bloco de paridade para recuperar os dados.
  • A recriação do DPG começa a reconstruir os dados da SSD com falha nas SSDs íntegras restantes para retornar a um status de bloco de paridade dupla para proteção de dados.
  • Quando o DPG está recriando a partir de uma única falha de SSD, o processo de recriação é feito em segundo plano e a E/S recebida ainda é priorizada.

Quando duas falhas simultâneas de SSD no mesmo DPG:

  • O sistema entra em um estado degradado duplo, o que significa que nenhuma proteção de paridade permanece.
  • O risco de perda de dados aumenta drasticamente, de modo que o sistema prioriza a recuperação. Isso usa mais CPUs para reconstruir o DPG mais rapidamente.
  • O XtremIO prioriza as operações de recriação sobre a E/S do usuário, consumindo os recursos de CPU e memória para evitar a perda de dados.
  • Esse tipo de recriação requer atualizações massivas de metadados. Ele deve calcular a paridade para cada fração afetada e realiza verificações de integridade dos dados para ajudar a garantir que não haja corrupção.

Alertas que podem ser exibidos quando o DPG está sendo recriado:

Nome do alerta Código do sintoma Descrição
rebuild_0_to_20_done XTR0800211 A reconstrução do DPG foi iniciada.
rebuild_20_to_40_done XTR0800221 A recriação do DPG está em andamento. Mais de 20% da reconstrução foi concluída.
rebuild_40_to_60_done XTR0800231 A recriação do DPG está em andamento. Mais de 40% da reconstrução foi concluída.
rebuild_60_to_80_done XTR0800241 A recriação do DPG está em andamento. Mais de 60% da reconstrução foi concluída.
rebuild_99_done XTR0800251 A recriação do DPG está em andamento. Mais de 80% da reconstrução foi concluída.
rg_state_integrate XTR0800904 O DPG está realizando a integração de SSD.
ssd_assigning_to_rg XTR0900106 A SSD está sendo atribuída ao DPG.


O comando da CLI show-data-protection-groups também pode ser executado para verificar o progresso de uma recriação do DPG:

xmcli (tech)> show-data-protection-groups
Name     Index Cluster-Name   Index State           Num-Of-SSDs Useful-SSD-Space User-Space User-Space-In-Use Rebuild-Progress Preparation-Progress Proactive-Metadata-Loading Rebuild-Prevention Brick-Name Index
X1-DPG-1 1     LAB-XIO001 1     normal          28          97.809T          85.690T    65.344T           0                0                    False                      none               X1         1
X2-DPG-1 3     LAB-XIO001 1     double_degraded 26          97.809T          83.690T    65.359T           0                54                   False                      assigning_disk     X2         2

Resolution

Nota: É importante priorizar as substituições de SSD quando elas falham. Ao substituir uma SSD, aguarde até que o DPG conclua a reconstrução antes de prosseguir com quaisquer substituições adicionais.
 

Quando dois SSDs dentro do mesmo DPG falham simultaneamente, o desempenho pode ser afetado devido aos recursos consumidos para recriar a paridade. Não há como interromper a recriação do DPG nem há um comando para acelerá-la. No entanto, se o cliente estiver enfrentando uma degradação significativa do desempenho devido ao modo de proteção degradado duplo (rg_double_degrade), as seguintes ações podem ajudar a reduzir o impacto, se possível:

  1. Pause quaisquer backups, replicação ou trabalhos intensos de E/S até que a recriação do DPG seja concluída.
  2. Se possível, faça failover da maioria dos hosts ativos para outro armazenamento até que a recriação do DPG seja concluída.
  3. Se estiver usando VMs, desligue ou migre VMs ou coloque os hosts no modo de manutenção.
  4. Se possível, use QoS ou controle de fluxo no host para reduzir a carga no array durante a recriação.

Quando a recriação do DPG for concluída, qualquer impacto relacionado ao desempenho deverá resolver.

Additional Information

Artigos relacionados:
(Talvez seja necessário fazer login como um usuário registrado do Suporte Dell para visualizar esses artigos.)

Affected Products

XtremIO, XtremIO X2
Article Properties
Article Number: 000355127
Article Type: Solution
Last Modified: 18 Sept 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.