Dell Unity: Como a replicação assíncrona e a recuperação de espaço afetam o desempenho do array

Resumo: Este artigo explora o impacto da replicação assíncrona no desempenho do array durante a recuperação de espaço de grandes máquinas virtuais (VMs).

Este artigo aplica-se a Este artigo não se aplica a Este artigo não está vinculado a nenhum produto específico. Nem todas as versões do produto estão identificadas neste artigo.

Sintomas

Uma latência maciça em TODOS os recursos de armazenamento (todo o array) pode ser observada ao reproduzir as seguintes etapas:
 
1. As máquinas virtuais (VM) no host não têm uso e estão off-line - sem E/S - totalmente ociosas - (devem ser excluídas).
2. A VM está sendo excluída do host (recuperação de espaço).
3. Tudo está funcionando bem. Todas as LUNs e hosts no array têm tempos de resposta esperados.
4. [Gatilho] A replicação é iniciada manualmente ou pelo objetivo de ponto de recuperação (RPO). Aumento de latência em TODAS as LUNs e hosts - Os dados se tornaram indisponíveis.

Causa

Replicação assíncrona:
- Quando a sessão de replicação é pausada, a taxa de recuperação não para nem diminui.
- Enquanto a sessão de replicação está pausada, o trabalho se acumula no array.
- Depois que a sessão de replicação é retomada (manual ou automaticamente), isso empurra o trabalho acumulado, de quando foi pausado.
- Dependendo da quantidade de trabalho acumulado, isso pode causar latência, neste caso, grave.
- Esta é a função como design.

Recuperação de espaço:
- De acordo com as práticas recomendadas, 64 TB não são recomendados para LUNs de block do ESXi, especialmente combinados com replicação assíncrona. 
- Quando o array consulta 40 TB de espaço vazio para encontrar blocos com mapa de comprimento variável para leitura, isso é muito trabalho sem adição de valor.
- Enquanto isso acontece, a carga aumenta e afeta a LUN e o array (todos os recursos).

Resolução

Para evitar latência maciça quando essas condições são atendidas, recomenda-se que:

1. Interrompa e exclua a sessão de replicação.
2. Limpe o espaço dinâmico e não confirmado não utilizado (com a migração de dados) para uma LUN menor. 
3. Em vez disso, crie uma nova sessão de replicação a partir da LUN menor.
 

Como alternativa, se o datastore de migração estiver obsoleto e ele deve ser removido, nossas recomendações são:

1. Excluir a sessão de replicação.
2. Exclua a LUN afetada.
3. Crie uma LUN menor no futuro, seguindo as práticas recomendadas. 


Outras considerações: 
- A configuração incorreta de LUNs, hosts/VMs do ESXi e replicação pode ter consequências obscuras, mesmo com as práticas recomendadas em vigor.
- Para este caso em particular, era isso que estava causando latência nessa escala massiva.
- De acordo com o Desenvolvimento, este é um comportamento esperado, e a Unidade está funcionando como projetado.
 

Documentação de referência:

Mais informações

Para confirmar se esse é o mesmo comportamento, verifique se a replicação está ou estava sendo acionada, analise os seguintes arquivos ativos no array:

Live on Array:
- /EMC/backend/log/shared/EMCSystemLogFile.log
/EMC/C4Core/log/c4_safe_ktrace.log


 

Acionado manualmente pelo usuário administrador:
14:10:21 service@spb:~/user# tailf 00_emc_backend_log_shared/EMCSystemLogFile.log | grep -i "refresh the replication"
B       05/04/21 14:10:48.405 ReplicPlugin       610021 [INFO] Audit: User Admin started to refresh the replication session rep_sess_res_xx_res_xx_CKM00xxxxxxxxx_CKM00xxxxxxxxx.


Automaticamente, por RPO (Recovery Point Objective, objetivo de ponto de recuperação):
B       05/04/21 14:45:33.687 std              ddf1a70d c4_safe_ktrace   SASPMC 0 (BE99) API INFO set_dynamic_int_coalescing: nr_busy_ports=1 ict=100 icc=16
B       05/04/21 14:45:33.708 sade              9f3f70f c4_safe_ktrace   DIC: 6:[SVDM_B] Handle request /dic_s/DicXmlAsyncMsgService/async=4=302002=503370607
B       05/04/21 14:45:33.708 sade              9f3f70f c4_safe_ktrace   DIC: 6:[SVDM_B] Send back /dic_s/DicXmlAsyncMsgService/async=4=302002=503370607 response (200 OK)
B       05/04/21 14:45:33.708 sade              9f3f70f c4_safe_ktrace   DIC: 6:[SVDM_B] Response for /dic_s/DicXmlAsyncMsgService/async=4=302002=503370607 sent
B       05/04/21 14:45:33.708 sade             e5243708 c4_safe_ktrace   XML: 6:[core] 
B       05/04/21 14:52:07.605 mlu               16d001c [INFO] System: Snapshot 81604378643_CKM00201901039_0000.ckpt000_3275157210146496.2_684 has been created for LUN 23.
B       05/04/21 14:52:07.710 mlu               12d0003 [INFO] System: Operation Create Replica started by 900002a4a on 9000000fd.
B       05/04/21 14:52:07.724 mlu               16d0027 [INFO] System: The new name for snapshot being destroyed is Destroying_20210106115207.694+00-000.
B       05/04/21 14:52:07.738 mlu               16d0027 [INFO] System: The new name for snapshot being destroyed is Destroying_20210106115207.694+00-001.
 

Nota: Sempre que o RPO é atingido ou uma atualização manual é iniciada, ocorre uma atualização de snapshot. Uma única atualização de snapshot pode ser considerada uma destruição ou recriação.

Produtos afetados

Dell EMC Unity, Dell EMC Unity Family |Dell EMC Unity All Flash, Dell EMC Unity Hybrid
Propriedades do artigo
Número do artigo: 000184863
Tipo de artigo: Solution
Último modificado: 09 mai. 2026
Versão:  7
Encontre as respostas de outros usuários da Dell para suas perguntas.
Serviços de suporte
Verifique se o dispositivo está coberto pelos serviços de suporte.