Dell Unity: Como a replicação assíncrona e a recuperação de espaço afetam o desempenho do array
Resumo: Este artigo explora o impacto da replicação assíncrona no desempenho do array durante a recuperação de espaço de grandes máquinas virtuais (VMs).
Este artigo aplica-se a
Este artigo não se aplica a
Este artigo não está vinculado a nenhum produto específico.
Nem todas as versões do produto estão identificadas neste artigo.
Sintomas
Uma latência maciça em TODOS os recursos de armazenamento (todo o array) pode ser observada ao reproduzir as seguintes etapas:
1. As máquinas virtuais (VM) no host não têm uso e estão off-line - sem E/S - totalmente ociosas - (devem ser excluídas).
2. A VM está sendo excluída do host (recuperação de espaço).
3. Tudo está funcionando bem. Todas as LUNs e hosts no array têm tempos de resposta esperados.
4. [Gatilho] A replicação é iniciada manualmente ou pelo objetivo de ponto de recuperação (RPO). Aumento de latência em TODAS as LUNs e hosts - Os dados se tornaram indisponíveis.
2. A VM está sendo excluída do host (recuperação de espaço).
3. Tudo está funcionando bem. Todas as LUNs e hosts no array têm tempos de resposta esperados.
4. [Gatilho] A replicação é iniciada manualmente ou pelo objetivo de ponto de recuperação (RPO). Aumento de latência em TODAS as LUNs e hosts - Os dados se tornaram indisponíveis.
Causa
Replicação assíncrona:
- Quando a sessão de replicação é pausada, a taxa de recuperação não para nem diminui.
- Enquanto a sessão de replicação está pausada, o trabalho se acumula no array.
- Depois que a sessão de replicação é retomada (manual ou automaticamente), isso empurra o trabalho acumulado, de quando foi pausado.
- Dependendo da quantidade de trabalho acumulado, isso pode causar latência, neste caso, grave.
- Esta é a função como design.
Recuperação de espaço:
- De acordo com as práticas recomendadas, 64 TB não são recomendados para LUNs de block do ESXi, especialmente combinados com replicação assíncrona.
- Quando o array consulta 40 TB de espaço vazio para encontrar blocos com mapa de comprimento variável para leitura, isso é muito trabalho sem adição de valor.
- Enquanto isso acontece, a carga aumenta e afeta a LUN e o array (todos os recursos).
- Quando a sessão de replicação é pausada, a taxa de recuperação não para nem diminui.
- Enquanto a sessão de replicação está pausada, o trabalho se acumula no array.
- Depois que a sessão de replicação é retomada (manual ou automaticamente), isso empurra o trabalho acumulado, de quando foi pausado.
- Dependendo da quantidade de trabalho acumulado, isso pode causar latência, neste caso, grave.
- Esta é a função como design.
Recuperação de espaço:
- De acordo com as práticas recomendadas, 64 TB não são recomendados para LUNs de block do ESXi, especialmente combinados com replicação assíncrona.
- Quando o array consulta 40 TB de espaço vazio para encontrar blocos com mapa de comprimento variável para leitura, isso é muito trabalho sem adição de valor.
- Enquanto isso acontece, a carga aumenta e afeta a LUN e o array (todos os recursos).
Resolução
Para evitar latência maciça quando essas condições são atendidas, recomenda-se que:
1. Interrompa e exclua a sessão de replicação.
2. Limpe o espaço dinâmico e não confirmado não utilizado (com a migração de dados) para uma LUN menor.
3. Em vez disso, crie uma nova sessão de replicação a partir da LUN menor.
2. Limpe o espaço dinâmico e não confirmado não utilizado (com a migração de dados) para uma LUN menor.
3. Em vez disso, crie uma nova sessão de replicação a partir da LUN menor.
Como alternativa, se o datastore de migração estiver obsoleto e ele deve ser removido, nossas recomendações são:
1. Excluir a sessão de replicação.
2. Exclua a LUN afetada.
3. Crie uma LUN menor no futuro, seguindo as práticas recomendadas.
2. Exclua a LUN afetada.
3. Crie uma LUN menor no futuro, seguindo as práticas recomendadas.
Outras considerações:
- A configuração incorreta de LUNs, hosts/VMs do ESXi e replicação pode ter consequências obscuras, mesmo com as práticas recomendadas em vigor.
- Para este caso em particular, era isso que estava causando latência nessa escala massiva.
- De acordo com o Desenvolvimento, este é um comportamento esperado, e a Unidade está funcionando como projetado.
Documentação de referência:
- Dell EMC Unity: Práticas
recomendadas do VMware vSphere - vSphere Storage Appliance (Comunidade - Link externo)
recomendadas do VMware vSphere - vSphere Storage Appliance (Comunidade - Link externo)
Mais informações
Para confirmar se esse é o mesmo comportamento, verifique se a replicação está ou estava sendo acionada, analise os seguintes arquivos ativos no array:
Live on Array:
- /EMC/backend/log/shared/EMCSystemLogFile.log
- /EMC/C4Core/log/c4_safe_ktrace.log
Acionado manualmente pelo usuário administrador:
14:10:21 service@spb:~/user# tailf 00_emc_backend_log_shared/EMCSystemLogFile.log | grep -i "refresh the replication"
B 05/04/21 14:10:48.405 ReplicPlugin 610021 [INFO] Audit: User Admin started to refresh the replication session rep_sess_res_xx_res_xx_CKM00xxxxxxxxx_CKM00xxxxxxxxx.
Automaticamente, por RPO (Recovery Point Objective, objetivo de ponto de recuperação):
B 05/04/21 14:45:33.687 std ddf1a70d c4_safe_ktrace SASPMC 0 (BE99) API INFO set_dynamic_int_coalescing: nr_busy_ports=1 ict=100 icc=16
B 05/04/21 14:45:33.708 sade 9f3f70f c4_safe_ktrace DIC: 6:[SVDM_B] Handle request /dic_s/DicXmlAsyncMsgService/async=4=302002=503370607
B 05/04/21 14:45:33.708 sade 9f3f70f c4_safe_ktrace DIC: 6:[SVDM_B] Send back /dic_s/DicXmlAsyncMsgService/async=4=302002=503370607 response (200 OK)
B 05/04/21 14:45:33.708 sade 9f3f70f c4_safe_ktrace DIC: 6:[SVDM_B] Response for /dic_s/DicXmlAsyncMsgService/async=4=302002=503370607 sent
B 05/04/21 14:45:33.708 sade e5243708 c4_safe_ktrace XML: 6:[core]
B 05/04/21 14:52:07.605 mlu 16d001c [INFO] System: Snapshot 81604378643_CKM00201901039_0000.ckpt000_3275157210146496.2_684 has been created for LUN 23.
B 05/04/21 14:52:07.710 mlu 12d0003 [INFO] System: Operation Create Replica started by 900002a4a on 9000000fd.
B 05/04/21 14:52:07.724 mlu 16d0027 [INFO] System: The new name for snapshot being destroyed is Destroying_20210106115207.694+00-000.
B 05/04/21 14:52:07.738 mlu 16d0027 [INFO] System: The new name for snapshot being destroyed is Destroying_20210106115207.694+00-001.
Nota: Sempre que o RPO é atingido ou uma atualização manual é iniciada, ocorre uma atualização de snapshot. Uma única atualização de snapshot pode ser considerada uma destruição ou recriação.
Produtos afetados
Dell EMC Unity, Dell EMC Unity Family |Dell EMC Unity All Flash, Dell EMC Unity HybridPropriedades do artigo
Número do artigo: 000184863
Tipo de artigo: Solution
Último modificado: 09 mai. 2026
Versão: 7
Encontre as respostas de outros usuários da Dell para suas perguntas.
Serviços de suporte
Verifique se o dispositivo está coberto pelos serviços de suporte.