Dell Unity: Fila de snapshots grande ou incremental que causa problemas de desempenho
Summary: Dell Unity: Fila de snapshots grande ou incremental que causa problemas de desempenho e CPU com controladora de armazenamento alta
Symptoms
- O valor do objetivo de ponto de recuperação (RPO) foi reduzido para algo considerado mais agressivo (ou seja, 10 minutos). "
- "Recovery Point Objective (RPO) é um termo aceito pelo setor que indica o volume aceitável de dados, medido em unidades de tempo, que pode ser perdido em uma falha. Ao configurar uma sessão de replicação assíncrona, você pode configurar a sincronização automática com base no RPO. Você pode especificar um RPO de, no mínimo, 5 minutos até, no máximo, 1.440 minutos (24 horas). O RPO padrão é definido em um intervalo de 60 minutos (1 hora). Para replicação síncrona, o RPO é fixado em 0."
- Há muitos snapshots em um estado de "destruição" para uma LUN.
- O número de snapshots em um estado de "destruição" está aumentando ao longo do tempo.
- CPU de alta controladora sem uma carga de trabalho de IOPS/largura de banda correlacionada.
- LUNs e unidades de back-end têm enfileiramento e tempos de resposta elevados.
Você pode procurar no Unisphere na seção "Bloco". Adicione a coluna "Snapshots" para obter uma leitura por LUN. Se você vir muitos snapshots listados para uma LUN ou várias LUNs, isso indicará algumas coisas
Vá para a LUN individual e selecione a guia "Snapshots" para verificar o "State" (será "Destruindo") e "Taken by" (será "Replicação") para confirmar:
Cause
Pode haver muitas causas para a criação de filas. Uma das principais causas é atribuída a um RPO considerado "muito agressivo".
Replicação assíncrona nativa de bloco:
A replicação assíncrona nativa de bloco usa um delta entre dois snapshots para transferir dados. Durante a vida útil das sessões de replicação, haverá várias "atualizações" de snapshot que ocorrerão ao transferir alterações.
Quando um snapshot é atualizado, ele realmente é excluído e recriado em segundo plano.
As preocupações mais notáveis são o consumo de CPU da SP e a E/S de back-end adicional associada à funcionalidade de snapshot.
O array do Unity não pode excluir totalmente os snapshots em um período relativamente razoável, fazendo com que a taxa de snapshots que entram em um estado "a ser excluído" exceda em muito a taxa de snapshots totalmente excluídos em um determinado período de tempo. À medida que você diminui o valor do RPO, isso aumenta a quantidade de criações ou exclusões de snapshots em um determinado período de tempo.
Resolution
Para a LUN que tiver a maioria dos snapshots em estado de destruição, defina o RPO como pelo menos o padrão (60 minutos) até que a exclusão de snapshots possa recuperar o atraso. Talvez você queira deixar o valor nesse novo RPO, dependendo de quantos snapshots estavam sendo enfileirados, e julgar de acordo.
"A Dell Technologies recomenda incluir um nível Flash em um pool híbrido em que os snapshots estejam ativos.
Os snapshots aumentam a carga geral da CPU no sistema e aumentam o IOPS geral da unidade no pool de armazenamento. Os snapshots também usam a capacidade do pool para armazenar os dados mais antigos que estão sendo rastreados pelo snapshot, o que aumenta a quantidade de capacidade usada no pool, até que o snapshot seja excluído. Considere a sobrecarga de snapshots ao planejar os requisitos de desempenho e capacidade para o pool de armazenamento.
Antes de ativar snapshots em um objeto de armazenamento, é recomendável monitorar o sistema e garantir que os recursos existentes possam atender aos requisitos adicionais de carga de trabalho (consulte a seção Diretrizes de capacidade de hardware, Tabela 2). Habilite snapshots em alguns objetos de armazenamento por vez e, em seguida, monitore o sistema para certificar-se de que ele ainda esteja dentro dos intervalos operacionais recomendados, antes de habilitar mais snapshots.
É recomendável escalonar as operações de snapshot (criação, exclusão etc.). Isso pode ser feito usando agendamentos de snapshot diferentes para diferentes conjuntos de objetos de armazenamento. Também é recomendável agendar operações de snapshot após a conclusão de qualquer realocação do FAST VP.
Os snapshots são excluídos pelo sistema de modo assíncrono; quando um snapshot está em processo de exclusão, ele é marcado como "Destroying". Se o sistema estiver acumulando snapshots "destruindo" ao longo do tempo, isso pode ser uma indicação de que os agendamentos de snapshot existentes são muito agressivos; A captura de snapshots com menos frequência pode oferecer níveis de desempenho mais previsíveis.
O Dell Unity vai acelerar as operações de exclusão de snapshots para reduzir o impacto na E/S do host. As exclusões de snapshots ocorrerão mais rapidamente durante períodos de baixa utilização do sistema." Dell Unity: Guia de práticas recomendadas
Additional Information