PowerScale OneFS 9.10: Problemas raros de desempenho ao executar um trabalho SnapshotDelete
Summary: Em clusters que passaram por upgrade para o OneFS 9.10 ou 9.11, poderão ocorrer problemas de desempenho ao executar um trabalho SnapshotDelete se houver vários pools de armazenamento.
Symptoms
Clusters com dois ou mais pools de nós que receberam upgrade para o OneFS 9.10 ou posterior podem enfrentar problemas de desempenho sempre que um SnapshotDelete O trabalho está em execução. Pausar o SnapshotDelete O trabalho traz alívio imediato, mas o problema retorna quando o trabalho é retomado.
Em clusters com snapshots com datas de expiração longas, o problema pode não ser aparente até várias semanas ou meses após a conclusão do upgrade do OneFS.
Registros e Hangdumps Mostrar o mecanismo de trabalho (isi_job_d) SnapshotDelete thread de trabalho segurando uma trava LIN com um rastreamento de pilha semelhante a este exemplo:
77886 isi_job_d:
...
thread 100637: je_worker_main at 0xfffffe8b55ea95c0 in state "running":
On cpu 5 for 3 ticks
Stack: --------------------------------------------------
kernel:btree_leaf_check_prefetch+0xde
kernel:btree_leaf_get_entry+0x349
kernel:stf_is_fake_entry+0x41
kernel:stf_iterate_block+0x66
kernel:ifs_snap_get_lins_helper+0xac
kernel:_sys_ifs_snap_get_lins+0x279
kernel:amd64_syscall+0x7b0
--------------------------------------------------
Cause
O OneFS 9.10 introduz LINs (iLogical iNodes, iNodes lógicos ilógicos ) nos arquivos de rastreamento de snapshot (STF). Isso foi adicionado para dar suporte a um novo recurso, MetadataIQ. Um STF é um tipo especial de arquivo com várias características exclusivas e está envolvido no ciclo de vida completo do snapshot, inclusive na criação, armazenamento, alteração e exclusão de snapshots.
Quando os dados são migrados entre diferentes pools, os LINs ilógicos são adicionados ao STF e podem se acumular gradualmente. Problemas de desempenho ocorrem quando os snapshots expiram e são excluídos, e há muitos LINs ilógicos no STF de um snapshot.
Como determinar se um cluster está em risco para esse problema?
Os clusters que atenderem aos critérios a seguir correrão maior risco de enfrentar esse problema se receberem upgrade para o OneFS 9.10 ou 9.11.
- O SnapshotIQ é licenciado e ativado. Os snapshots estão sendo criados e expirados no cluster.
- O cluster contém vários pools de nós.
Resolution
Solução permanente:
Faça upgrade para uma dessas versões do OneFS ou posteriores, que inclui a correção:
- OneFS 9.10.1.4 PSP-4686 MR:[9.10.1.4_GA-MR][Várias correções de espaço de usuário e kernel] (outubro de 2025)
- OneFS 9.11.0.5 PSP-4681 MR:[9.11.0.5_GA-MR][Várias correções de espaço de usuário e kernel] (setembro de 2025)
Solução temporária:
Até que uma solução permanente seja aplicada, a seguinte solução temporária deve ser usada:
Aplique a seguinte alteração de configuração para desativar LINs ilógicos em todo o cluster.
isi_sysctl_cluster efs.snapshot.stf_populate_illogical_lin_enabled=0
Em clusters que fizeram upgrade para o OneFS 9.10 e estão enfrentando problemas de desempenho:
Cancele e desative o
SnapshotDelete trabalho para evitar uma situação de indisponibilidade de dados (DU). Em seguida, entre em contato com o suporte técnico da Dell para obter assistência com a remoção dos snapshots contendo LINs ilógicos.
Para cancelar uma execução
SnapshotDelete trabalho:
isi job cancel snapshotdelete
Para desativar a opção SnapshotDelete trabalho:
isi job types modify snapshotdelete --enabled=false
SnapshotDelete O trabalho desabilitado por muito tempo pode causar problemas de capacidade de espaço em disco baixo. O suporte técnico da Dell deve ser contatado o mais rápido possível para ajudar a remover manualmente os snapshots que contêm LINs ilógicos antes da SnapshotDelete O trabalho é reativado.