PowerScale: pane nos nós: Kernel de falha de asserção: pdm_entries_get_cacheable_entry+0x48e
Résumé: Vários nós do PowerScale entram em pane com a pilha: Falha de asserção kernel:pdm_entries_get_cacheable_entry+0x48e, kernel:pdm_member_generate_entry+0xda
Symptômes
Vários nós do PowerScale entram em pane com a pilha:
ipfw2 (+ipv6) initialized, divert loadable, nat loadable, default to accept, logging disabled mce2: Interface stopped DISTRIBUTING, possible flapping panic @ time 1642530761.327, thread 0xfffffea7a8a76580: Assertion Failure time = 1642530761 cpuid = 24, TSC = 0xe457b789d574ac Panic occurred in module kernel loaded at 0xffffffff80200000: Stack: -------------------------------------------------- kernel:isi_assert_halt+0x2e kernel:pdm_entries_get_cacheable_entry+0x48e kernel:pdm_entries_get+0x95 kernel:pdm_entries_get_global+0x33 kernel:pdm_get_painted_domids+0x2e2 kernel:pdm_member_generate_entry+0xda kernel:pdm_member_get_membership_entry+0x1b7 kernel:pdm_member_init_operation+0x16d kernel:ifm_init_operation+0xb7 kernel:txn_i_include_vnode_to_list+0xc0 kernel:pdm_vget_adsio_txn_include+0x12c kernel:pdm_domain_paint_adsdir+0x41 kernel:pdm_unlink+0x1f0 kernel:bam_rename+0x2bcb kernel:ifs_vnop_wraprename+0x96 kernel:VOP_RENAME_APV+0x9b isi_lwext.ko:lwextsvc_rename+0xe35 kernel:amd64_syscall+0x380 -------------------------------------------------- *** FAILED ASSERTION !pdm_lk_is_held(domid, PDM_EXCLUSIVE) @ /b/mnt/src/sys/ifs/pdm/pdm_ops.c:443: Disabling swatchdog Dumping stacks (40960 bytes)
Cause
Causada pelo seguinte defeito: PSCALE-63084: FAILED ASSERTION !pdm_lk_is_held(domid, PDM_EXCLUSIVE) @ /b/mnt/src/sys/ifs/pdm/pdm_ops.c:443 During ADS rename
Esse problema está relacionado ao fluxo de trabalho do ADS (fluxos de dados alternativos). Fluxos de Dados Alternativos são uma estrutura de dados usada no Windows que armazena informações de tipos de metadados sobre um arquivo, como comentários sobre um arquivo. Ele não existe no FreeBSD (que é o sistema de arquivos subjacente do OneFS no Isilon), mas o OneFS o suporta e é tratado como um arquivo dentro do OneFS.
A condição de corrida ocorre quando o OneFS renomeia um arquivo ADS em um limite de domínio (dentro ou fora do snapshot) para substituir um arquivo ADS com vínculo físico. Isso faz com que um nó não responda quando uma tentativa de operação é tentada. Como resultado, pode ocorrer
indisponibilidade de dados (DU).Como determinar se um cluster está em risco para esse problema?
O cluster está executando um código do OneFS anterior ao 9.3.0.0.
Se o fluxo de trabalho não usar operações de ADS e 'renomear', o OneFS não apresentará esse problema.
Résolution
Faça upgrade para o OneFS versão 9.3.0.0 ou posterior.
Solução alternativa:
Se necessário, o Suporte do PowerScale pode estudar o minidump coletado do nó em pânico para nos ajudar a identificar qual arquivo/pasta foi associado à pane.