PowerScale: errore irreversibile dei nodi: Kernel di asserzione non riuscita: pdm_entries_get_cacheable_entry+0x48e
Résumé: Più nodi PowerScale in caso di errore irreversibile con stack: Errore di asserzione kernel:pdm_entries_get_cacheable_entry+0x48e, kernel:pdm_member_generate_entry+0xda
Symptômes
Più nodi PowerScale in caso di errore irreversibile con stack:
ipfw2 (+ipv6) initialized, divert loadable, nat loadable, default to accept, logging disabled mce2: Interface stopped DISTRIBUTING, possible flapping panic @ time 1642530761.327, thread 0xfffffea7a8a76580: Assertion Failure time = 1642530761 cpuid = 24, TSC = 0xe457b789d574ac Panic occurred in module kernel loaded at 0xffffffff80200000: Stack: -------------------------------------------------- kernel:isi_assert_halt+0x2e kernel:pdm_entries_get_cacheable_entry+0x48e kernel:pdm_entries_get+0x95 kernel:pdm_entries_get_global+0x33 kernel:pdm_get_painted_domids+0x2e2 kernel:pdm_member_generate_entry+0xda kernel:pdm_member_get_membership_entry+0x1b7 kernel:pdm_member_init_operation+0x16d kernel:ifm_init_operation+0xb7 kernel:txn_i_include_vnode_to_list+0xc0 kernel:pdm_vget_adsio_txn_include+0x12c kernel:pdm_domain_paint_adsdir+0x41 kernel:pdm_unlink+0x1f0 kernel:bam_rename+0x2bcb kernel:ifs_vnop_wraprename+0x96 kernel:VOP_RENAME_APV+0x9b isi_lwext.ko:lwextsvc_rename+0xe35 kernel:amd64_syscall+0x380 -------------------------------------------------- *** FAILED ASSERTION !pdm_lk_is_held(domid, PDM_EXCLUSIVE) @ /b/mnt/src/sys/ifs/pdm/pdm_ops.c:443: Disabling swatchdog Dumping stacks (40960 bytes)
Cause
Causato dal seguente difetto: PSCALE-63084: FAILED ASSERTION !pdm_lk_is_held(domid, PDM_EXCLUSIVE) @ /b/mnt/src/sys/ifs/pdm/pdm_ops.c:443 During ADS rename
Questo problema è correlato al flusso di lavoro ADS (flussi di dati alternativi). I flussi di dati alternativi sono una struttura di dati utilizzata all'interno di Windows in cui sono archiviati i tipi di metadati delle informazioni relative a un file, ad esempio i commenti relativi a un file. Non esiste in FreeBSD (che è il file system sottostante di OneFS su Isilon), ma OneFS lo supporta e viene considerato come un file all'interno di OneFS.
La race condition si verifica quando OneFS rinomina un file ADS attraverso un limite di dominio (all'interno o all'esterno di una snapshot) per sovrascrivere un file ADS con collegamento reale. In questo modo, un nodo non risponde quando si tenta di eseguire un'operazione. Di conseguenza, potrebbe verificarsi una non disponibilità dei dati (DU).
Come determinare se un cluster è a rischio di questo problema?
Il cluster esegue codice OneFS precedente a 9.3.0.0.
Se il flusso di lavoro non utilizza le operazioni ADS e di ridenominazione, OneFS non riscontrerà questo problema.
Résolution
Eseguire l'aggiornamento a OneFS versione 9.3.0.0 o successiva.
Soluzione:
Se necessario, il supporto PowerScale può studiare il minidump raccolto dal nodo in errore per aiutarci a identificare quale file/cartella è stato associato all'errore irreversibile.