PowerScale: estado de alarma de los nodos: Kernel de falla de aserción: pdm_entries_get_cacheable_entry+0x48e
Sommaire: Varios nodos PowerScale entran en estado de alarma con la pila: Error de aserción kernel:pdm_entries_get_cacheable_entry+0x48e, kernel:pdm_member_generate_entry+0xda
Symptômes
Varios nodos PowerScale entran en estado de alarma con la pila:
ipfw2 (+ipv6) initialized, divert loadable, nat loadable, default to accept, logging disabled mce2: Interface stopped DISTRIBUTING, possible flapping panic @ time 1642530761.327, thread 0xfffffea7a8a76580: Assertion Failure time = 1642530761 cpuid = 24, TSC = 0xe457b789d574ac Panic occurred in module kernel loaded at 0xffffffff80200000: Stack: -------------------------------------------------- kernel:isi_assert_halt+0x2e kernel:pdm_entries_get_cacheable_entry+0x48e kernel:pdm_entries_get+0x95 kernel:pdm_entries_get_global+0x33 kernel:pdm_get_painted_domids+0x2e2 kernel:pdm_member_generate_entry+0xda kernel:pdm_member_get_membership_entry+0x1b7 kernel:pdm_member_init_operation+0x16d kernel:ifm_init_operation+0xb7 kernel:txn_i_include_vnode_to_list+0xc0 kernel:pdm_vget_adsio_txn_include+0x12c kernel:pdm_domain_paint_adsdir+0x41 kernel:pdm_unlink+0x1f0 kernel:bam_rename+0x2bcb kernel:ifs_vnop_wraprename+0x96 kernel:VOP_RENAME_APV+0x9b isi_lwext.ko:lwextsvc_rename+0xe35 kernel:amd64_syscall+0x380 -------------------------------------------------- *** FAILED ASSERTION !pdm_lk_is_held(domid, PDM_EXCLUSIVE) @ /b/mnt/src/sys/ifs/pdm/pdm_ops.c:443: Disabling swatchdog Dumping stacks (40960 bytes)
Cause
Causado por el siguiente defecto: PSCALE-63084: FAILED ASSERTION !pdm_lk_is_held(domid, PDM_EXCLUSIVE) @ /b/mnt/src/sys/ifs/pdm/pdm_ops.c:443 During ADS rename
Este problema está relacionado con el flujo de trabajo de ADS (flujos de datos alternativos). Los flujos de datos alternativos son una estructura de datos que se usa en Windows y que almacena tipos de metadatos de información sobre un archivo, como comentarios sobre un archivo. No existe en FreeBSD (que es el sistema de archivos subyacente de OneFS en Isilon), pero OneFS lo admite y se trata como un archivo dentro de OneFS.
La condición de carrera se produce cuando OneFS cambia el nombre de un archivo ADS a través de un límite de dominio (dentro o fuera de la instantánea) para sobrescribir un archivo ADS vinculado de forma permanente. Esto hace que un nodo deje de responder cuando se intenta una operación. Como resultado, es posible que se produzca una falta de disponibilidad de datos (DU).
¿Cómo determinar si un clúster está en riesgo de sufrir este problema?
El clúster ejecuta un código de OneFS anterior a 9.3.0.0.
Si el flujo de trabajo no utiliza ADS ni operaciones de "cambio de nombre", OneFS no experimentará este problema.
Résolution
Actualice a OneFS 9.3.0.0 o una versión superior.
Solución alternativa:
Si es necesario, el soporte de PowerScale puede estudiar el minivolcado recopilado del nodo en estado de alarma para ayudarnos a identificar qué archivo o carpeta se asoció con el estado de alarma.