PowerScale: Una condición de carrera poco frecuente provoca que un nodo con un back-end InfiniBand entre en estado de alarma
Resumen: En este artículo, se describe una condición poco frecuente en la que un backend de Infiniband hace que un nodo produzca una pila fatal de captura 12.
Este artículo se aplica a
Este artículo no se aplica a
Este artículo no está vinculado a ningún producto específico.
No se identifican todas las versiones del producto en este artículo.
Síntomas
En raras ocasiones, cuando una interfaz InfiniBand deja de funcionar en un nodo, aparece la siguiente pila en los mensajes:
panic @ time 1561028094.153, thread 0xfffff801689cf780: Fatal trap 12: page fault while in kernel mode cpuid = 1 Panic occurred in module kernel loaded at 0xffffffff80200000: Stack: -------------------------------------------------- kernel:trap_fatal+0xa2 kernel:trap_pfault+0x2fd kernel:trap+0x61d kernel:ib_create_ah+0x9 kernel:cm_alloc_msg+0x33 kernel:ib_send_cm_dreq+0xbe kernel:rdma_disconnect+0x149 kernel:sdp_output_reset+0xa4 kernel:sdp_shutdown_task+0x96 kernel:taskqueue_run_locked+0xe5 kernel:taskqueue_thread_loop+0xa7 kernel:fork_exit+0x74
Causa
Esta es una condición de carrera poco frecuente en el controlador InfiniBand. Mientras se desactiva una interfaz InfiniBand, un subproceso intenta acceder a la memoria que ya no existe.
Una tarjeta de red de back-end InfiniBand defectuosa también puede provocar que un nodo entre en estado de alarma con un mensaje similar al anterior.
NOTA: Esta condición de carrera solo se observa con la arquitectura InfiniBand. Esto no afecta a la arquitectura Ethernet.
Resolución
Reiniciar el nodo resuelve el problema si se debe a esta condición de carrera poco frecuente.
Para resolver el problema causado por la tarjeta InfiniBand defectuosa, reemplace la tarjeta en el nodo.
Propiedades del artículo
Número del artículo: 000173202
Tipo de artículo: Solution
Última modificación: 21 may 2025
Versión: 4
Encuentre respuestas a sus preguntas de otros usuarios de Dell
Servicios de soporte
Compruebe si el dispositivo está cubierto por los servicios de soporte.