PowerScale: Una condición de carrera poco frecuente provoca que un nodo con un back-end InfiniBand entre en estado de alarma

Resumen: En este artículo, se describe una condición poco frecuente en la que un backend de Infiniband hace que un nodo produzca una pila fatal de captura 12.

Este artículo se aplica a Este artículo no se aplica a Este artículo no está vinculado a ningún producto específico. No se identifican todas las versiones del producto en este artículo.

Síntomas

En raras ocasiones, cuando una interfaz InfiniBand deja de funcionar en un nodo, aparece la siguiente pila en los mensajes:

panic @ time 1561028094.153, thread 0xfffff801689cf780: Fatal trap 12: page fault while in kernel mode
 
cpuid = 1
Panic occurred in module kernel loaded at 0xffffffff80200000:
 
Stack: --------------------------------------------------
kernel:trap_fatal+0xa2
kernel:trap_pfault+0x2fd
kernel:trap+0x61d
kernel:ib_create_ah+0x9
kernel:cm_alloc_msg+0x33
kernel:ib_send_cm_dreq+0xbe
kernel:rdma_disconnect+0x149
kernel:sdp_output_reset+0xa4
kernel:sdp_shutdown_task+0x96
kernel:taskqueue_run_locked+0xe5
kernel:taskqueue_thread_loop+0xa7
kernel:fork_exit+0x74

Causa

Esta es una condición de carrera poco frecuente en el controlador InfiniBand. Mientras se desactiva una interfaz InfiniBand, un subproceso intenta acceder a la memoria que ya no existe.

Una tarjeta de red de back-end InfiniBand defectuosa también puede provocar que un nodo entre en estado de alarma con un mensaje similar al anterior.
 

NOTA: Esta condición de carrera solo se observa con la arquitectura InfiniBand. Esto no afecta a la arquitectura Ethernet.

Resolución

Reiniciar el nodo resuelve el problema si se debe a esta condición de carrera poco frecuente.

Para resolver el problema causado por la tarjeta InfiniBand defectuosa, reemplace la tarjeta en el nodo.

Propiedades del artículo
Número del artículo: 000173202
Tipo de artículo: Solution
Última modificación: 21 may 2025
Versión:  4
Encuentre respuestas a sus preguntas de otros usuarios de Dell
Servicios de soporte
Compruebe si el dispositivo está cubierto por los servicios de soporte.