PowerScale (Isilon): El proceso primario o secundario de isi_hangdump no se encuentra en ejecución en uno o varios nodos. (Gen5, Gen6, Gen6.5)

Shrnutí: En este artículo, se proporciona una visión general de cómo resolver problemas con mensajes de spam de isi_hangdump en /var/log/messages. Resumen: El proceso primario o secundario de isi_hangdump no se encuentra en ejecución en uno o varios nodos. Para que isi_hangdump funcione correctamente, los procesos primario y secundario deben estar en ejecución. ...

Tento článek se vztahuje na Tento článek se nevztahuje na Tento článek není vázán na žádný konkrétní produkt. V tomto článku nejsou uvedeny všechny verze produktu.

Příznaky

Varios nodos informan tiempos de espera agotados de ping, posiblemente para un nodo específico.
NOTA: Esto no se aplica a los tiempos de espera agotados de ping de RBM

En el nodo problemático, se muestran los síntomas de un bucle de isi_hangdump continuo.
Los elementos isi_hangdumps principales ocurren aproximadamente a la misma hora cada hora.

Esto también podría estar causando problemas de rendimiento.

Mensajes similares en /var/log/messages:

2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump
2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: LOCK TIMEOUT AT 1617514250 UTC
2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: Hangdump after 752602 seconds: Ping timeout
2021-04-04T01:31:00-04:00 CLUSTER-24 isi_hangdump: END OF DUMP AT 1617514250 UTC
2021-04-04T01:31:00-04:00 CLUSTER-24 isi_hangdump: Initiating hangdump on 26 nodes...
2021-04-04T01:31:09-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:32:09-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:35:12-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:36:13-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:52:27-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:53:28-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)


El nodo 2 está generando el volcado de bloqueo y la diferencia es una hora
2020-08-20T00:53:48-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump
2020-08-20T01:53:49-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump  
2020-08-20T02:53:49-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump


o

Solo el nodo 24 está generando los volcados de bloqueo y la frecuencia es una hora:

CLUSTER-24# isi_for_array "grep -i triggering /var/log/messages | grep 2021-04"
CLUSTER-24:2021-04-01T00:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump
CLUSTER-24:2021-04-01T01:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump     
CLUSTER-24:2021-04-01T02:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump

El número de procesos de isi_hangdump puede ser 4 o 1.El número esperado de procesos isi_hangdump debería ser 2. Para ver cuántos procesos de isi_hangdump se están ejecutando en cada nodo, utilice:

# isi_for_array -s "ps awux | grep '[h]angdump'"


La resolución es reiniciar el servicio isi_hangdump y comprobar el número de procesos de isi_hangdump.
Si no es 2, reinicie el nodo en sí.

Příčina

El proceso primario o secundario de isi_hangdump no se encuentra en ejecución.  Si el proceso secundario (ping) no está en ejecución, ese nodo no enviará los mensajes de ping internos, lo que provocará la activación de volcados de bloqueo. Esto podría provocar problemas de rendimiento debido a la generación continua de volcados de bloqueo.

Řešení

Actualmente, la resolución es ejecutar "isi_hangdump restart" (como se muestra en el siguiente ejemplo).

Si eso no funciona, reinicie en modo de alarma el nodo para acceder a los núcleos y reinicie el proceso isi_hangdump.

CLUSTER-1# ps -auwx | grep -i isi_hangdump
root    1015   0.0  0.6 437876  38928  -  S    25Mar21      0:57.01 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root    1016   0.0  0.5 398676  32200  -  S    25Mar21     20:05.60 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root   32228   0.0  0.0  12344   2616  0  S+   20:41        0:00.00 grep -i isi_hangdump

CLUSTER-1# isi_hangdump restart
CLUSTER-1# ps -auwx | grep -i isi_hangdump
root   32253   3.9  0.6 398808  35976  -  S    20:41        0:00.01 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump restart
root    1016   0.0  0.5 398676  32200  -  S    25Mar21     20:05.61 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root   32260   0.0  0.0  12344   2616  0  S+   20:41        0:00.00 grep -i isi_hangdump


Mientras, el equipo de ingeniería trabaja en una resolución a tiempo completo.

Dotčené produkty

PowerScale OneFS
Vlastnosti článku
Číslo článku: 000185607
Typ článku: Solution
Poslední úprava: 12 led 2023
Verze:  6
Najděte odpovědi na své otázky od ostatních uživatelů společnosti Dell
Služby podpory
Zkontrolujte, zda se na vaše zařízení vztahují služby podpory.