PowerScale (Isilon): processo isi_hangdump figlio o padre non in esecuzione su uno o più nodi (Gen5, Gen6, Gen6.5)

Shrnutí: Questo articolo fornisce una panoramica su come risolvere i problemi dei messaggi isi_hangdump in /var/log/messages. Riepilogo: processo isi_hangdump figlio o padre non in esecuzione su uno o più nodi. Affinché isi_hangdump funzioni correttamente, è necessario che sia in esecuzione sia il processo padre che quello figlio. ...

Tento článek se vztahuje na Tento článek se nevztahuje na Tento článek není vázán na žádný konkrétní produkt. V tomto článku nejsou uvedeny všechny verze produktu.

Příznaky

Più nodi registrano timeout di ping, eventualmente per un nodo specifico.
NOTA: non valido per i timeout di ping RBM.

Il nodo problematico mostra sintomi di un loop isi_hangdump continuo.
La maggior parte degli isi_hangdump si verifica all'incirca nello stesso momento ogni ora.

Questa condizione può anche causare problemi di prestazioni.

Messaggi simili in /var/log/messages:

2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump
2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: LOCK TIMEOUT AT 1617514250 UTC
2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: Hangdump after 752602 seconds: Ping timeout
2021-04-04T01:31:00-04:00 CLUSTER-24 isi_hangdump: END OF DUMP AT 1617514250 UTC
2021-04-04T01:31:00-04:00 CLUSTER-24 isi_hangdump: Initiating hangdump on 26 nodes...
2021-04-04T01:31:09-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:32:09-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:35:12-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:36:13-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:52:27-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:53:28-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)


Il nodo 2 attiva l'hangdump e la differenza è di un'ora
2020-08-20T00:53:48-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump
2020-08-20T01:53:49-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump  
2020-08-20T02:53:49-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump


oppure

Solo il nodo 24 attiva gli hangdump e la frequenza è di un'ora:

CLUSTER-24# isi_for_array "grep -i triggering /var/log/messages | grep 2021-04"
CLUSTER-24:2021-04-01T00:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump
CLUSTER-24:2021-04-01T01:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump     
CLUSTER-24:2021-04-01T02:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump

Il numero di processi isi_hangdump può essere 4 o 1.Il numero previsto di processi isi_hangdump deve essere 2. Per vedere quanti processi isi_hangdump sono in esecuzione su ogni nodo:

# isi_for_array -s "ps awux | grep '[h]angdump'"


La risoluzione consiste nel riavviare il servizio isi_hangdump e verificare il numero di processi isi_hangdump.
Se non è 2, riavviare il nodo.

Příčina

Il processo padre o figlio di isi_hangdump non è in esecuzione.  Se il processo figlio (ping) non è in esecuzione, il nodo non invierà i messaggi ping interni, con conseguente attivazione di hangdump. Ciò potrebbe causare problemi di prestazioni dovuti alla continua generazione degli hangdump.

Řešení

Attualmente, la risoluzione consiste nell'esecuzione di "isi_hangdump restart" (come mostrato nell'esempio riportato di seguito).

Se l'errore persiste, riavviare il nodo per ottenere i core e riavviare il processo isi_hangdump.

CLUSTER-1# ps -auwx | grep -i isi_hangdump
root    1015   0.0  0.6 437876  38928  -  S    25Mar21      0:57.01 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root    1016   0.0  0.5 398676  32200  -  S    25Mar21     20:05.60 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root   32228   0.0  0.0  12344   2616  0  S+   20:41        0:00.00 grep -i isi_hangdump

CLUSTER-1# isi_hangdump restart
CLUSTER-1# ps -auwx | grep -i isi_hangdump
root   32253   3.9  0.6 398808  35976  -  S    20:41        0:00.01 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump restart
root    1016   0.0  0.5 398676  32200  -  S    25Mar21     20:05.61 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root   32260   0.0  0.0  12344   2616  0  S+   20:41        0:00.00 grep -i isi_hangdump


Nel frattempo, il team Engineering sta lavorando a una risoluzione definitiva.

Dotčené produkty

PowerScale OneFS
Vlastnosti článku
Číslo článku: 000185607
Typ článku: Solution
Poslední úprava: 12 led 2023
Verze:  6
Najděte odpovědi na své otázky od ostatních uživatelů společnosti Dell
Služby podpory
Zkontrolujte, zda se na vaše zařízení vztahují služby podpory.