PowerScale (Isilon): Auf einem oder mehreren Nodes kann untergeordneter oder übergeordneter Prozess „isi_hangdump“ nicht ausgeführt werden. (Gen5, Gen6, Gen6.5)

Shrnutí: Dieser Artikel gibt eine Übersicht über die Lösung von Problemen mit Meldungen „isi_hangdump“ in /var/log/messages. Zusammenfassung: Auf einem oder mehreren Nodes kann untergeordneter oder übergeordneter Prozess „isi_hangdump“ nicht ausgeführt werden. Damit „isi_hangdump“ ordnungsgemäß funktioniert, müssen sowohl der übergeordnete als auch der untergeordnete Prozess ausgeführt werden. ...

Tento článek se vztahuje na Tento článek se nevztahuje na Tento článek není vázán na žádný konkrétní produkt. V tomto článku nejsou uvedeny všechny verze produktu.

Příznaky

Mehrere Nodes melden Ping-Timeouts, möglicherweise bei Pings an einen einzelnen bestimmten Node.
HINWEIS: Dies gilt nicht für RBM-Ping-Timeouts.

Problematische Nodes zeigen Symptome einer kontinuierlichen Schleife „isi_hangdump“.
Die meisten isi_hangdumps treten stündlich und ungefähr zur gleichen Uhrzeit auf.

Das kann zudem zu Performanceproblemen führen.

Meldungen dieser Art in /var/log/messages:

2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump
2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: LOCK TIMEOUT AT 1617514250 UTC
2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: Hangdump after 752602 seconds: Ping timeout
2021-04-04T01:31:00-04:00 CLUSTER-24 isi_hangdump: END OF DUMP AT 1617514250 UTC
2021-04-04T01:31:00-04:00 CLUSTER-24 isi_hangdump: Initiating hangdump on 26 nodes...
2021-04-04T01:31:09-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:32:09-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:35:12-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:36:13-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:52:27-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:53:28-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)


Node 2 löst Hangdump aus und der Unterschied beträgt eine Stunde
2020-08-20T00:53:48-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump
2020-08-20T01:53:49-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump  
2020-08-20T02:53:49-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump


oder

Nur Node 24 löst Hangdumps aus und die Häufigkeit beträgt eine Stunde:
CLUSTER-24# isi_for_array "grep -i triggering /var/log/messages | grep 2021-04"
CLUSTER-24:2021-04-01T00:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump
CLUSTER-24:2021-04-01T01:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump     
CLUSTER-24:2021-04-01T02:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump

Die Anzahl der Prozesse „isi_hangdump“ kann 4 oder 1 sein.Die erwartete Anzahl der Prozesse „isi_hangdump“ sollte 2 sein. So können Sie ermitteln, wie viele Prozesse „isi_hangdump“ auf den einzelnen Nodes ausgeführt werden:

# isi_for_array -s "ps awux | grep '[h]angdump'"


Die Lösung besteht darin, den Service „isi_hangdump“ neu zu starten und die Anzahl der Prozesse „isi_hangdump“ zu überprüfen.
Ist diese Anzahl nicht 2, starten Sie den Node selbst neu.

Příčina

Der übergeordnete oder der untergeordnete Prozess von isi_hangdump wird nicht ausgeführt.  Wenn der untergeordnete Prozess (Ping) nicht ausgeführt wird, sendet dieser Node nicht die internen Ping-Nachrichten, was dazu führt, dass Hangdumps ausgelöst werden. Dies kann aufgrund der kontinuierlichen Erzeugung von Hangdumps möglicherweise zu Performanceproblemen führen.

Řešení

Derzeit besteht die Lösung im Ausführen von „isi_hangdump restart“ (wie im folgenden Beispiel gezeigt).

Wenn dies fehlschlägt, nehmen Sie einen Panik-Neustart des Nodes vor, um die Cores abzurufen, und starten Sie den Prozess „isi_hangdump“ neu.

CLUSTER-1# ps -auwx | grep -i isi_hangdump
root    1015   0.0  0.6 437876  38928  -  S    25Mar21      0:57.01 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root    1016   0.0  0.5 398676  32200  -  S    25Mar21     20:05.60 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root   32228   0.0  0.0  12344   2616  0  S+   20:41        0:00.00 grep -i isi_hangdump
CLUSTER-1# isi_hangdump restart
CLUSTER-1# ps -auwx | grep -i isi_hangdump
root   32253   3.9  0.6 398808  35976  -  S    20:41        0:00.01 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump restart
root    1016   0.0  0.5 398676  32200  -  S    25Mar21     20:05.61 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root   32260   0.0  0.0  12344   2616  0  S+   20:41        0:00.00 grep -i isi_hangdump

Zurzeit arbeiten Ingenieure und Techniker an einer endgültigen Lösung.

Dotčené produkty

PowerScale OneFS
Vlastnosti článku
Číslo článku: 000185607
Typ článku: Solution
Poslední úprava: 12 led 2023
Verze:  6
Najděte odpovědi na své otázky od ostatních uživatelů společnosti Dell
Služby podpory
Zkontrolujte, zda se na vaše zařízení vztahují služby podpory.