PowerScale (Isilon): Auf einem oder mehreren Nodes kann untergeordneter oder übergeordneter Prozess „isi_hangdump“ nicht ausgeführt werden. (Gen5, Gen6, Gen6.5)
Shrnutí: Dieser Artikel gibt eine Übersicht über die Lösung von Problemen mit Meldungen „isi_hangdump“ in /var/log/messages. Zusammenfassung: Auf einem oder mehreren Nodes kann untergeordneter oder übergeordneter Prozess „isi_hangdump“ nicht ausgeführt werden. Damit „isi_hangdump“ ordnungsgemäß funktioniert, müssen sowohl der übergeordnete als auch der untergeordnete Prozess ausgeführt werden. ...
Příznaky
Mehrere Nodes melden Ping-Timeouts, möglicherweise bei Pings an einen einzelnen bestimmten Node.
HINWEIS: Dies gilt nicht für RBM-Ping-Timeouts.
Problematische Nodes zeigen Symptome einer kontinuierlichen Schleife „isi_hangdump“.
Die meisten isi_hangdumps treten stündlich und ungefähr zur gleichen Uhrzeit auf.
Das kann zudem zu Performanceproblemen führen.
Meldungen dieser Art in /var/log/messages:
2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump
2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: LOCK TIMEOUT AT 1617514250 UTC
2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: Hangdump after 752602 seconds: Ping timeout
2021-04-04T01:31:00-04:00 CLUSTER-24 isi_hangdump: END OF DUMP AT 1617514250 UTC
2021-04-04T01:31:00-04:00 CLUSTER-24 isi_hangdump: Initiating hangdump on 26 nodes...
2021-04-04T01:31:09-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:32:09-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:35:12-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:36:13-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:52:27-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:53:28-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
Node 2 löst Hangdump aus und der Unterschied beträgt eine Stunde
2020-08-20T00:53:48-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump
2020-08-20T01:53:49-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump
2020-08-20T02:53:49-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump
oder
Nur Node 24 löst Hangdumps aus und die Häufigkeit beträgt eine Stunde:
CLUSTER-24# isi_for_array "grep -i triggering /var/log/messages | grep 2021-04"
CLUSTER-24:2021-04-01T00:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump
CLUSTER-24:2021-04-01T01:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump
CLUSTER-24:2021-04-01T02:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump
Die Anzahl der Prozesse „isi_hangdump“ kann 4 oder 1 sein.Die erwartete Anzahl der Prozesse „isi_hangdump“ sollte 2 sein. So können Sie ermitteln, wie viele Prozesse „isi_hangdump“ auf den einzelnen Nodes ausgeführt werden:
# isi_for_array -s "ps awux | grep '[h]angdump'"
Die Lösung besteht darin, den Service „isi_hangdump“ neu zu starten und die Anzahl der Prozesse „isi_hangdump“ zu überprüfen.
Ist diese Anzahl nicht 2, starten Sie den Node selbst neu.
Příčina
Řešení
Derzeit besteht die Lösung im Ausführen von „isi_hangdump restart“ (wie im folgenden Beispiel gezeigt).
Wenn dies fehlschlägt, nehmen Sie einen Panik-Neustart des Nodes vor, um die Cores abzurufen, und starten Sie den Prozess „isi_hangdump“ neu.
CLUSTER-1# ps -auwx | grep -i isi_hangdump
root 1015 0.0 0.6 437876 38928 - S 25Mar21 0:57.01 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root 1016 0.0 0.5 398676 32200 - S 25Mar21 20:05.60 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root 32228 0.0 0.0 12344 2616 0 S+ 20:41 0:00.00 grep -i isi_hangdump
CLUSTER-1# isi_hangdump restart
CLUSTER-1# ps -auwx | grep -i isi_hangdump
root 32253 3.9 0.6 398808 35976 - S 20:41 0:00.01 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump restart
root 1016 0.0 0.5 398676 32200 - S 25Mar21 20:05.61 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root 32260 0.0 0.0 12344 2616 0 S+ 20:41 0:00.00 grep -i isi_hangdump
Zurzeit arbeiten Ingenieure und Techniker an einer endgültigen Lösung.