PowerScale (Isilon):子または親isi_hangdumpプロセスが単一または複数のノードで実行されていません。(Gen5、Gen6、Gen6.5)

Shrnutí: この記事では、/var/log/messagesにisi_hangdumpメッセージが多数表示される問題を解決する方法について説明します。Summary: 子または親isi_hangdumpプロセスが単一または複数のノードで実行されていません。isi_hangdumpを正常に動作させるには、親プロセスと子プロセスの両方が実行されている必要があります。

Tento článek se vztahuje na Tento článek se nevztahuje na Tento článek není vázán na žádný konkrétní produkt. V tomto článku nejsou uvedeny všechny verze produktu.

Příznaky

複数のノードがpingタイムアウトを報告します。場合によっては、1つの特定のノードに対して報告されます。
メモ:これは、RBM pingタイムアウトではありません。

問題のあるノードは、継続的なisi_hangdumpループの症状を示します。
主要なisi_hangdumpは、1時間ごとにほぼ同じ時間に発生します。

これもまた、パフォーマンスの問題を引き起こす可能性があります。

/var/log/messagesに次のようなメッセージ:

2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump
2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: LOCK TIMEOUT AT 1617514250 UTC
2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: Hangdump after 752602 seconds: Ping timeout
2021-04-04T01:31:00-04:00 CLUSTER-24 isi_hangdump: END OF DUMP AT 1617514250 UTC
2021-04-04T01:31:00-04:00 CLUSTER-24 isi_hangdump: Initiating hangdump on 26 nodes...
2021-04-04T01:31:09-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:32:09-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:35:12-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:36:13-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:52:27-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:53:28-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)


ノード2がhangdumpをトリガーし、その時間差は1時間です。
2020-08-20T00:53:48-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump
2020-08-20T01:53:49-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump  
2020-08-20T02:53:49-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump


または

ノード24のみがhangdumpをトリガーし、その頻度は1時間です。

CLUSTER-24# isi_for_array "grep -i triggering /var/log/messages | grep 2021-04"
CLUSTER-24:2021-04-01T00:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump
CLUSTER-24:2021-04-01T01:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump     
CLUSTER-24:2021-04-01T02:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump

isi_hangdumpプロセスの数は、4または1である場合があります。期待されるisi_hangdumpプロセスの数は2です。各ノードで実行されているisi_hangdumpプロセスの数を確認するには、次を実行します。

# isi_for_array -s "ps awux | grep '[h]angdump'"


解決策として、isi_hangdumpサービス再起動し、isi_hangdumpプロセスの数を確認します。
2でない場合は、ノード自体を再起動します。

Příčina

isi_hangdumpの親または子プロセスが実行されていません。  子(ping)プロセスが実行されていない場合、そのノードは内部pingメッセージを送信せず、その結果、hangdumpがトリガーされます。これにより、hangdumpが継続的に生成されるため、パフォーマンスの問題が発生する可能性があります。

Řešení

現在この問題は、「isi_hangdump restart」を実行して解決できます(次の例を参照)。

これに失敗した場合は、パニックでノードを再起動してコアを取得し、isi_hangdumpプロセスを再開します。

CLUSTER-1# ps -auwx | grep -i isi_hangdump
root    1015   0.0  0.6 437876  38928  -  S    25Mar21      0:57.01 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root    1016   0.0  0.5 398676  32200  -  S    25Mar21     20:05.60 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root   32228   0.0  0.0  12344   2616  0  S+   20:41        0:00.00 grep -i isi_hangdump

CLUSTER-1# isi_hangdump restart
CLUSTER-1# ps -auwx | grep -i isi_hangdump
root   32253   3.9  0.6 398808  35976  -  S    20:41        0:00.01 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump restart
root    1016   0.0  0.5 398676  32200  -  S    25Mar21     20:05.61 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root   32260   0.0  0.0  12344   2616  0  S+   20:41        0:00.00 grep -i isi_hangdump


現在エンジニアリング チームでは、恒久的な解決策に取り組んでいます。

Dotčené produkty

PowerScale OneFS
Vlastnosti článku
Číslo článku: 000185607
Typ článku: Solution
Poslední úprava: 12 led 2023
Verze:  6
Najděte odpovědi na své otázky od ostatních uživatelů společnosti Dell
Služby podpory
Zkontrolujte, zda se na vaše zařízení vztahují služby podpory.