PowerScale (Isilon):子或父 isi_hangdump 程序未在單一或多個節點上執行。 (Gen5, Gen6, Gen6.5)

Shrnutí: 本文概述如何解決 /var/log/messages 中 isi_hangdump 訊息垃圾郵件的問題。摘要:子或父 isi_hangdump 程序未在單一或多個節點上執行。若要 isi_hangdump 正常運作,父和子程序都必須執行。

Tento článek se vztahuje na Tento článek se nevztahuje na Tento článek není vázán na žádný konkrétní produkt. V tomto článku nejsou uvedeny všechny verze produktu.

Příznaky

多個節點會回報 ping 逾時,可能至一個特定節點。
注意:這不適用於 RBM ping 逾時

有問題的節點出現持續 isi_hangdump 迴圈的症狀。
主要 isi_hangdumps 大約每小時相同時間發生。

這也可能導致效能問題。

在 /var/log/messages 中的類似訊息:

2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump
2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: LOCK TIMEOUT AT 1617514250 UTC
2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: Hangdump after 752602 seconds: Ping timeout
2021-04-04T01:31:00-04:00 CLUSTER-24 isi_hangdump: END OF DUMP AT 1617514250 UTC
2021-04-04T01:31:00-04:00 CLUSTER-24 isi_hangdump: Initiating hangdump on 26 nodes...
2021-04-04T01:31:09-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:32:09-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:35:12-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:36:13-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:52:27-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:53:28-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)


The node 2 is triggering the hangdump and the difference is one hour
2020-08-20T00:53:48-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump
2020-08-20T01:53:49-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump  
2020-08-20T02:53:49-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump


or

Only the node 24 is triggering the hangdumps and the frequency is one hour:

CLUSTER-24# isi_for_array "grep -i triggering /var/log/messages | grep 2021-04"
CLUSTER-24:2021-04-01T00:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump
CLUSTER-24:2021-04-01T01:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump     
CLUSTER-24:2021-04-01T02:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump

The number of isi_hangdump processes can be 4 or 1.The expected number of isi_hangdump processes should be 2. 若要查看每個節點上有多少個 isi_hangdump 程序正在執行:

# isi_for_array -s "ps awux | grep '[h]angdump'"


解決方案是重新啟動 isi_hangdump 服務,並檢查 isi_hangdump 程序的數目。
如果不是 2,則請重新啟動節點本身。

Příčina

目前未執行 isi_hangdump 的父或子程序。  如果子 (ping) 程序未執行,則該節點不會傳送內部 ping 訊息,這會導致觸發當機傾印。這可能會導致效能問題,因為持續產生當機傾印。

Řešení

目前解決方案是執行「isi_hangdump restart」(如下所示)。

如果失敗,請將節點進行錯誤重新啟動以取得核心,然後重新啟動 isi_hangdump 程序。

CLUSTER-1# ps -auwx | grep -i isi_hangdump
root    1015   0.0  0.6 437876  38928  -  S    25Mar21      0:57.01 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root    1016   0.0  0.5 398676  32200  -  S    25Mar21     20:05.60 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root   32228   0.0  0.0  12344   2616  0  S+   20:41        0:00.00 grep -i isi_hangdump

CLUSTER-1# isi_hangdump restart
CLUSTER-1# ps -auwx | grep -i isi_hangdump
root   32253   3.9  0.6 398808  35976  -  S    20:41        0:00.01 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump restart
root    1016   0.0  0.5 398676  32200  -  S    25Mar21     20:05.61 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root   32260   0.0  0.0  12344   2616  0  S+   20:41        0:00.00 grep -i isi_hangdump


與此同時,工程部門正在提出專責的解決方案。

Dotčené produkty

PowerScale OneFS
Vlastnosti článku
Číslo článku: 000185607
Typ článku: Solution
Poslední úprava: 12 led 2023
Verze:  6
Najděte odpovědi na své otázky od ostatních uživatelů společnosti Dell
Služby podpory
Zkontrolujte, zda se na vaše zařízení vztahují služby podpory.