PowerScale (Isilon):子或父 isi_hangdump 进程未在一个或多个节点上运行。(Gen5、Gen6、Gen6.5)
Shrnutí: 本文概述了如何解决 /var/log/messages 中 isi_hangdump 消息滥发的问题。摘要:子或父 isi_hangdump 进程未在一个或多个节点上运行。要使 isi_hangdump 正常工作,父进程和子进程都需要运行。
Příznaky
多个节点报告与某个特定节点之间的 ping 超时。
提醒:这不适用于 RBM ping 超时
有问题节点的症状为持续的 isi_hangdump 循环。
主要 isi_hangdumps 几乎在每小时的相同时间发生。
这也可能导致性能问题。
/var/log/messages 中的类似消息:
2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump
2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: LOCK TIMEOUT AT 1617514250 UTC
2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: Hangdump after 752602 seconds: Ping timeout
2021-04-04T01:31:00-04:00 CLUSTER-24 isi_hangdump: END OF DUMP AT 1617514250 UTC
2021-04-04T01:31:00-04:00 CLUSTER-24 isi_hangdump: Initiating hangdump on 26 nodes...
2021-04-04T01:31:09-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:32:09-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:35:12-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:36:13-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:52:27-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:53:28-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
节点 2 触发挂起转储,间隔一小时
2020-08-20T00:53:48-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump
2020-08-20T01:53:49-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump
2020-08-20T02:53:49-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump
或
只有节点 24 触发挂起转储,频率为 1 小时:
CLUSTER-24# isi_for_array "grep -i triggering /var/log/messages | grep 2021-04"
CLUSTER-24:2021-04-01T00:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump
CLUSTER-24:2021-04-01T01:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump
CLUSTER-24:2021-04-01T02:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump
isi_hangdump 进程的数量可能是 4 或 1。预期的 isi_hangdump 进程数应为 2。要查看每个节点上运行的 isi_hangdump 进程数,请使用以下命令:
# isi_for_array -s "ps awux | grep '[h]angdump'"
解决方案是重新启动 isi_hangdump 服务并检查 isi_hangdump 进程的数量。
如果不是 2,则重新启动节点本身。
Příčina
Řešení
目前,解决方案是运行“isi_hangdump restart”(如以下示例所示)。
如果失败,则重新启动节点以获取核心并重新启动 isi_hangdump 进程。
CLUSTER-1# ps -auwx | grep -i isi_hangdump
root 1015 0.0 0.6 437876 38928 - S 25Mar21 0:57.01 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root 1016 0.0 0.5 398676 32200 - S 25Mar21 20:05.60 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root 32228 0.0 0.0 12344 2616 0 S+ 20:41 0:00.00 grep -i isi_hangdump
CLUSTER-1# isi_hangdump restart
CLUSTER-1# ps -auwx | grep -i isi_hangdump
root 32253 3.9 0.6 398808 35976 - S 20:41 0:00.01 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump restart
root 1016 0.0 0.5 398676 32200 - S 25Mar21 20:05.61 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root 32260 0.0 0.0 12344 2616 0 S+ 20:41 0:00.00 grep -i isi_hangdump
同时,工程部门正在研究正式的解决方案。