PowerScale(Isilon): 하위 또는 상위 isi_hangdump 프로세스가 하나 또는 여러 노드에서 실행되고 있지 않습니다. (Gen5, Gen6, Gen6.5)
Shrnutí: 이 문서에서는 /var/log/messages에서 isi_hangdump 메시지 스팸 문제를 해결하는 방법에 대한 개요를 제공합니다. 요약: 하위 또는 상위 isi_hangdump 프로세스가 하나 또는 여러 노드에서 실행되고 있지 않습니다. isi_hangdump가 제대로 작동하려면 상위 및 하위 프로세스가 모두 실행 중이어야 합니다. ...
Příznaky
여러 노드에서 특정 노드 한 개에 대해 Ping 시간 초과를 보고합니다.
참고: 이는 RBM ping 시간 초과에 대한 것이 아닙니다.
문제가 있는 노드는 지속적인 isi_hangdump 루프의 증상을 보여줍니다.
주요 isi_hangdumps는 매 시간마다 대략 같은 시간에 발생합니다.
이로 인해 성능 문제가 발생할 수도 있습니다.
/var/log/messages의 유사한 메시지:
2021-04-04T01:30:50-04:00 cluster-24 isi_hangdump: Triggering clusterwide hangdump
2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: LOCK TIMEOUT AT 1617514250 UTC
2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: Hangdump after 752602 seconds: Ping timeout
2021-04-04T01:31:00-04:00 CLUSTER-24 isi_hangdump: END OF DUMP AT 1617514250 UTC
2021-04-04T01:31:00-04:00 CLUSTER-24 isi_hangdump: Initiating hangdump on 26 nodes...
2021-04-04T01:31:09-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:32:09-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:35:12-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:36:13-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:52:27-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:53:28-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
The node 2 is triggering the hangdump and the difference is one hour
2020-08-20T00:53:48-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump
2020-08-20T01:53:49-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump
2020-08-20T02:53:49-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump
or
Only the node 24 is triggering the hangdumps and the frequency is one hour:
CLUSTER-24# isi_for_array "grep -i triggering /var/log/messages | grep 2021-04"
CLUSTER-24:2021-04-01T00:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump
CLUSTER-24:2021-04-01T01:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump
CLUSTER-24:2021-04-01T02:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump
The number of isi_hangdump processes can be 4 or 1.The expected number of isi_hangdump processes should be 2. 각 노드에서 실행 중인 isi_hangdump 프로세스의 수를 확인하려면 다음을 수행합니다.
# isi_for_array -s "ps awux | grep '[h]angdump'"
해결 방법은 isi_hangdump 서비스를 재시작하고 isi_hangdump 프로세스의 수를 확인하는 것입니다.
2가 아니면 노드 자체를 재시작합니다.
Příčina
Řešení
현재 해결 방법은 "isi_hangdump restart"를 실행하는 것입니다(아래 예 참조).
실패하면 노드를 재부팅하여 코어를 얻고 isi_hangdump 프로세스를 재시작합니다.
CLUSTER-1# ps -auwx | grep -i isi_hangdump
root 1015 0.0 0.6 437876 38928 - S 25Mar21 0:57.01 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root 1016 0.0 0.5 398676 32200 - S 25Mar21 20:05.60 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root 32228 0.0 0.0 12344 2616 0 S+ 20:41 0:00.00 grep -i isi_hangdump
CLUSTER-1# isi_hangdump restart
CLUSTER-1# ps -auwx | grep -i isi_hangdump
root 32253 3.9 0.6 398808 35976 - S 20:41 0:00.01 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump restart
root 1016 0.0 0.5 398676 32200 - S 25Mar21 20:05.61 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root 32260 0.0 0.0 12344 2616 0 S+ 20:41 0:00.00 grep -i isi_hangdump
그동안 엔지니어링 팀은 풀타임 해결 작업을 진행하고 있습니다.