PowerScale(Isilon): 하위 또는 상위 isi_hangdump 프로세스가 하나 또는 여러 노드에서 실행되고 있지 않습니다. (Gen5, Gen6, Gen6.5)

Shrnutí: 이 문서에서는 /var/log/messages에서 isi_hangdump 메시지 스팸 문제를 해결하는 방법에 대한 개요를 제공합니다. 요약: 하위 또는 상위 isi_hangdump 프로세스가 하나 또는 여러 노드에서 실행되고 있지 않습니다. isi_hangdump가 제대로 작동하려면 상위 및 하위 프로세스가 모두 실행 중이어야 합니다. ...

Tento článek se vztahuje na Tento článek se nevztahuje na Tento článek není vázán na žádný konkrétní produkt. V tomto článku nejsou uvedeny všechny verze produktu.

Příznaky

여러 노드에서 특정 노드 한 개에 대해 Ping 시간 초과를 보고합니다.
참고: 이는 RBM ping 시간 초과에 대한 것이 아닙니다.

문제가 있는 노드는 지속적인 isi_hangdump 루프의 증상을 보여줍니다.
주요 isi_hangdumps는 매 시간마다 대략 같은 시간에 발생합니다.

이로 인해 성능 문제가 발생할 수도 있습니다.

/var/log/messages의 유사한 메시지:

2021-04-04T01:30:50-04:00 cluster-24 isi_hangdump: Triggering clusterwide hangdump
2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: LOCK TIMEOUT AT 1617514250 UTC
2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: Hangdump after 752602 seconds: Ping timeout
2021-04-04T01:31:00-04:00 CLUSTER-24 isi_hangdump: END OF DUMP AT 1617514250 UTC
2021-04-04T01:31:00-04:00 CLUSTER-24 isi_hangdump: Initiating hangdump on 26 nodes...
2021-04-04T01:31:09-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:32:09-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:35:12-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:36:13-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:52:27-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:53:28-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)


The node 2 is triggering the hangdump and the difference is one hour
2020-08-20T00:53:48-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump
2020-08-20T01:53:49-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump  
2020-08-20T02:53:49-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump


or

Only the node 24 is triggering the hangdumps and the frequency is one hour:

CLUSTER-24# isi_for_array "grep -i triggering /var/log/messages | grep 2021-04"
CLUSTER-24:2021-04-01T00:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump
CLUSTER-24:2021-04-01T01:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump     
CLUSTER-24:2021-04-01T02:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump

The number of isi_hangdump processes can be 4 or 1.The expected number of isi_hangdump processes should be 2. 각 노드에서 실행 중인 isi_hangdump 프로세스의 수를 확인하려면 다음을 수행합니다.

# isi_for_array -s "ps awux | grep '[h]angdump'"


해결 방법은 isi_hangdump 서비스를 재시작하고 isi_hangdump 프로세스의 수를 확인하는 것입니다.
2가 아니면 노드 자체를 재시작합니다.

Příčina

isi_hangdump의 상위 또는 하위 프로세스가 실행되고 있지 않습니다.  하위(ping) 프로세스가 실행되고 있지 않은 경우 해당 노드는 내부 ping 메시지를 보내지 않으므로 hangdump가 트리거됩니다. 이로 인해 지속적으로 생성되는 hangdump로 인해 성능 문제가 발생할 수 있습니다.

Řešení

현재 해결 방법은 "isi_hangdump restart"를 실행하는 것입니다(아래 예 참조).

실패하면 노드를 재부팅하여 코어를 얻고 isi_hangdump 프로세스를 재시작합니다.

CLUSTER-1# ps -auwx | grep -i isi_hangdump
root    1015   0.0  0.6 437876  38928  -  S    25Mar21      0:57.01 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root    1016   0.0  0.5 398676  32200  -  S    25Mar21     20:05.60 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root   32228   0.0  0.0  12344   2616  0  S+   20:41        0:00.00 grep -i isi_hangdump

CLUSTER-1# isi_hangdump restart
CLUSTER-1# ps -auwx | grep -i isi_hangdump
root   32253   3.9  0.6 398808  35976  -  S    20:41        0:00.01 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump restart
root    1016   0.0  0.5 398676  32200  -  S    25Mar21     20:05.61 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root   32260   0.0  0.0  12344   2616  0  S+   20:41        0:00.00 grep -i isi_hangdump


그동안 엔지니어링 팀은 풀타임 해결 작업을 진행하고 있습니다.

Dotčené produkty

PowerScale OneFS
Vlastnosti článku
Číslo článku: 000185607
Typ článku: Solution
Poslední úprava: 12 led 2023
Verze:  6
Najděte odpovědi na své otázky od ostatních uživatelů společnosti Dell
Služby podpory
Zkontrolujte, zda se na vaše zařízení vztahují služby podpory.