PowerScale (Isilon). Дочерний или родительский процесс isi_hangdump не выполняется на одном или нескольких узлах. (Gen5, Gen6, Gen6.5)

Shrnutí: В этой статье представлен обзор решения проблем с большим количеством сообщений isi_hangdump в /var/log/messages. Резюме Дочерний или родительский процесс isi_hangdump не выполняется на одном или нескольких узлах. Для правильной работы isi_hangdump должны выполняться родительский и дочерний процессы. ...

Tento článek se vztahuje na Tento článek se nevztahuje na Tento článek není vázán na žádný konkrétní produkt. V tomto článku nejsou uvedeny všechny verze produktu.

Příznaky

Несколько узлов сообщают об истечении времени ожидания отклика ping, возможно, от одного конкретного узла.
ПРИМЕЧАНИЕ. Это не относится к истечению времени ожидания ping RBM

Проблемный узел демонстрирует признаки непрерывной петли isi_hangdump.
Большая часть сообщений isi_hangdump появляется примерно в одно и то же время каждый час.

Это также может привести к проблемам с производительностью.

Аналогичные сообщения в /var/log/messages:

2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump
2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: LOCK TIMEOUT AT 1617514250 UTC
2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: Hangdump after 752602 seconds: Ping timeout
2021-04-04T01:31:00-04:00 CLUSTER-24 isi_hangdump: END OF DUMP AT 1617514250 UTC
2021-04-04T01:31:00-04:00 CLUSTER-24 isi_hangdump: Initiating hangdump on 26 nodes...
2021-04-04T01:31:09-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:32:09-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:35:12-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:36:13-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:52:27-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:53:28-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)


Узел 2 также генерирует сообщение hangdump с разницей в 1 час
2020-08-20T00:53:48-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump
2020-08-20T01:53:49-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump  
2020-08-20T02:53:49-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump


или

Только узел 24 генерирует сообщения hangdump с частотой в 1 час:

CLUSTER-24# isi_for_array "grep -i triggering /var/log/messages | grep 2021-04"
CLUSTER-24:2021-04-01T00:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump
CLUSTER-24:2021-04-01T01:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump     
CLUSTER-24:2021-04-01T02:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump

Количество процессов isi_hangdump может быть 4 или 1.Ожидаемое количество процессов isi_hangdump — 2. Чтобы узнать, сколько процессов isi_hangdump выполняется на каждом узле:

# isi_for_array -s "ps awux | grep '[h]angdump'"


Решение заключается в перезапуске службы isi_hangdump и проверке количества процессов isi_hangdump.
Если их не 2, перезапустите сам узел.

Příčina

Родительский или дочерний процесс isi_hangdump не выполняется.  Если дочерний (ping) процесс не выполняется, то этот узел не будет отправлять внутренние сообщения ping, что приведет к инициированию дампов hangdump. Это может привести к проблемам с производительностью из-за непрерывного создания дампов hangdump.

Řešení

В настоящее время решение заключается в выполнении команды «isi_hangdump restart» (как показано в примере ниже).

Если это не сработает, перезагрузите узел, чтобы ядра начали работать, и перезапустите процесс isi_hangdump.

CLUSTER-1# ps -auwx | grep -i isi_hangdump
root    1015   0.0  0.6 437876  38928  -  S    25Mar21      0:57.01 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root    1016   0.0  0.5 398676  32200  -  S    25Mar21     20:05.60 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root   32228   0.0  0.0  12344   2616  0  S+   20:41        0:00.00 grep -i isi_hangdump

CLUSTER-1# isi_hangdump restart
CLUSTER-1# ps -auwx | grep -i isi_hangdump
root   32253   3.9  0.6 398808  35976  -  S    20:41        0:00.01 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump restart
root    1016   0.0  0.5 398676  32200  -  S    25Mar21     20:05.61 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root   32260   0.0  0.0  12344   2616  0  S+   20:41        0:00.00 grep -i isi_hangdump


В настоящее время инженерный отдел работает над окончательным решением.

Dotčené produkty

PowerScale OneFS
Vlastnosti článku
Číslo článku: 000185607
Typ článku: Solution
Poslední úprava: 12 led 2023
Verze:  6
Najděte odpovědi na své otázky od ostatních uživatelů společnosti Dell
Služby podpory
Zkontrolujte, zda se na vaše zařízení vztahují služby podpory.