Isilon. Перезапуск длительных финальных задач

Summary: Задания не показывают ход выполнения из-за длительного выполнения финальных задач.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Эта проблема может наблюдаться на всех заданиях, чаще всего на маркировке jobs(Collect, IntegrityScan) и restriping jobs(SmartPools, AB/ABL, FP/FPL).

Системные задания могут не отображать ход выполнения при работе над несколькими последними задачами на этапе. 
При просмотре часто отображаются результаты отбрасываемых задач isi_job_d.log при перезапуске задач. 
Это может привести к тому, что задание никогда не будет завершено, так как одна или несколько финальных задач не успеют завершить до деактивации.
Это происходит по нескольким причинам, например при запуске задания с более высоким приоритетом в том же наборе исключений. 
Это также может быть связано с тем, что достигнуто предельное количество запущенных заданий и начинается выполнение нового задания с более высоким приоритетом. 
Другие возможные проблемы могут быть связаны с самим модулем заданий или проблемами кластера, такими как борьба за блокировку, разделение узлов, перезагрузка/критическая ошибка узлов, производительность системы и другие возможные причины. 

 

Cause

Проверьте, не находится ли задание в режиме ожидания или не выполняется, что может привести к изменениям состояния задания и перезапуску задач.
Если вы видите большое количество ожидающих или выполняющихся изменений состояния, просмотрите задание для подтверждения приоритета. 
Если другие запускаемые задания имеют более высокий приоритет (1 — наивысший приоритет), это может привести к переходу задания в режим ожидания. 

Для проверки в режиме реального времени:

isi job events list --job-id=<JobID>
isi_for_array -sQ 'grep -hi "<JobName>.*Run\|<JobName>.*Wait" /var/log/messages' |sort -u |tail


Для возврата журналов выполните следующие действия.

zgrep -h '<JobName>.*Run\|<JobName>.*Wait' */varlog.tar/log/messages* |grep <JobID>|sort -u |tail

 

Иногда одна и та же задача с идентификатором часто перезапускается и не может быть успешно завершена. 
Потенциально существует несколько идентификаторов задач, которые могут часто перезапускаться. 
В любом случае убедитесь, что задача не переходит в состояние ожидания или приостановки, что приводит к отмене задач после выполнения предыдущих шагов. 

Проверьте наличие деактивированных или отмененных задач, которые могут быть вызваны регулированием модуля заданий.


Для проверки в режиме реального времени:

isi_for_array -sQ 'grep -hi "deactivat\|discard" /var/log/isi_job_d.log' |grep <JobName> | sort -u | tail


Для возврата журналов выполните следующие действия.

grep -hi "deactivat\|discard" *-*/varlog.tar/log/isi_job_d.log* |grep <JobName> |sort -u|tail 


В этом примере тот же идентификатор задачи отбрасывается для FlexProtectLin Иов смотрит на "tid=28-1" В выходных данных:

[martid32@elvis 2024-10-29_20-31]$ zgrep -hi "deactivat\|discard" *-*/varlog.tar/log/isi_job_d.log* |grep 'FlexProtectLin jid=6894' |sort -u |tail
2024-10-10T06:01:53.217905-05:00 <3.6> CLUSTER-22(id22) isi_job_d[92144]: Worker 12 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=57916 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-11T11:50:02.236664-05:00 <3.6> CLUSTER-5(id5) isi_job_d[79762]: Worker 77 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=60525 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-11T16:24:26.930667-05:00 <3.6> CLUSTER-7(id7) isi_job_d[68876]: Worker 21 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=58508 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-11T19:14:46.876445-05:00 <3.6> CLUSTER-11(id11) isi_job_d[28510]: Worker 39 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=60665 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-11T20:30:49.232915-05:00 <3.6> CLUSTER-8(id8) isi_job_d[58489]: Worker 20 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=74387 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-12T00:09:39.969852-05:00 <3.6> CLUSTER-26(id26) isi_job_d[12284]: Worker 13 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=58255 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-12T00:39:46.999158-05:00 <3.6> CLUSTER-2(id2) isi_job_d[78458]: Worker 485 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=58365 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-12T01:18:53.867843-05:00 <3.6> CLUSTER-11(id11) isi_job_d[28510]: Worker 53 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=60666 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-12T02:21:01.143101-05:00 <3.6> CLUSTER-28(id28) isi_job_d[11777]: Worker 18 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=58221 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-12T03:19:07.198836-05:00 <3.6> CLUSTER-1(id1) isi_job_d[87488]: Worker 561 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=60128 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }



Следующие команды можно использовать для подтверждения текущего количества задач и того, над чем они работают:

for i in $(isi job list|grep '^[0-9].*Running'|awk '{print $1}'); do isi job view $i; isi job statistics view -v --job-id=$i|grep -o 'Workers: [0-9]*'|sort |uniq -c; echo $(find /ifs/.ifsvar/modules/jobengine/cp/$i/tasks -type f | wc -l) tasks remaining; done;


Заменять JOBID с помощью JobID Номер для рассматриваемой работы:

isi_for_array -XQ 'for n in $(sysctl efs.bam.busy_vnodes | grep "pid $(pgrep -f JOBID)" | egrep -o "[[:alnum:]]{1,4}:[[:alnum:]]{1,4}:[[:alnum:]]{1,4}"|sort|uniq); do isi get -L "$n" 2>&1; done' | grep -v 'job_d\|modules/jobengine' | sort | uniq -c

 

Resolution

Если подтверждено, что задание часто ожидает или выполняется из-за запуска других заданий, временно измените его на более высокий приоритет.

Приоритет 2 может использоваться для предотвращения прерывания заданий и может быть возвращен к значениям по умолчанию после завершения задания.

Обратитесь в службу поддержки за помощью и укажите эту статью базы знаний, если задание регулирует рабочие роли, что приводит к тому, что задача отбрасывается несколько раз. 

Affected Products

Isilon, Isilon Gen6.5, Isilon Gen6, PowerScale Archive A300, PowerScale Archive A3000, PowerScale B100, PowerScale Deep Chassis, PowerScale F200, PowerScale F600, PowerScale F900

Products

PowerScale, PowerScale OneFS, PowerScale Hybrid H700, PowerScale Hybrid H7000, PowerScale Normal Chassis, PowerScale P100
Article Properties
Article Number: 000267569
Article Type: Solution
Last Modified: 09 Dec 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.