Isilon: Zadanie ponownego uruchamiania długotrwałych zadań końcowych

Summary: Zadania nie wykazują postępu ze względu na długotrwałe zadania końcowe.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Ten problem można zaobserwować we wszystkich zadaniach, najczęściej oznaczając jobs(Collect, IntegrityScan) i restriping jobs(SmartPools, AB/ABL, FP/FPL).

Zadania systemowe mogą nie pokazywać postępu podczas pracy nad kilkoma ostatnimi zadaniami na fazę. 
Podczas przeglądania można zaobserwować częste odrzucanie wyników zadania isi_job_d.log po ponownym uruchomieniu zadań. 
Może to doprowadzić do tego, że zadanie nigdy się nie ukończy, ponieważ co najmniej jedno zadanie końcowe nie zostanie ukończone przed dezaktywacją.
Dzieje się tak z kilku powodów, takich jak rozpoczęcie uruchamiania zadania o wyższym priorytecie w tym samym zestawie wykluczeń. 
Może to być również spowodowane osiągnięciem limitu uruchomionych zadań i rozpoczęciem uruchamiania nowszego zadania o wyższym priorytecie. 
Innymi możliwymi problemami mogą być sam silnik zadań lub problemy z klastrem, takie jak rywalizacja o blokowanie, podziały węzłów, ponowne uruchomienia/awarie węzłów, wydajność systemu i inne możliwe przyczyny. 

 

Cause

Sprawdź, czy zadanie oczekuje lub jest uruchomione, co spowodowałoby zmiany stanu w zadaniu i ponowne uruchomienie zadań.
Jeśli widzisz dużą liczbę oczekujących lub uruchomionych zmian stanu, przyjrzyj się zadaniu, aby potwierdzić priorytet. 
Jeśli inne uruchamiane zadania mają wyższy priorytet (1 oznacza najwyższy priorytet), może to spowodować, że zadanie przejdzie do oczekiwania. 

Aby sprawdzić na żywo:

isi job events list --job-id=<JobID>
isi_for_array -sQ 'grep -hi "<JobName>.*Run\|<JobName>.*Wait" /var/log/messages' |sort -u |tail


Aby zaewidencjonować dzienniki:

zgrep -h '<JobName>.*Run\|<JobName>.*Wait' */varlog.tar/log/messages* |grep <JobID>|sort -u |tail

 

Czasami ten sam identyfikator zadania jest często uruchamiany ponownie i nie można go pomyślnie ukończyć. 
Potencjalnie istnieje kilka identyfikatorów zadań, które często uruchamiają się ponownie. 
W obu przypadkach upewnij się, że zadanie nie jest przełączane w stan oczekiwania lub wstrzymania, powodując odrzucenie zadań z poprzednimi krokami. 

Sprawdź, czy nie ma dezaktywowanych lub odrzuconych zadań, które mogą być spowodowane ograniczaniem pracy mechanizmu zadań.


Aby sprawdzić na żywo:

isi_for_array -sQ 'grep -hi "deactivat\|discard" /var/log/isi_job_d.log' |grep <JobName> | sort -u | tail


Aby zaewidencjonować dzienniki:

grep -hi "deactivat\|discard" *-*/varlog.tar/log/isi_job_d.log* |grep <JobName> |sort -u|tail 


W tym przykładzie ten sam identyfikator zadania jest odrzucany dla FlexProtectLin Job patrzy na "tid=28-1" Na wyjściu:

[martid32@elvis 2024-10-29_20-31]$ zgrep -hi "deactivat\|discard" *-*/varlog.tar/log/isi_job_d.log* |grep 'FlexProtectLin jid=6894' |sort -u |tail
2024-10-10T06:01:53.217905-05:00 <3.6> CLUSTER-22(id22) isi_job_d[92144]: Worker 12 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=57916 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-11T11:50:02.236664-05:00 <3.6> CLUSTER-5(id5) isi_job_d[79762]: Worker 77 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=60525 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-11T16:24:26.930667-05:00 <3.6> CLUSTER-7(id7) isi_job_d[68876]: Worker 21 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=58508 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-11T19:14:46.876445-05:00 <3.6> CLUSTER-11(id11) isi_job_d[28510]: Worker 39 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=60665 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-11T20:30:49.232915-05:00 <3.6> CLUSTER-8(id8) isi_job_d[58489]: Worker 20 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=74387 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-12T00:09:39.969852-05:00 <3.6> CLUSTER-26(id26) isi_job_d[12284]: Worker 13 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=58255 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-12T00:39:46.999158-05:00 <3.6> CLUSTER-2(id2) isi_job_d[78458]: Worker 485 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=58365 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-12T01:18:53.867843-05:00 <3.6> CLUSTER-11(id11) isi_job_d[28510]: Worker 53 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=60666 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-12T02:21:01.143101-05:00 <3.6> CLUSTER-28(id28) isi_job_d[11777]: Worker 18 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=58221 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-12T03:19:07.198836-05:00 <3.6> CLUSTER-1(id1) isi_job_d[87488]: Worker 561 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=60128 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }



Poniższe polecenia mogą służyć do potwierdzania aktualnej liczby zadań i tego, nad czym pracują:

for i in $(isi job list|grep '^[0-9].*Running'|awk '{print $1}'); do isi job view $i; isi job statistics view -v --job-id=$i|grep -o 'Workers: [0-9]*'|sort |uniq -c; echo $(find /ifs/.ifsvar/modules/jobengine/cp/$i/tasks -type f | wc -l) tasks remaining; done;


Zastąpić JOBID z JobID numer dla danej pracy: --

isi_for_array -XQ 'for n in $(sysctl efs.bam.busy_vnodes | grep "pid $(pgrep -f JOBID)" | egrep -o "[[:alnum:]]{1,4}:[[:alnum:]]{1,4}:[[:alnum:]]{1,4}"|sort|uniq); do isi get -L "$n" 2>&1; done' | grep -v 'job_d\|modules/jobengine' | sort | uniq -c

 

Resolution

Jeśli potwierdzisz, że zadanie czeka lub jest często uruchamiane z powodu uruchamiania innych zadań, tymczasowo zmień priorytet na wyższy.

Priorytet 2 może służyć do zapobiegania przerywaniu zadania i może zostać przywrócony do wartości domyślnej po zakończeniu zadania.

Skontaktuj się z pomocą techniczną, aby uzyskać pomoc i zapoznaj się z tym artykułem bazy wiedzy, jeśli zadanie wydaje się ograniczać pracowników, powodując wielokrotne odrzucanie zadania. 

Affected Products

Isilon, Isilon Gen6.5, Isilon Gen6, PowerScale Archive A300, PowerScale Archive A3000, PowerScale B100, PowerScale Deep Chassis, PowerScale F200, PowerScale F600, PowerScale F900

Products

PowerScale, PowerScale OneFS, PowerScale Hybrid H700, PowerScale Hybrid H7000, PowerScale Normal Chassis, PowerScale P100
Article Properties
Article Number: 000267569
Article Type: Solution
Last Modified: 09 Dec 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.