Isilon: Jobb med å starte opp igjen langvarige sluttoppgaver

Summary: Jobber viser ikke progresjon på grunn av langvarige sluttoppgaver.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Dette problemet kan sees på alle jobber, vanligvis merking jobs(Collect, IntegrityScan) og restriping jobs(SmartPools, AB/ABL, FP/FPL).

Systemjobber viser kanskje ikke progresjon mens du arbeider med de siste aktivitetene per fase. 
Det vises hyppige forkasting av aktivitetsresultater ved gjennomgang isi_job_d.log etter hvert som oppgavene startes på nytt. 
Dette kan føre til at jobben aldri fullføres, ettersom én eller flere avsluttende oppgaver ikke kan fullføres før de deaktiveres.
Dette skjer av flere årsaker, for eksempel når en jobb med høyere prioritet i det samme ekskluderingssettet begynner å kjøre. 
Det kan også skyldes grensen for å kjøre jobber som nås, og en nyere høyere prioritert jobb begynner å kjøre. 
Andre mulige problemer kan være selve jobbmotoren eller klyngeproblemer som låsestrid, nodeoppdelinger, omstart/panikk for node, systemytelse og andre mulige årsaker. 

 

Cause

Se etter jobben som venter, eller kjører som fører til tilstandsendringer i jobben, og aktiviteter som startes på nytt.
Hvis du ser et høyt antall statusendringer som venter eller kjører, kan du se på jobben for å bekrefte prioriteten. 
Hvis andre jobber som starter har høyere prioritet (1 er høyeste prioritet), kan det føre til at jobben går til venting. 

Slik sjekker du live:

isi job events list --job-id=<JobID>
isi_for_array -sQ 'grep -hi "<JobName>.*Run\|<JobName>.*Wait" /var/log/messages' |sort -u |tail


Slik sjekker du inn logger:

zgrep -h '<JobName>.*Run\|<JobName>.*Wait' */varlog.tar/log/messages* |grep <JobID>|sort -u |tail

 

Noen ganger kan man se at samme oppgave-ID startes på nytt ofte, og at den ikke kan fullføres. 
Det er potensielt flere oppgave-IDer som starter på nytt ofte. 
I begge tilfeller må du kontrollere at jobben ikke settes i en ventende eller midlertidig stanset status som forårsaker de forkastede oppgavene med tidligere trinn. 

Se etter deaktiverte eller forkastede oppgaver som kan skyldes struping av jobbmotoren.


Slik sjekker du live:

isi_for_array -sQ 'grep -hi "deactivat\|discard" /var/log/isi_job_d.log' |grep <JobName> | sort -u | tail


Slik sjekker du inn logger:

grep -hi "deactivat\|discard" *-*/varlog.tar/log/isi_job_d.log* |grep <JobName> |sort -u|tail 


I dette eksemplet forkastes den samme oppgave-IDen for FlexProtectLin Jobben ser på "tid=28-1" I utdataene:

[martid32@elvis 2024-10-29_20-31]$ zgrep -hi "deactivat\|discard" *-*/varlog.tar/log/isi_job_d.log* |grep 'FlexProtectLin jid=6894' |sort -u |tail
2024-10-10T06:01:53.217905-05:00 <3.6> CLUSTER-22(id22) isi_job_d[92144]: Worker 12 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=57916 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-11T11:50:02.236664-05:00 <3.6> CLUSTER-5(id5) isi_job_d[79762]: Worker 77 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=60525 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-11T16:24:26.930667-05:00 <3.6> CLUSTER-7(id7) isi_job_d[68876]: Worker 21 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=58508 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-11T19:14:46.876445-05:00 <3.6> CLUSTER-11(id11) isi_job_d[28510]: Worker 39 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=60665 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-11T20:30:49.232915-05:00 <3.6> CLUSTER-8(id8) isi_job_d[58489]: Worker 20 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=74387 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-12T00:09:39.969852-05:00 <3.6> CLUSTER-26(id26) isi_job_d[12284]: Worker 13 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=58255 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-12T00:39:46.999158-05:00 <3.6> CLUSTER-2(id2) isi_job_d[78458]: Worker 485 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=58365 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-12T01:18:53.867843-05:00 <3.6> CLUSTER-11(id11) isi_job_d[28510]: Worker 53 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=60666 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-12T02:21:01.143101-05:00 <3.6> CLUSTER-28(id28) isi_job_d[11777]: Worker 18 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=58221 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-12T03:19:07.198836-05:00 <3.6> CLUSTER-1(id1) isi_job_d[87488]: Worker 561 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=60128 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }



Kommandoene nedenfor kan brukes til å bekrefte gjeldende antall oppgaver og hva de jobber med:

for i in $(isi job list|grep '^[0-9].*Running'|awk '{print $1}'); do isi job view $i; isi job statistics view -v --job-id=$i|grep -o 'Workers: [0-9]*'|sort |uniq -c; echo $(find /ifs/.ifsvar/modules/jobengine/cp/$i/tasks -type f | wc -l) tasks remaining; done;


Erstatte JOBID med JobID nummer for den aktuelle jobben:--

isi_for_array -XQ 'for n in $(sysctl efs.bam.busy_vnodes | grep "pid $(pgrep -f JOBID)" | egrep -o "[[:alnum:]]{1,4}:[[:alnum:]]{1,4}:[[:alnum:]]{1,4}"|sort|uniq); do isi get -L "$n" 2>&1; done' | grep -v 'job_d\|modules/jobengine' | sort | uniq -c

 

Resolution

Hvis du får bekreftet at jobben venter eller kjører ofte på grunn av at andre jobber starter, må du midlertidig endre til en høyere prioritet.

En prioritet på 2 kan brukes til å forhindre at jobber avbryter den aktuelle jobben, og kan returneres til standard når jobben er fullført.

Kontakt kundestøtte for å få hjelp, og referer til denne KB-artikkelen hvis jobben ser ut til å strupe arbeiderne, noe som fører til at oppgaven forkastes flere ganger. 

Affected Products

Isilon, Isilon Gen6.5, Isilon Gen6, PowerScale Archive A300, PowerScale Archive A3000, PowerScale B100, PowerScale Deep Chassis, PowerScale F200, PowerScale F600, PowerScale F900

Products

PowerScale, PowerScale OneFS, PowerScale Hybrid H700, PowerScale Hybrid H7000, PowerScale Normal Chassis, PowerScale P100
Article Properties
Article Number: 000267569
Article Type: Solution
Last Modified: 09 Dec 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.