Isilon: Job wird neu gestartet, lange andauernde abschließende Aufgaben

Summary: Jobs zeigen aufgrund von lang andauernden abschließenden Aufgaben keinen Fortschritt an.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Dieses Problem tritt bei allen Aufträgen auf, am häufigsten bei der Markierung jobs(Collect, IntegrityScan) und restriping jobs(SmartPools, AB/ABL, FP/FPL)aus.

Systemjobs zeigen bei der Bearbeitung der letzten paar Aufgaben pro Phase möglicherweise keinen Fortschritt an. 
Ergebnisse von häufig verworfenen Aufgaben werden bei der Überprüfung angezeigt isi_job_d.log während die Aufgaben neu gestartet werden. 
Dies kann dazu führen, dass der Job nie abgeschlossen wird, da eine oder mehrere abschließende Aufgaben nicht abgeschlossen werden können, bevor sie deaktiviert werden.
Dies geschieht aus verschiedenen Gründen, z. B. wenn die Ausführung eines Jobs mit höherer Priorität im selben Ausschlusssatz beginnt. 
Dies kann auch darauf zurückzuführen sein, dass das Limit für ausgeführte Jobs erreicht wird und die Ausführung eines neueren Jobs mit höherer Priorität beginnt. 
Andere mögliche Probleme können Probleme mit der Job-Engine selbst oder Clustern sein, z. B. Sperrkonflikte, Node-Splits, Node-Neustarts/-Fehler, Systemleistung und andere mögliche Ursachen. 

 

Cause

Prüfen Sie, ob der Job in Wartestellung geht oder ausgeführt wird, was zu Statusänderungen im Job und zum Neustart von Aufgaben führen würde.
Wenn eine hohe Anzahl von Statusänderungen in "Waiting or Running" angezeigt wird, überprüfen Sie den Job, um die Priorität zu bestätigen. 
Wenn andere gestartete Jobs eine höhere Priorität haben (1 ist die höchste Priorität), kann dies dazu führen, dass der Job in den Wartezustand wechselt. 

So überprüfen Sie live:

isi job events list --job-id=<JobID>
isi_for_array -sQ 'grep -hi "<JobName>.*Run\|<JobName>.*Wait" /var/log/messages' |sort -u |tail


So checken Sie Protokolle ein:

zgrep -h '<JobName>.*Run\|<JobName>.*Wait' */varlog.tar/log/messages* |grep <JobID>|sort -u |tail

 

Manchmal wird dieselbe Aufgaben-ID häufig neu gestartet und kann nicht erfolgreich abgeschlossen werden. 
Möglicherweise gibt es mehrere Aufgaben-IDs, die häufig neu gestartet werden. 
Stellen Sie in beiden Fällen sicher, dass der Job nicht in den Status "Waiting" oder "Paused" versetzt wird, was dazu führt, dass die mit vorherigen Schritten verworfenen Aufgaben verworfen werden. 

Suchen Sie nach deaktivierten oder verworfenen Aufgaben, die auf die Drosselung der Job-Engine zurückzuführen sein könnten.


So überprüfen Sie live:

isi_for_array -sQ 'grep -hi "deactivat\|discard" /var/log/isi_job_d.log' |grep <JobName> | sort -u | tail


So checken Sie Protokolle ein:

grep -hi "deactivat\|discard" *-*/varlog.tar/log/isi_job_d.log* |grep <JobName> |sort -u|tail 


In diesem Beispiel wird die gleiche Aufgaben-ID für die FlexProtectLin Job schaut sich an "tid=28-1" In der Ausgabe:

[martid32@elvis 2024-10-29_20-31]$ zgrep -hi "deactivat\|discard" *-*/varlog.tar/log/isi_job_d.log* |grep 'FlexProtectLin jid=6894' |sort -u |tail
2024-10-10T06:01:53.217905-05:00 <3.6> CLUSTER-22(id22) isi_job_d[92144]: Worker 12 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=57916 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-11T11:50:02.236664-05:00 <3.6> CLUSTER-5(id5) isi_job_d[79762]: Worker 77 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=60525 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-11T16:24:26.930667-05:00 <3.6> CLUSTER-7(id7) isi_job_d[68876]: Worker 21 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=58508 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-11T19:14:46.876445-05:00 <3.6> CLUSTER-11(id11) isi_job_d[28510]: Worker 39 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=60665 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-11T20:30:49.232915-05:00 <3.6> CLUSTER-8(id8) isi_job_d[58489]: Worker 20 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=74387 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-12T00:09:39.969852-05:00 <3.6> CLUSTER-26(id26) isi_job_d[12284]: Worker 13 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=58255 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-12T00:39:46.999158-05:00 <3.6> CLUSTER-2(id2) isi_job_d[78458]: Worker 485 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=58365 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-12T01:18:53.867843-05:00 <3.6> CLUSTER-11(id11) isi_job_d[28510]: Worker 53 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=60666 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-12T02:21:01.143101-05:00 <3.6> CLUSTER-28(id28) isi_job_d[11777]: Worker 18 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=58221 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }
2024-10-12T03:19:07.198836-05:00 <3.6> CLUSTER-1(id1) isi_job_d[87488]: Worker 561 Stopped: (task_state_clean, 614) FlexProtectLin[6894].0: Discarding unsent task result: { task_result={ jtid=FlexProtectLin jid=6894 phase=0 tid=28-1 rid=60128 ready=false errors=[] } data={ lins=0 files=0 dirs=0 blocks=0 lins_processed=0 sins=0 sins_processed=0 } start_linsid=0::INVALID end_linsid=0::INVALID }



Die folgenden Befehle können verwendet werden, um die aktuelle Anzahl von Aufgaben und die Arbeit zu überprüfen:

for i in $(isi job list|grep '^[0-9].*Running'|awk '{print $1}'); do isi job view $i; isi job statistics view -v --job-id=$i|grep -o 'Workers: [0-9]*'|sort |uniq -c; echo $(find /ifs/.ifsvar/modules/jobengine/cp/$i/tasks -type f | wc -l) tasks remaining; done;


Ersetzen JOBID mit dem JobID Nummer für die betreffende Stelle:

isi_for_array -XQ 'for n in $(sysctl efs.bam.busy_vnodes | grep "pid $(pgrep -f JOBID)" | egrep -o "[[:alnum:]]{1,4}:[[:alnum:]]{1,4}:[[:alnum:]]{1,4}"|sort|uniq); do isi get -L "$n" 2>&1; done' | grep -v 'job_d\|modules/jobengine' | sort | uniq -c

 

Resolution

Wenn bestätigt wird, dass der Job wartet oder häufig ausgeführt wird, weil andere Jobs gestartet werden, ändern Sie ihn vorübergehend in eine höhere Priorität.

Die Priorität 2 kann verwendet werden, um zu verhindern, dass Jobs den betreffenden Job unterbrechen, und kann auf die Standardeinstellung zurückgesetzt werden, sobald der Job abgeschlossen ist.

Wenden Sie sich an den Support, um Unterstützung zu erhalten, und lesen Sie diesen Wissensdatenbank-Artikel, wenn der Job die Worker zu drosseln scheint, was dazu führt, dass die Aufgabe mehrmals verworfen wird. 

Affected Products

Isilon, Isilon Gen6.5, Isilon Gen6, PowerScale Archive A300, PowerScale Archive A3000, PowerScale B100, PowerScale Deep Chassis, PowerScale F200, PowerScale F600, PowerScale F900

Products

PowerScale, PowerScale OneFS, PowerScale Hybrid H700, PowerScale Hybrid H7000, PowerScale Normal Chassis, PowerScale P100
Article Properties
Article Number: 000267569
Article Type: Solution
Last Modified: 09 Dec 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.