PowerScale: Samla in och multiskanna återtar inte utrymme på utesluten enhet
Summary: Collect and MultiScan undantar enheter från genomsökning om de blir otillgängliga under jobbkörningen.
Symptoms
Den här kunskapsbasartikeln är endast avsedd för att köra eller slutföra Collect-jobb eller MultiScan-jobb som körde Collect i dem.
Collect används för att frigöra block som lämnats kvar på en enhet när den blivit otillgänglig.
MultiScan kör ibland både AutoBalance och Collect för att säkerställa att MultiScan körde Collect genom att markera jobbet.
# isi job view <jobID#>
Under markeringsfasen av Collect markeras block för senare rensning när det går in i sopfasen.
I vissa situationer kan en enhet uteslutas från jobbets sopfunktion under markeringsfasen.
Det kan leda till att klustret får obalanserade noder eller enheter även efter att jobbet har slutförts.
Jobbet avbryts om för många enheter eller noder undantas från jobbet.
Cause
Om en enhet slutar fungera eller inte är tillgänglig undantar jobbet enheten från rensningsfasen.
Detta kan bero på olika orsaker, till exempel en omstart av noden, strömcykel, noddelning.
Med enheter kan detta inträffa om en enhet stannar eller på annat sätt blir otillgänglig.
Om en enhet blir otillgänglig när du kör Collect eller MultiScan ställs jobbet in den på bam_nosweep Lista över uteslutna enheter.
När jobbet går in i rensningsfasen fungerar det att rensa alla block på enheterna som INTE har lagts till i bam_nosweep utesluten lista.
Detta kan leda till att noder eller drivenheter förblir i obalans med ett högre kapacitetsutnyttjande efter att jobbet har slutförts.
Exempel 1 visar en devid utesluten i meddelandeloggen, som visas som devid 28.
2025-03-08T22:09:15.238162-08:00 <0.5> EXAMPLE-1(id25) /boot/kernel.amd64/kernel: [bam_nosweep.c:298](pid 63766="isi_job_d")(tid=104229) bam_nosweep_add_devices: Exclude set { devids (1) = [ 28 ], wdls = [] }
Exempel 2 visar en tidsstämpel för en enhet i devid 18 som utesluts, följt av en enhet i devid 24.
2024-11-04T16:20:33.664254-07:00 <0.5> EXAMPLE-12(id12) /boot/kernel.amd64/kernel: [bam_nosweep.c:298](pid 83067="isi_job_d")(tid=103674) bam_nosweep_add_devices: Exclude set { devids (0) = [], wdls (1) = [ (d: 18, unm:00000040 ] }
2024-11-04T17:06:21.738071-08:00 <0.5> EXAMPLE-12(id12) /boot/kernel.amd64/kernel: [bam_nosweep.c:298](pid 83067="isi_job_d")(tid=103674) bam_nosweep_add_devices: Exclude set { devids (0) = [], wdls (2) = [ (d: 18, unm:00000040, (d: 24, unm:00000020 ] }
Exempel på insamling som avbryts på grund av procentandelen enheter som utesluts på grund av att 28,1 % av enheterna exkluderas, gränsen är 25 %.
2025-11-04T14:08:28.356984+01:00 <0.5> EXAMPLE-8(id8) /boot/kernel.amd64/kernel: [bam_mark.c:1923](pid 3646="isi_job_d")(tid=101140) Mark not permitted with 28.1% of 32 nodes excluded (limit 25.0%)
2025-11-04T14:08:28.356994+01:00 <0.5> EXAMPLE-8(id8) /boot/kernel.amd64/kernel: [bam_mark.c:1837](pid 3646="isi_job_d")(tid=101140) Updated mark for cookie 19:none with error 85
2025-11-04T14:08:28.359093+01:00 <0.5> EXAMPLE-8(id8) /boot/kernel.amd64/kernel: [drv.c:1499](pid 67605="python3.8")(tid=102284) Drive sync in progress for ldnum 21
2025-11-04T14:08:28.365281+01:00 <0.5> EXAMPLE-8(id8) /boot/kernel.amd64/kernel: [lin_mark.c:376](pid 3646="isi_job_d")(tid=101140) lin_end_mark: Ending lin mark (error ECANCELED).
2025-11-04T14:08:28.365300+01:00 <0.5> EXAMPLE-8(id8) /boot/kernel.amd64/kernel: [lin_mark.c:398](pid 3646="isi_job_d")(tid=101140) lin_end_mark: Mark already canceled. (current group: <1,2770> current mark state: LIN_COLLECT_GOOD
Resolution
Om den enhet som behöver sopas har uteslutits måste ett nytt jobb startas.
Om ett annat problem gör att enheten blir otillgänglig ofta måste det undersökas ytterligare.