PowerScale: Erfassen und MultiScan gewinnt keinen Speicherplatz auf ausgeschlossenen Geräten zurück
Summary: Erfassen und MultiScan schließt Geräte von der Suche aus, wenn sie während der Jobausführung nicht mehr verfügbar sind.
Symptoms
Dieser Wissensdatenbank-Artikel dient nur zum Ausführen oder abgeschlossenen Collect-Jobs oder MultiScan-Jobs mit Collect-Aufträgen.
Collect wird verwendet, um Blöcke freizugeben, die auf einem Gerät verblieben sind, während es nicht mehr verfügbar ist.
MultiScan führt zeitweise sowohl AutoBalance als auch Collect aus, um sicherzustellen, dass MultiScan Collect ausgeführt hat, indem der Job überprüft wird.
# isi job view <jobID#>
Während der Markierungsphase von Collect werden Blöcke für eine spätere Bereinigung markiert, sobald sie in die Aufräumphase eintreten.
In einigen Situationen kann es vorkommen, dass ein Gerät während der Markierungsphase vom Aufräumvorgang des Auftrags ausgeschlossen wird.
Dies kann dazu führen, dass das Cluster auch nach erfolgreichem Abschluss des Jobs unausgeglichene Nodes oder Laufwerke aufweist.
Der Job wird abgebrochen, wenn zu viele Laufwerke oder Nodes vom Job ausgeschlossen sind.
Cause
Wenn ein Gerät ausfällt oder nicht verfügbar ist, schließt der Job das Gerät aus der Aufräumphase aus.
Dies kann verschiedene Ursachen haben, z. B. einen Node-Neustart, einen Aus- und Einschaltvorgang oder eine Node-Aufteilung.
Bei Laufwerken kann dies passieren, wenn ein Laufwerk blockiert wird oder anderweitig nicht verfügbar ist.
Sollte ein Gerät während der Ausführung von Collect oder MultiScan nicht verfügbar sein, legt der Job es auf Folgendes fest bam_nosweep Liste ausgeschlossener Geräte.
Wenn der Job in die Aufräumphase übergeht, werden alle Blöcke auf den Geräten bereinigt, die NICHT zum bam_nosweep Ausschlussliste.
Dies kann dazu führen, dass Nodes oder Laufwerke mit einer höheren Kapazitätsauslastung unausgeglichen bleiben, nachdem der Job erfolgreich abgeschlossen wurde.
Beispiel 1 zeigt eine devid, die im Nachrichtenprotokoll ausgeschlossen ist, angezeigt als devid 28.
2025-03-08T22:09:15.238162-08:00 <0.5> EXAMPLE-1(id25) /boot/kernel.amd64/kernel: [bam_nosweep.c:298](pid 63766="isi_job_d")(tid=104229) bam_nosweep_add_devices: Exclude set { devids (1) = [ 28 ], wdls = [] }
Beispiel 2 zeigt, dass ein Zeitstempel eines Laufwerks in devid 18 ausgeschlossen wird, gefolgt von einem Laufwerk in devid 24.
2024-11-04T16:20:33.664254-07:00 <0.5> EXAMPLE-12(id12) /boot/kernel.amd64/kernel: [bam_nosweep.c:298](pid 83067="isi_job_d")(tid=103674) bam_nosweep_add_devices: Exclude set { devids (0) = [], wdls (1) = [ (d: 18, unm:00000040 ] }
2024-11-04T17:06:21.738071-08:00 <0.5> EXAMPLE-12(id12) /boot/kernel.amd64/kernel: [bam_nosweep.c:298](pid 83067="isi_job_d")(tid=103674) bam_nosweep_add_devices: Exclude set { devids (0) = [], wdls (2) = [ (d: 18, unm:00000040, (d: 24, unm:00000020 ] }
Beispiel für die Abbruchung der Erfassung aufgrund des Prozentsatzes der Geräte, die aufgrund von 28,1 % der ausgeschlossenen Geräte ausgeschlossen wurden; der Grenzwert liegt bei 25 %.
2025-11-04T14:08:28.356984+01:00 <0.5> EXAMPLE-8(id8) /boot/kernel.amd64/kernel: [bam_mark.c:1923](pid 3646="isi_job_d")(tid=101140) Mark not permitted with 28.1% of 32 nodes excluded (limit 25.0%)
2025-11-04T14:08:28.356994+01:00 <0.5> EXAMPLE-8(id8) /boot/kernel.amd64/kernel: [bam_mark.c:1837](pid 3646="isi_job_d")(tid=101140) Updated mark for cookie 19:none with error 85
2025-11-04T14:08:28.359093+01:00 <0.5> EXAMPLE-8(id8) /boot/kernel.amd64/kernel: [drv.c:1499](pid 67605="python3.8")(tid=102284) Drive sync in progress for ldnum 21
2025-11-04T14:08:28.365281+01:00 <0.5> EXAMPLE-8(id8) /boot/kernel.amd64/kernel: [lin_mark.c:376](pid 3646="isi_job_d")(tid=101140) lin_end_mark: Ending lin mark (error ECANCELED).
2025-11-04T14:08:28.365300+01:00 <0.5> EXAMPLE-8(id8) /boot/kernel.amd64/kernel: [lin_mark.c:398](pid 3646="isi_job_d")(tid=101140) lin_end_mark: Mark already canceled. (current group: <1,2770> current mark state: LIN_COLLECT_GOOD
Resolution
Wenn das Gerät, das durchsucht werden muss, ausgeschlossen wurde, muss ein neuer Auftrag gestartet werden.
Wenn ein anderes Problem dazu führt, dass das Gerät häufig nicht verfügbar ist, muss dies weiter untersucht werden.