PowerScale: Funkcja zbierania i MultiScan nie odzyskuje miejsca na wykluczonym urządzeniu
Summary: Funkcja Collect i MultiScan wyklucza urządzenia z przeglądu, jeśli będą one niedostępne podczas wykonywania zadania.
Symptoms
Ta baza wiedzy jest przeznaczona tylko do uruchamiania lub ukończonych zadań Collect lub zadań MultiScan, które uruchomiły w nich Collect.
Zbieranie służy do zwalniania bloków pozostawionych na urządzeniu, gdy stało się ono niedostępne.
Funkcja MultiScan czasami uruchamia zarówno funkcję AutoBalance, jak i Collect, aby upewnić się, że funkcja MultiScan uruchomiła Collect, sprawdzając zadanie.
# isi job view <jobID#>
Podczas fazy znakowania Collect, bloki są oznaczane do późniejszego oczyszczenia po wejściu w fazę oczyszczania.
W niektórych sytuacjach urządzenie może zostać wykluczone z operacji przeglądu zadania podczas fazy znakowania.
Może to pozostawić klaster z niezrównoważonymi węzłami lub dyskami nawet po pomyślnym zakończeniu zadania.
Zadanie zostanie anulowane, jeśli zbyt wiele dysków lub węzłów zostanie z niego wykluczonych.
Cause
W przypadku, gdy urządzenie ulegnie awarii lub będzie niedostępne, zadanie wyklucza urządzenie z fazy przeglądu.
Może to być spowodowane różnymi przyczynami, takimi jak ponowne uruchomienie węzła, cykl zasilania, podział węzła.
W przypadku dysków może się to zdarzyć, jeśli dysk zatrzyma się lub w inny sposób będzie niedostępny.
Jeśli urządzenie będzie niedostępne podczas uruchamiania funkcji Collect lub MultiScan, zadanie ustawi je na: bam_nosweep Lista wykluczonych urządzeń.
Gdy zadanie wejdzie w fazę przeglądu, działa w celu zamiatania wszystkich bloków na urządzeniach, które NIE zostały dodane do bam_nosweep wykluczona lista.
Może to prowadzić do tego, że węzły lub dyski pozostają niezrównoważone przy wyższym wykorzystaniu pojemności po pomyślnym zakończeniu zadania.
Przykład 1 pokazuje jednego devida wykluczonego z dziennika komunikatów, pokazanego jako devid 28.
2025-03-08T22:09:15.238162-08:00 <0.5> EXAMPLE-1(id25) /boot/kernel.amd64/kernel: [bam_nosweep.c:298](pid 63766="isi_job_d")(tid=104229) bam_nosweep_add_devices: Exclude set { devids (1) = [ 28 ], wdls = [] }
Przykład 2 pokazuje jeden znacznik czasu wykluczenia dysku w devid 18, a następnie dysk w devid 24.
2024-11-04T16:20:33.664254-07:00 <0.5> EXAMPLE-12(id12) /boot/kernel.amd64/kernel: [bam_nosweep.c:298](pid 83067="isi_job_d")(tid=103674) bam_nosweep_add_devices: Exclude set { devids (0) = [], wdls (1) = [ (d: 18, unm:00000040 ] }
2024-11-04T17:06:21.738071-08:00 <0.5> EXAMPLE-12(id12) /boot/kernel.amd64/kernel: [bam_nosweep.c:298](pid 83067="isi_job_d")(tid=103674) bam_nosweep_add_devices: Exclude set { devids (0) = [], wdls (2) = [ (d: 18, unm:00000040, (d: 24, unm:00000020 ] }
Przykład anulowania zbierania z powodu odsetka wykluczonych urządzeń z powodu wykluczenia 28,1% urządzeń, limit wynosi 25%.
2025-11-04T14:08:28.356984+01:00 <0.5> EXAMPLE-8(id8) /boot/kernel.amd64/kernel: [bam_mark.c:1923](pid 3646="isi_job_d")(tid=101140) Mark not permitted with 28.1% of 32 nodes excluded (limit 25.0%)
2025-11-04T14:08:28.356994+01:00 <0.5> EXAMPLE-8(id8) /boot/kernel.amd64/kernel: [bam_mark.c:1837](pid 3646="isi_job_d")(tid=101140) Updated mark for cookie 19:none with error 85
2025-11-04T14:08:28.359093+01:00 <0.5> EXAMPLE-8(id8) /boot/kernel.amd64/kernel: [drv.c:1499](pid 67605="python3.8")(tid=102284) Drive sync in progress for ldnum 21
2025-11-04T14:08:28.365281+01:00 <0.5> EXAMPLE-8(id8) /boot/kernel.amd64/kernel: [lin_mark.c:376](pid 3646="isi_job_d")(tid=101140) lin_end_mark: Ending lin mark (error ECANCELED).
2025-11-04T14:08:28.365300+01:00 <0.5> EXAMPLE-8(id8) /boot/kernel.amd64/kernel: [lin_mark.c:398](pid 3646="isi_job_d")(tid=101140) lin_end_mark: Mark already canceled. (current group: <1,2770> current mark state: LIN_COLLECT_GOOD
Resolution
Jeśli urządzenie, które wymaga zamiatania, zostało wykluczone, należy uruchomić nowe zadanie.
Jeśli inny problem powoduje, że urządzenie często jest niedostępne, należy dokładniej zbadać sprawę.