PowerScale. Операции сбора и многократного сканирования не освобождают пространство на исключенном устройстве
Summary: Collect и MultiScan исключают из очистки устройства, если они становятся недоступными во время выполнения задания.
Symptoms
Эта статья базы знаний предназначена только для запущенных или завершенных заданий сбора данных или заданий MultiScan, в которых выполняется сбор данных.
Collect используется для освобождения блоков, оставшихся на устройстве, когда оно стало недоступным.
MultiScan время от времени запускает как AutoBalance, так и Collect, чтобы убедиться, что MultiScan запустил Collect, проверив задание.
# isi job view <jobID#>
На этапе маркировки Collect блоки помечаются для последующей очистки, как только они перейдут в фазу очистки.
В некоторых ситуациях устройство может быть исключено из операции очистки задания на этапе маркировки.
Из-за этого кластер может оставаться с несбалансированными узлами или накопителями даже после успешного завершения задания.
Задание отменяется, если в нем исключено слишком много дисков или узлов.
Cause
В случае выхода устройства из строя или недоступности задание исключает устройство из этапа очистки.
Это может быть вызвано различными причинами, такими как перезагрузка узла, выключение и включение питания или разделение узла.
В случае с накопителями это может произойти, если накопитель зависает или иным образом становится недоступным.
Если устройство становится недоступным во время выполнения сбора данных или множественного сканирования, задание переводит его в режим bam_nosweep Список исключенных устройств.
Когда задание переходит в фазу очистки, оно очищает все блоки на устройствах, НЕ добавленных в bam_nosweep Исключенный список.
Это может привести к тому, что после успешного завершения задания работоспособность узлов или накопителей будет более высокой и коэффициентом использования емкости.
Пример 1 показывает, что один devid исключен из журнала сообщений, отображается как devid 28.
2025-03-08T22:09:15.238162-08:00 <0.5> EXAMPLE-1(id25) /boot/kernel.amd64/kernel: [bam_nosweep.c:298](pid 63766="isi_job_d")(tid=104229) bam_nosweep_add_devices: Exclude set { devids (1) = [ 28 ], wdls = [] }
В примере 2 показана одна временная метка диска в devid 18, за которой следует диск в devid 24.
2024-11-04T16:20:33.664254-07:00 <0.5> EXAMPLE-12(id12) /boot/kernel.amd64/kernel: [bam_nosweep.c:298](pid 83067="isi_job_d")(tid=103674) bam_nosweep_add_devices: Exclude set { devids (0) = [], wdls (1) = [ (d: 18, unm:00000040 ] }
2024-11-04T17:06:21.738071-08:00 <0.5> EXAMPLE-12(id12) /boot/kernel.amd64/kernel: [bam_nosweep.c:298](pid 83067="isi_job_d")(tid=103674) bam_nosweep_add_devices: Exclude set { devids (0) = [], wdls (2) = [ (d: 18, unm:00000040, (d: 24, unm:00000020 ] }
Пример отмены сбора из-за процента устройств, исключенных из-за 28,1% исключенных устройств, ограничение составляет 25%.
2025-11-04T14:08:28.356984+01:00 <0.5> EXAMPLE-8(id8) /boot/kernel.amd64/kernel: [bam_mark.c:1923](pid 3646="isi_job_d")(tid=101140) Mark not permitted with 28.1% of 32 nodes excluded (limit 25.0%)
2025-11-04T14:08:28.356994+01:00 <0.5> EXAMPLE-8(id8) /boot/kernel.amd64/kernel: [bam_mark.c:1837](pid 3646="isi_job_d")(tid=101140) Updated mark for cookie 19:none with error 85
2025-11-04T14:08:28.359093+01:00 <0.5> EXAMPLE-8(id8) /boot/kernel.amd64/kernel: [drv.c:1499](pid 67605="python3.8")(tid=102284) Drive sync in progress for ldnum 21
2025-11-04T14:08:28.365281+01:00 <0.5> EXAMPLE-8(id8) /boot/kernel.amd64/kernel: [lin_mark.c:376](pid 3646="isi_job_d")(tid=101140) lin_end_mark: Ending lin mark (error ECANCELED).
2025-11-04T14:08:28.365300+01:00 <0.5> EXAMPLE-8(id8) /boot/kernel.amd64/kernel: [lin_mark.c:398](pid 3646="isi_job_d")(tid=101140) lin_end_mark: Mark already canceled. (current group: <1,2770> current mark state: LIN_COLLECT_GOOD
Resolution
Если устройство, требующее очистки, исключено, необходимо запустить новое задание.
Если устройство часто становится недоступным, возникла другая проблема, ее необходимо изучить подробнее.