PowerScale: Collect y MultiScan no recupera espacio en el dispositivo excluido
Summary: Collect y MultiScan excluyen los dispositivos del barrido si no están disponibles durante la ejecución del trabajo.
Symptoms
Este artículo de la base de conocimientos es solo para trabajos de Collect en ejecución o completados, o trabajos de MultiScan que ejecutaron Collect dentro de ellos.
La recolección se utiliza para liberar bloques que quedan en un dispositivo mientras no está disponible.
En ocasiones, MultiScan ejecuta AutoBalance y Collect, para asegurarse de que MultiScan ejecute Collect mediante la comprobación del trabajo.
# isi job view <jobID#>
Durante la fase de marcado de Collect, los bloques se marcan para una limpieza posterior una vez que ingresan a la fase de barrido.
En algunas situaciones, es posible que un dispositivo se excluya de la operación de barrido del trabajo durante la fase de marcado.
Esto puede dejar al clúster con unidades o nodos desequilibrados, incluso después de que el trabajo se haya completado correctamente.
El trabajo se cancela si se excluyen demasiadas unidades o nodos del trabajo.
Cause
En caso de que un dispositivo deje de funcionar o no esté disponible, el trabajo excluye el dispositivo de la fase de barrido.
Esto puede deberse a diversas causas, como el reinicio del nodo, un ciclo de apagado y encendido o la división del nodo.
Con las unidades, esto puede suceder si una unidad se detiene o no está disponible.
Si un dispositivo deja de estar disponible mientras se ejecuta Collect o MultiScan, el trabajo lo configura en bam_nosweep Lista de dispositivos excluidos.
Cuando el trabajo entra en la fase de barrido, funciona para barrer cualquier bloque en los dispositivos que NO se hayan agregado al bam_nosweep Lista de excluidos.
Esto puede provocar que los nodos o las unidades permanezcan desequilibrados con una mayor utilización de la capacidad después de que el trabajo se haya completado correctamente.
En el ejemplo 1 se muestra un devid excluido dentro del registro de mensajes, que se muestra como devid 28.
2025-03-08T22:09:15.238162-08:00 <0.5> EXAMPLE-1(id25) /boot/kernel.amd64/kernel: [bam_nosweep.c:298](pid 63766="isi_job_d")(tid=104229) bam_nosweep_add_devices: Exclude set { devids (1) = [ 28 ], wdls = [] }
El ejemplo 2 muestra un registro de fecha y hora de una unidad en el dispositivo 18 que se excluye, seguido de una unidad en el dispositivo 24.
2024-11-04T16:20:33.664254-07:00 <0.5> EXAMPLE-12(id12) /boot/kernel.amd64/kernel: [bam_nosweep.c:298](pid 83067="isi_job_d")(tid=103674) bam_nosweep_add_devices: Exclude set { devids (0) = [], wdls (1) = [ (d: 18, unm:00000040 ] }
2024-11-04T17:06:21.738071-08:00 <0.5> EXAMPLE-12(id12) /boot/kernel.amd64/kernel: [bam_nosweep.c:298](pid 83067="isi_job_d")(tid=103674) bam_nosweep_add_devices: Exclude set { devids (0) = [], wdls (2) = [ (d: 18, unm:00000040, (d: 24, unm:00000020 ] }
Ejemplo de cancelación de la recolección debido al porcentaje de dispositivos excluidos, debido a que se excluye el 28,1 % de los dispositivos, el límite es del 25 %.
2025-11-04T14:08:28.356984+01:00 <0.5> EXAMPLE-8(id8) /boot/kernel.amd64/kernel: [bam_mark.c:1923](pid 3646="isi_job_d")(tid=101140) Mark not permitted with 28.1% of 32 nodes excluded (limit 25.0%)
2025-11-04T14:08:28.356994+01:00 <0.5> EXAMPLE-8(id8) /boot/kernel.amd64/kernel: [bam_mark.c:1837](pid 3646="isi_job_d")(tid=101140) Updated mark for cookie 19:none with error 85
2025-11-04T14:08:28.359093+01:00 <0.5> EXAMPLE-8(id8) /boot/kernel.amd64/kernel: [drv.c:1499](pid 67605="python3.8")(tid=102284) Drive sync in progress for ldnum 21
2025-11-04T14:08:28.365281+01:00 <0.5> EXAMPLE-8(id8) /boot/kernel.amd64/kernel: [lin_mark.c:376](pid 3646="isi_job_d")(tid=101140) lin_end_mark: Ending lin mark (error ECANCELED).
2025-11-04T14:08:28.365300+01:00 <0.5> EXAMPLE-8(id8) /boot/kernel.amd64/kernel: [lin_mark.c:398](pid 3646="isi_job_d")(tid=101140) lin_end_mark: Mark already canceled. (current group: <1,2770> current mark state: LIN_COLLECT_GOOD
Resolution
Si se excluyó el dispositivo que se debe barrer, se debe iniciar un nuevo trabajo.
Si otro problema está causando que el dispositivo no esté disponible con frecuencia, se debe investigar más a fondo.