PowerScale: Uso de AutoBalanceLin para transferir datos rápidamente fuera de un pool de nodos completo
Resumen: En este artículo, se describe cómo utilizar el trabajo AutoBalanceLin para liberar espacio rápidamente si un pool de nodos únicos está lleno o casi al 100 % de su capacidad. Este procedimiento solo se debe utilizar si se agotaron todos los demás métodos de liberación de espacio en disco en un grupo de nodos. ...
Instrucciones
Existe la creencia generalizada de que
AutoBalance y AutoBalanceLin Equilibre solamente los datos dentro de los pools de nodos y no entre pools de nodos. Además, se cree que solo smartpools/smartpoolstree Puede transferir datos entre dos pools de nodos.
Las pruebas en OneFS 8.0 y versiones posteriores demuestran que esto no es del todo cierto. Si el clúster solo tiene la política de pool de archivos predeterminada de
anywhere:anywhere, AutoBalanceLin y AutoBalance Transfiere datos entre varios pools de nodos.
Esto solo se debe utilizar como una solución alternativa de emergencia para los clústeres que tienen un pool de nodos completo. Este proceso transfiere los datos rápidamente fuera del pool de nodos completo.
Pregunta: ¿Cuándo se desea utilizar el siguiente procedimiento?
Respuesta: Este procedimiento se utilizaría cuando existan las siguientes condiciones:
- El clúster contiene varios pools de nodos y uno o más de ellos está completamente lleno.
- Hay un requisito inmediato para liberar espacio de disco en un pool de nodos completo.
- La organización exacta de los datos no es una preocupación inmediata.
Pasos:
- Tome nota de todas las políticas de pool de archivos existentes y, a continuación, elimínelas, excepto la predeterminada '
any:any' política de pools de archivos configurada en el clúster.
Antes de continuar con este paso:
- Registre la configuración actual de la política de pools de archivos antes de eliminar las políticas. Si el tiempo lo permite, se recomienda una recopilación completa de registros.
- De manera predeterminada, los clústeres de Isilon se configuran con la política de pool de archivos predeterminada establecida para escribir datos en
'anywhere:anywhere'. Verifique que la política de pool de archivos predeterminada se revierta a estos ajustes predeterminados antes de continuar.
anywhere”.
# isi filepool default-policy view
Set Requested Protection: default
Data Access Pattern: concurrency
Enable Coalescer: Yes
Enable Packing: No
Data Storage Target: anywhere
Data SSD Strategy: metadata
Snapshot Storage Target: anywhere
Snapshot SSD Strategy: metadata
Cloud Pool: -
Cloud Compression Enabled: -
Cloud Encryption Enabled: -
Cloud Data Retention: -
Cloud Incremental Backup Retention: -
Cloud Full Backup Retention: -
Cloud Accessibility: -
Cloud Read Ahead: -
Cloud Cache Expiration: -
Cloud Writeback Frequency: -
Cloud Archive Snapshot Files: -
ID: -
- Ejecute un
SmartPoolsTrabajo para aplicar nuevas marcas de directorio:
# isi job start smartpools -p 1 --policy medium
Smartpools trabajo para completarse más rápido de lo habitual con solo el anywhere:anywhere Política de pool de archivos predeterminada implementada.
SmartPools Trabajo debido a que el pool de nodos está demasiado lleno:
# isi job jobs start SmartPools Job operation failed: Job 'SmartPools' cannot start because the cluster's free disk space percentage is below 2 (isi_gconfig -t job-config core.free_blocks_pct_threshold_lo threshold) and this job does not free disk space. Free up some space (e.g. run TreeDelete, SnapshotDelete) then try again.: No space left on device
Si NO VE el mensaje de error anterior, vaya al paso 3 a continuación.
Si VE este mensaje de error, continúe con el paso 2a que aparece a continuación.
- Vuelva a comprobar si hay datos que pueda eliminar para liberar espacio en el pool de nodos completo. Esto incluiría la comprobación de instantáneas grandes y también la comprobación de cualquier sistema o archivos de auditoría grandes con los siguientes comandos:
Isilon-28# du -sh /ifs/.ifsvar/audit/logs Islon-28# du -sh /ifs/.ifsvar
Si puede eliminar suficientes datos, intente ejecutar el SmartPools trabajo de nuevo.
Si no hay absolutamente ningún dato que se pueda eliminar, el paso de mitigación recomendado sería el siguiente:
- Modifique la Política de pool de archivos predeterminada anterior para escribir en el pool de nodos menos lleno.
- Identifique una ruta de datos en el pool de nodos completo que incluya la mayoría de los datos.
- En una sesión de pantalla, ejecute lo siguiente:
# isi filepool apply -r <data path> to manually move data under a certain path i.e. # isi filepool apply -r /ifs/data/win_data/test_data verify the job is running: # ps auwx | grep apply root 45237 98.1 0.0 102268 61176 0 R+ 13:34 0:35.04 /usr/libexec/isilon/isi /usr/bin/isi filepool apply -r /ifs/
- Monitoree la capacidad. Una vez que el pool de nodos completo esté por debajo del 96 %, comience de nuevo con el paso dos anterior.
- Ejecute un
AutoBalanceLintrabajo durante algunas horas, y monitorear el espacio. (A diferencia deAutoBalance, que hace un recorrido completo por el árbol antes de mover cualquier dato,AutoBalanceLinVuelve a fraccionar los datos inmediatamente)
# isi job start autobalancelin -p 1 --policy medium
Casi de inmediato, observe que los datos se desplazan entre los pools de nodos y que el pool de nodos completo se libere en el espacio de disco.
AutoBalanceLin No es necesario que se ejecute hasta su finalización. Monitoree el AutoBalanceLin hasta que se logre el objetivo de limpiar el pool de nodos completo y, a continuación, cancele el trabajo. Por ejemplo, puede cancelar el trabajo una vez que el pool de nodos completo haya reducido el 85 % de su capacidad.
Continúe monitoreando el espacio aproximadamente cada una hora hasta que el espacio esté en un nivel suficiente mediante el siguiente comando:
# isi stat -p -v
AutoBalanceLin Ejecútela hasta que finalice. En un momento determinado, el trabajo puede cambiar los datos en una nueva dirección y puede comenzar a producir resultados no deseados. Por ejemplo, invierte la transferencia de datos, lo que posiblemente provoque que el otro pool de nodos se acerque a la capacidad completa a medida que se vacía el pool anterior. Solo ejecutar AutobalanceLIN durante unas horas, o hasta que se limpie el espacio, luego cancele una vez que se logre el objetivo.
Una vez que el clúster haya logrado un alivio en el espacio en el pool de nodos completo, cancele la
AutoBalanceLin Trabajo:
# isi job cancel autobalancelin
Información adicional
Resultados de las pruebas de laboratorio:
Dos pools de nodos, niveles
de protección iguales Esto ocurre antes de lo siguiente:
Node Pool Name: x410_archive Protection: +2d:1n Pool Storage: HDD SSD Storage Size: 85.2T (94.6T Raw) 2.2T (2.2T Raw) VHS Size: 9.4T Used: 29.9T (35%) 35.2G (2%) Avail: 55.3T (65%) 2.1T (98%) Throughput (bps) HDD Storage SSD Storage Name Health| In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 5|10.5.80.190 | OK |881.6| 0|881.6|10.0T/31.5T( 32%)|11.7G/ 738G( 2%) 6|10.5.80.191 |-A-- | 0| 0| 0|10.0T/31.5T( 32%)|11.7G/ 738G( 2%) 7|10.5.80.192 | OK | 0| 0| 0|10.0T/31.5T( 32%)|11.7G/ 738G( 2%) -------------------+-----+-----+-----+-----+-----------------+----------------- x410_archive | OK |110.2| 0|110.2|29.9T/85.2T( 35%)|35.2G/ 2.2T( 2%) Node Pool Name: x410_35tb_800gb-ssd_64gbProtection: +2d:1n Pool Storage: HDD SSD Storage Size: 112.8T (125.3T Raw) 2.9T (2.9T Raw) VHS Size: 12.5T Used: 5.6T (5%) 7.9G (< 1%) Avail: 107.2T (95%) 2.9T (> 99%) Throughput (bps) HDD Storage SSD Storage Name Health| In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.5.80.186 | OK | 2.9M|82.8M|85.6M| 1.4T/31.5T( 4%)| 2.0G/ 738G(< 1%) 2|10.5.80.187 |-A-- | 104k|38.8k| 143k| 1.4T/30.6T( 5%)| 1.9G/ 738G(< 1%) 3|10.5.80.188 | OK |881.6| 0|881.6| 1.4T/31.5T( 4%)| 2.0G/ 738G(< 1%) 4|10.5.80.189 | OK | 0|25.8k|25.8k| 1.4T/31.5T( 4%)| 2.0G/ 738G(< 1%) -------------------+-----+-----+-----+-----+-----------------+----------------- x410_35tb_800gb-ssd|-M---| 371k|10.4M|10.7M| 5.6T/112.8T( 5%)| 7.9G/ 2.9T(< 1%) _64gb | | | | | | X410-2# date Thu Jun 14 16:53:29 CDT 2018 one filepool policy set to default any:any X410-2# isi job start autobalancelin -p 1 --policy medium Started job [7159] in as little as 30 minutes you will see data shift between the two pools, i.e. our first node pool, below, dropped from 32% full to 29% X410-2# date Thu Jun 14 17:24:20 CDT 2018 Node Pool Name: x410_archive Protection: +2d:1n Pool Storage: HDD SSD Storage Size: 85.2T (94.6T Raw) 2.2T (2.2T Raw) VHS Size: 9.4T Used: 27.7T (33%) 34.3G (2%) Avail: 57.5T (67%) 2.1T (98%) Throughput (bps) HDD Storage SSD Storage Name Health| In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 5|10.5.80.190 | OK | 1.1k|25.8k|26.9k| 9.2T/31.5T( 29%)|11.4G/ 738G( 2%) 6|10.5.80.191 |-A-- | 1.1k| 1.2M| 1.2M| 9.2T/31.5T( 29%)|11.4G/ 738G( 2%) 7|10.5.80.192 | OK |28.6k| 5.2k|33.7k| 9.2T/31.5T( 29%)|11.4G/ 738G( 2%) -------------------+-----+-----+-----+-----+-----------------+----------------- x410_archive | OK | 3.8k| 152k| 156k|27.7T/85.2T( 33%)|34.3G/ 2.2T( 2%) Node Pool Name: x410_35tb_800gb-ssd_64gbProtection: +2d:1n Pool Storage: HDD SSD Storage Size: 112.8T (125.3T Raw) 2.9T (2.9T Raw) VHS Size: 12.5T Used: 7.6T (7%) 8.8G (< 1%) Avail: 105.2T (93%) 2.9T (> 99%) Throughput (bps) HDD Storage SSD Storage Name Health| In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.5.80.186 | OK |37.9k| 279k| 316k| 1.9T/31.5T( 6%)| 2.2G/ 738G(< 1%) 2|10.5.80.187 |-A-- | 1.4M|34.8M|36.2M| 1.9T/30.6T( 6%)| 2.2G/ 738G(< 1%) 3|10.5.80.188 | OK | 130k|30.9k| 161k| 1.9T/31.5T( 6%)| 2.2G/ 738G(< 1%) 4|10.5.80.189 | OK | 0| 0| 0| 1.9T/31.5T( 6%)| 2.2G/ 738G(< 1%) -------------------+-----+-----+-----+-----+-----------------+----------------- x410_35tb_800gb-ssd|-M---| 198k| 4.4M| 4.6M| 7.6T/112.8T( 7%)| 8.8G/ 2.9T(< 1%) _64gb | | | | | |
Continúe monitoreando cada hora más o menos hasta que el espacio en disco se encuentre en un nivel suficiente.
AutoBalanceLin Ejecútela hasta que finalice. El trabajo desplaza los datos en la dirección opuesta, lo que puede comenzar a producir resultados no deseados. El espacio de disco consumido puede revertirse, lo que posiblemente dé lugar a un pool de nodos casi lleno nuevamente. Ejecute el trabajo solo durante unas horas.
Punto de una hora:
X410-2# date Thu Jun 14 17:54:30 CDT 2018 Node Pool Name: x410_archive Protection: +2d:1n Pool Storage: HDD SSD Storage Size: 85.2T (94.6T Raw) 2.2T (2.2T Raw) VHS Size: 9.4T Used: 25.2T (30%) 33.9G (2%) Avail: 60.0T (70%) 2.1T (98%) Throughput (bps) HDD Storage SSD Storage Name Health| In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 5|10.5.80.190 | OK |881.6|20.6k|21.5k| 8.4T/31.5T( 27%)|11.3G/ 738G( 2%) 6|10.5.80.191 |-A-- | 0| 0| 0| 8.4T/31.5T( 27%)|11.3G/ 738G( 2%) 7|10.5.80.192 | OK | 2.2k| 216k| 218k| 8.4T/31.5T( 27%)|11.3G/ 738G( 2%) -------------------+-----+-----+-----+-----+-----------------+----------------- x410_archive | OK |385.7|29.5k|29.9k|25.2T/85.2T( 30%)|33.9G/ 2.2T( 2%) X410-2# date Thu Jun 14 18:54:43 CDT 2018 Node Pool Name: x410_archive Protection: +2d:1n Pool Storage: HDD SSD Storage Size: 85.2T (94.6T Raw) 2.2T (2.2T Raw) VHS Size: 9.4T Used: 21.6T (25%) 26.8G (1%) Avail: 63.6T (75%) 2.1T (99%) Throughput (bps) HDD Storage SSD Storage Name Health| In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 5|10.5.80.190 | OK |22.9k| 1.4M| 1.5M| 7.2T/31.5T( 23%)| 8.9G/ 738G( 1%) 6|10.5.80.191 |-A-- |881.6| 231k| 232k| 7.2T/31.5T( 23%)| 8.9G/ 738G( 1%) 7|10.5.80.192 | OK | 0| 0| 0| 7.2T/31.5T( 23%)| 8.9G/ 738G( 1%) -------------------+-----+-----+-----+-----+-----------------+----------------- x410_archive | OK | 3.0k| 210k| 213k|21.6T/85.2T( 25%)|26.8G/ 2.2T( 1%)
El espacio está suficientemente limpio. La variable AutoBalanceLIn El trabajo se puede cancelar ya que se han logrado los resultados deseados.