PowerScale: Isilon: Utilización elevada isi_cpool_d de la CPU causada por las operaciones de CloudPools
Yhteenveto: El proceso de isi_cpool_d puede causar una gran cantidad de utilización de CPU en un clúster PowerScale Isilon.
Oireet
isi_cpool_d proceso muestra una alta utilización continua de la CPU en el clúster.
Isilon-1# top -n 10 PID USERNAME THR PRI NICE SIZE RES STATE C TIME WCPU COMMAND 87857 root 124 20 0 595M 173M nanslp 13 1722.5 857.62% isi_cpool_d 3455 root 29 98 r150 397M 86M sigwai 10 4216.2 62.55% nfs 3313 root 40 98 r150 1018M 683M sigwai 14 7402.9 47.71% lwio 94259 root 13 52 0 566M 491M usem 18 374.1H 32.57% isi_celog_monitor 18378 root 5 20 0 102M 53M uwait 3 49:57 24.56% isi_job_d 34552 root 1 52 0 37M 15M adv 22 112.6H 20.51% isi_migr_sched 3144 root 13 20 0 52M 13M select 8 2009.5 15.33% isi_audit_d 98432 root 1 52 0 105M 66M kqread 26 417:47 14.55% isi_celog_analysis 3213 root 26 52 0 96M 28M uwait 10 1109.2 12.50% isi_avscan_d 51167 root 5 20 0 93M 42M uwait 21 74:37 10.40% isi_job_d ... ..
Es posible que varios trabajos de CloudPools se estén ejecutando en el clúster, pero incluso cuando todos los trabajos están en pausa, la utilización del isi_cpool_d sigue siendo alta.
Isilon-1# isi cloud jobs list ID Description Effective State Type --------------------------------------------------------------------------------------- 1 Write updated data to the cloud paused cache-writeback 2 Expire CloudPools cache paused cache-invalidation 4 Clean up unreferenced data in the cloud paused cloud-garbage-collection 5 Write updated snapshot data to the cloud paused snapshot-writeback 6 Update SmartLink file formats paused smartlink-upgrade 7 Add data to CloudPools cache paused cache-pre-populate 959 paused archive 960 paused archive 961 paused archive 962 paused archive 964 paused archive 965 paused archive 966 paused archive 967 paused archive 968 paused archive ---------------------------------------------------------------------------------------
Isilon-1# top -n 5 PID USERNAME THR PRI NICE SIZE RES STATE C TIME WCPU COMMAND 87857 root 124 20 0 588M 180M nanslp 4 1723.5 805.81% isi_cpool_d 3455 root 28 98 r150 397M 87M sigwai 10 4216.3 69.34% nfs 18378 root 6 20 0 122M 72M uwait 9 53:18 68.36% isi_job_d 3313 root 49 98 r150 1019M 684M sigwai 14 7403.0 66.16% lwio 51167 root 6 20 0 94M 42M uwait 26 76:02 22.36% isi_job_d ...
Syy
Ciertas operaciones, como la reescritura de caché y la invalidación de caché, se producen en segundo plano y no se correlacionan directamente con ningún trabajo de CloudPools en ejecución. Pausar trabajos de CloudPools no impide que estas operaciones se ejecuten. Estos subprocesos continúan ejecutándose y causan una alta utilización de la CPU.
Para confirmar esto, pause las operaciones de reescritura e invalidación de caché mientras monitorea la utilización de CPU. isi_cpool_d utilización de la CPU debería disminuir rápidamente una vez pausada. Isi_cpool_d utilización de CPU aumenta una vez que se reanudan las operaciones.
Para pausar las operaciones de CloudPools:
# isi cloud jobs pause cache-writeback # isi cloud jobs pause cache-invalidation
Para reanudar las operaciones de CloudPools:
# isi cloud jobs resume cache-invalidation # isi cloud jobs resume cache-writeback
Tarkkuus
No se recomienda dejar las operaciones de reescritura e invalidación de caché en pausa durante un período prolongado. Varias tareas y operaciones incompletas se acumulan y magnifican el problema.
La alta utilización de la CPU causada por la reescritura o la invalidación de la caché puede indicar que se ha producido una gran cantidad de almacenamiento en caché. Por lo general, se debe a que se archiva y recupera en línea una gran cantidad de datos. Esto puede deberse a criterios de archivado mal escritos en las políticas de pool de archivos. El archivado que se realiza sin tener en cuenta el tiempo de acceso puede dar lugar a un almacenamiento en caché excesivo de archivos activos.
Este es un ejemplo de una política de pool de archivos mal redactada que archiva datos en un CloudPools de ECS. Tenga en cuenta que todos los datos dentro de las rutas designadas se archivan inmediatamente en los CloudPools:
--------------------------------------------------------------------------------
Name: Bad ECS Cloud Policy
Description: Tier to ECS
CloudPools State: OK
CloudPools Details:
Apply Order: 3
File Matching Pattern: Path == APPS/SeaShoreVideo (begins with)
OR
Path == APPS/OceanArchive (begins with)
Set Requested Protection: -
Data Access Pattern: -
Enable Coalescer: -
Enable Packing: -
Data Storage Target: -
Data SSD Strategy: -
Snapshot Storage Target: -
Snapshot SSD Strategy: -
Cloud Pool: EMC ECS Pool
Cloud Compression Enabled: Yes
Cloud Encryption Enabled: No
Cloud Data Retention: 1W
Cloud Incremental Backup Retention: 5Y
Cloud Full Backup Retention: 5Y
Cloud Accessibility: cached
Cloud Read Ahead: partial
Cloud Cache Expiration: 1D
Cloud Writeback Frequency: 9H
ID: Good ECS Cloud Policy
--------------------------------------------------------------------------------
Este es un ejemplo de una política de pool de archivos escrita correctamente que aloja los archivos activos y a los que se accedió recientemente. Tenga en cuenta que esta política contiene criterios de tiempo de acceso, por lo que solo los datos a los que no se ha accedido después de 5 semanas y 5 días se archivan en CloudPools.
--------------------------------------------------------------------------------
Name: Good ECS Cloud Policy
Description: Tier to ECS
CloudPools State: OK
CloudPools Details:
Apply Order: 3
File Matching Pattern: Accessed Time > 5W5D AND Path == APPS/SeaShoreVideo (begins with)
OR
Accessed Time > 5W5D AND Path == APPS/OceanArchive (begins with)
Set Requested Protection: -
Data Access Pattern: -
Enable Coalescer: -
Enable Packing: -
Data Storage Target: -
Data SSD Strategy: -
Snapshot Storage Target: -
Snapshot SSD Strategy: -
Cloud Pool: EMC ECS Pool
Cloud Compression Enabled: Yes
Cloud Encryption Enabled: No
Cloud Data Retention: 1W
Cloud Incremental Backup Retention: 5Y
Cloud Full Backup Retention: 5Y
Cloud Accessibility: cached
Cloud Read Ahead: partial
Cloud Cache Expiration: 1D
Cloud Writeback Frequency: 9H
ID: Bad ECS Cloud Policy
--------------------------------------------------------------------------------
Otras causas de una alta isi_cpool_d utilización de CPU pueden variar según la configuración del clúster, los ajustes y el nivel de código. Comuníquese con el soporte técnico de Dell si necesita ayuda.