Código de evento de OpenShift: 1038NODO0007
Résumé: Se prevé que el sistema de archivos se quedará sin espacio en las próximas 4 horas.
Symptômes
A medida que un sistema de archivos comienza a quedarse sin espacio, el rendimiento del sistema generalmente se degrada gradualmente.
Si un sistema de archivos se llena y se queda sin espacio, los procesos que necesitan escribir en el sistema de archivos ya no pueden hacerlo, lo que puede provocar pérdida de datos e inestabilidad en el sistema.
Cause
La variable NodeFilesystemSpaceFillingUp La alerta se activa cuando se cumplen dos condiciones:
- El uso actual del sistema de archivos supera un umbral determinado.
- Un algoritmo de extrapolación predice que el sistema de archivos se quedará sin espacio dentro de una cierta cantidad de tiempo. Si el período es inferior a 24 horas, se trata de un
Warningalerta. Si el tiempo es inferior a 4 horas, se trata de unCriticalalerta.
Résolution
Diagnóstico
-
Estudiar las tendencias recientes del uso del sistema de archivos en un tablero. En ocasiones, un patrón periódico de escritura y limpieza en el sistema de archivos puede hacer que el algoritmo de predicción lineal active una alerta falsa.
-
Utilice las herramientas y utilidades del sistema operativo Linux para investigar qué directorios utilizan la mayor cantidad de espacio en el sistema de archivos. ¿El problema se debe a una condición irregular, como un proceso que no se limpia y utiliza una gran cantidad de espacio? ¿O el problema parece estar relacionado con el crecimiento orgánico?
Para facilitar el diagnóstico, observe la siguiente métrica en PromQL (ejecute la consulta en la consola web de OCP): Observe → Metrics → Run queries):
node_filesystem_free_bytes |
A continuación, compruebe el mountpoint para la alerta.
Mitigación
Si mountpoint La etiqueta es /, /sysroot o /var, elimine las imágenes no utilizadas para resolver el problema:
-
Depure el nodo accediendo al sistema de archivos del nodo:
$ NODE_NAME=<etiqueta de instancia de la alerta> $ oc -n default debug node/$NODE_NAME $ chroot /host
-
Eliminar imágenes colgantes:
$ imágenes de podman -q -f dangling=true | xargs --no-run-if-empty podman rmi
-
Eliminar imágenes no utilizadas:
$ imágenes de podman | grep -v -e registry.redhat.io -e "quay.io/openshift" -e registry.access.redhat.com -e docker-registry.usersys.redhat.com -e docker-registry.ops.rhcloud.com -e rhmap | xargs --no-run-if-empty podman rmi 2>/dev/null
-
Salir de la depuración:
$ salida $ salida
Soporte
Si todos los pasos anteriores no pueden resolver el problema, póngase en contacto con el soporte técnico de Dell EMC para una investigación más detallada.