Code d’événement Openshift : 1038NODE0007
Résumé: Le système de fichiers devrait manquer d’espace dans les 4 prochaines heures.
Symptômes
Lorsqu’un système de fichiers commence à manquer d’espace, les performances du système se dégradent progressivement.
Si un système de fichiers se remplit et manque d’espace, les processus qui doivent écrire sur le système de fichiers ne peuvent plus le faire, ce qui peut entraîner la perte de données et l’instabilité du système.
Cause
La commande NodeFilesystemSpaceFillingUp Déclenchement d’une alerte lorsque deux conditions sont remplies :
- L’utilisation actuelle du système de fichiers dépasse un certain seuil.
- Un algorithme d’extrapolation prédit que le système de fichiers manquera d’espace dans un certain laps de temps. Si la période est inférieure à 24 heures, il s’agit d’un
WarningAlerte. Si la durée est inférieure à 4 heures, il s’agit d’unCriticalAlerte.
Résolution
Diagnostic
-
Étudiez les tendances récentes d’utilisation du système de fichiers sur un tableau de bord. Parfois, un modèle périodique d’écriture et de nettoyage dans le système de fichiers peut entraîner le déclenchement d’une fausse alerte par l’algorithme de prédiction linéaire.
-
Utilisez les outils et utilitaires du système d’exploitation Linux pour identifier les répertoires qui utilisent le plus d’espace dans le système de fichiers. S’agit-il d’une condition irrégulière, comme un processus qui ne parvient pas à se nettoyer derrière lui-même et qui utilise une grande quantité d’espace ? Ou le problème semble-t-il être lié à la croissance organique ?
Pour vous aider dans votre diagnostic, observez la métrique suivante dans PromQL (exécutez la requête sur la console Web OCP : Observer → Metrics → exécuter des requêtes) :
node_filesystem_free_bytes |
Ensuite, cochez la case mountpoint Libellé de l’alerte.
Atténuation
Si la capacité mountpoint L’étiquette est /, /sysroot ou /var, supprimez les images inutilisées pour résoudre le problème :
-
Déboguez le nœud en accédant au système de fichiers du nœud :
$ NODE_NAME=<libellé d’instance de l’alerte> $ oc -n default debug node/$NODE_NAME $ chroot /host
-
Pour supprimer les images pendantes :
$ podman images -q -f dangling=true | xargs --no-run-if-empty podman rmi
-
Supprimez les images inutilisées :
$ images de podman | grep -v -e registry.redhat.io -e « quay.io/openshift » -e registry.access.redhat.com -e docker-registry.usersys.redhat.com -e docker-registry.ops.rhcloud.com -e rhmap | xargs --no-run-if-empty podman rmi 2>/dev/null
-
Quittez le débogage :
$ exit $ exit
Support
Si toutes les étapes ci-dessus ne permettent pas de résoudre le problème, contactez le support technique Dell EMC pour une procédure d’enquête plus approfondie.