Kod zdarzenia Openshift: 1038WĘZEŁ0007
Résumé: Przewiduje się, że w systemie plików skończy się miejsce w ciągu najbliższych 4 godzin.
Symptômes
Gdy w systemie plików zaczyna brakować miejsca, wydajność systemu zwykle stopniowo spada.
Jeśli system plików zapełni się i zabraknie mu miejsca, procesy, które muszą zapisywać w systemie plików, nie będą już mogły tego zrobić, co może spowodować utratę danych i niestabilność systemu.
Cause
Pakiet NodeFilesystemSpaceFillingUp Alert jest wyzwalany, gdy są spełnione dwa warunki:
- Bieżące wykorzystanie systemu plików przekracza określony próg.
- Algorytm ekstrapolacji przewiduje, że w systemie plików zabraknie miejsca w określonym czasie. Jeśli okres jest krótszy niż 24 godziny, jest to
WarningAlert. Jeśli czas jest krótszy niż 4 godziny, jest toCriticalAlert.
Résolution
Diagnoza
-
Przeanalizuj najnowsze trendy wykorzystania systemu plików na pulpicie nawigacyjnym. Czasami okresowy wzorzec zapisu i czyszczenia w systemie plików może spowodować, że algorytm przewidywania liniowego wyzwoli fałszywy alarm.
-
Użyj narzędzi i programów narzędziowych systemu operacyjnego Linux, aby sprawdzić, które katalogi zajmują najwięcej miejsca w systemie plików. Czy problem jest nieregularny, na przykład proces nie sprząta za sobą i zajmuje dużo miejsca? A może problem wydaje się być związany ze wzrostem organicznym?
Aby pomóc w diagnozie, obejrzyj następującą metrykę w programie PromQL (wykonaj zapytanie w konsoli internetowej OCP: Obserwuj metryki → → uruchamiaj zapytania):
node_filesystem_free_bytes |
Następnie zaznacz ikonę mountpoint etykieta alertu.
Łagodzenia
Jeśli wartość mountpoint etykieta jest /, /sysroot lub /var, usuń nieużywane obrazy, aby rozwiązać problem:
-
Debugowanie węzła przez uzyskanie dostępu do systemu plików węzła:
$ NODE_NAME=<etykieta instancji z alertu> $ oc -n domyślny węzeł debugowania/NAZWA_$NODE $ chroot /host
-
Usuń zwisające obrazy:
$ podman images -q -f dangling=true | xargs --no-run-if-empty podman rmi
-
Usuń nieużywane obrazy:
$ obrazy podman | grep -v -e registry.redhat.io -e "quay.io/openshift" -e registry.access.redhat.com -e docker-registry.usersys.redhat.com -e docker-registry.ops.rhcloud.com -e rhmap | xargs --no-run-if-empty podman rmi 2>/dev/null
-
Wyjdź z debugowania:
$ wyjście $ wyjście
Wsparcie
Jeśli wszystkie powyższe czynności nie rozwiążą problemu, skontaktuj się z działem pomocy technicznej firmy Dell EMC w celu dokładniejszego zbadania problemu.