Код події Openshift: 1030NODE0001

Zusammenfassung: При тривалому високому завантаженні процесора на одному вузлі керуючої площини більший тиск CPU, ймовірно, спричинить аварійне перемикання; збільшити доступний процесор.

Dieser Artikel gilt für Dieser Artikel gilt nicht für Dieser Artikel ist nicht an ein bestimmtes Produkt gebunden. In diesem Artikel werden nicht alle Produktversionen aufgeführt.

Symptome

Екстремальний тиск на процесор може спричинити повільну серіалізацію та низьку продуктивність kube-apiserver та etcd. Коли це трапляється, існує ризик, що клієнти бачать невідповідні API-запити, які знову надсилаються,

що створює ще більший тиск на процесор.Це також може спричиняти відмови у живих зондах через повільну чутливість etcd на бекенді. Якщо один kube-apiserver виходить з ладу за цієї умови, ймовірно, ви зіткнетеся з каскадом, оскільки решта kube-apiservers також недостатньо налаштовані.

Ursache

Це сповіщення спрацьовує, коли на одному вузлі керуючої площини спостерігається стійке високе навантаження процесора.

Терміновість цього сповіщення визначається тим, як довго вузол підтримує високе навантаження процесора:
  • Критично
    • коли використання процесора на окремому вузлі керуючої площини перевищує 90% понад 1 годину.
  • Увага
    • коли використання процесора на окремому вузлі керуючої площини перевищує 90% для понад 5 м.
Це сповіщення спрацьовує, коли завантаження процесора на всіх трьох вузлах керуючої площини перевищує навантаження на два вузли керуючої площини; Відключення вузла одного керуючої площини може спричинити каскадне відмовлення; збільшити доступний процесор

.Терміновість цього сповіщення визначається тим, наскільки довго завантаження процесора на всіх трьох вузлах керуючої площини перевищує витривалість двох вузлів керуючої площини.
  • Увага
    • коли завантаження процесора на всіх трьох вузлах керуючої площини перевищує, ніж два вузли керуючої площини можуть підтримувати понад 10 м.

Lösung

Діагноз:

Виконайте наступні запити PromQL на веб-консолі OCP для допомоги в діагностиці (Спостерігати → метрики → Запускати запити).
Топ-5 контейнерів із найбільшим завантаженням процесора на певному вузлі:image.png

Ось умови, які можуть спричинити попередження:

  • з'явилося нове навантаження, яке генерує більше викликів до APISERVER і призводить до високого навантаження процесора. У такому випадку збільште потужність процесора та пам'яті на вузлах керуючої площини.
  • сповіщення спрацьовується на основі метрик вузла, тож можливо, що компонент на вузлі спричиняє високе навантаження процесора.
  • APISERVER/ETCD обробляє більше запитів через повторні спроби клієнта, спричинені прихованою проблемою.
  • нерівномірний розподіл запитів до екземплярів APISERVER через HTTP2 (він мультиплексує запити через одне TCP-з'єднання). Балансувальники навантаження не знаходяться на рівні додатків і тому не розуміють http2.

Пом'якшення наслідків:

  • Якщо навантаження створює навантаження на APISERVER, що спричиняє високе навантаження процесора, збільште CPU та пам'ять на вузлах керуючої площини.
  • Якщо тривале високе навантаження процесора зумовлене деградацією кластера:
    • Визначте корінну причину деградації і визначте подальші кроки відповідно.

Підтримка:

Якщо всі вищезазначені кроки не допоможуть вирішити проблему, зверніться до технічної підтримки Dell EMC для подальшого розслідування.

 

Weitere Informationen

Якщо зібрати логарифмічний пучок, дані Прометея також можуть бути скинуті як комплементарні матеріали.
Як взяти дамп даних кластера Prometheus:

image.png

Betroffene Produkte

APEX Cloud Platform for Red Hat OpenShift
Artikeleigenschaften
Artikelnummer: 000217405
Artikeltyp: Solution
Zuletzt geändert: 13 Feb. 2026
Version:  3
Antworten auf Ihre Fragen erhalten Sie von anderen Dell NutzerInnen
Support Services
Prüfen Sie, ob Ihr Gerät durch Support Services abgedeckt ist.