PowerFlex 4.6 Кілька подів постійно перезапускаються
Summary: Кілька подів перезавантажуються під час і після нового розгортання групи ресурсів (RG) лише зберігання (SO) та лише обчислень (CO) або оновлення до 4.6.1.
Symptoms
Нове розгортання менеджера PowerFlex 4.6.1 або оновлення до 4.6.1 з 200+ вузлами вузлів SO та CO
Вигляд екрану під час перезавантаження показує нестачу пам'яті:
Вплив
- Нестабільний стан здоров'я системи та інтерфейс користувача перестає реагувати/недоступний
Cause
Через проблему з програмним забезпеченням у версії PowerFlex Manager Platform (PFMP) 4.6.1 і вище, системи з більш ніж 200 вузлами (як SO, так і CO) вимагають більше обчислювальних ресурсів, ніж рекламувалося раніше: 28 ядер процесора та 64 ГБ пам'яті.
Resolution
Процедура вимкнення живлення
- Увійдіть у MVM і виконайте наступні команди, щоб зупинити базу даних:
- Перевірка стану здоров'я бази даних:
kubectl config set-context default --namespace=$(kubectl get pods -A | grep -m 1 -E 'platform|pgo|helmrepo|docker' | cut -d' ' -f1) echo $(kubectl get pods -l="postgres-operator.crunchydata.com/control-plane=pgo" --no-headers -o name && kubectl get pods -l="postgres-operator.crunchydata.com/instance" --no-headers -o name) | xargs kubectl get -o wide kubectl -n powerflex patch $(kubectl -n powerflex get postgrescluster -o name) --type merge --patch '{"spec":{"shutdown":true}}' - Перевірте, що база даних вимкнена:
echo $(kubectl get pods -l="postgres-operator.crunchydata.com/control-plane=pgo" --no-headers -o name && kubectl get pods -l="postgres-operator.crunchydata.com/instance" --no-headers -o name) | xargs kubectl get -o wide
- Перевірка стану здоров'я бази даних:
- Вимкніть живлення MVM
Оновлення ресурсів MVM
Для нових розгортань або оновлень до версії 4.6.1 вузли MVM повинні відповідати вимогам до додаткової пам'яті та процесора:
- Процесор - 28 ядер
- Оперативна пам'ять - 64 Гб
Процедура включення живлення
- Увімкніть усі MVM
- На кожному MVM виконайте наступну команду для перевірки статусу служби rke2-сервера:
kubectl get nodesВ залежності від статусу rke2-сервера виконайте наступні дії:Статус rke2-сервера
Зробіть наступне
Активний
Перейти до наступного кроку
Активація
Повторіть команду для перевірки статусу rke2-сервера до активності.
Не вдалося
Спробуйте запустити службу, виконавши таку команду:
systemctl start rke2-server - Як тільки rke2-сервер буде активний на всіх MVM, переконайтеся, що всі вузли знаходяться в стані готовності:
kubectl get nodes - Як тільки вузли будуть готові, переходимо до наступного кроку. Якщо з'явиться повідомлення про помилку, зачекайте кілька хвилин і повторіть спробу.
- Відновіть базу даних оператора кластерного моніторингу (CMO):
kubectl config set-context default --namespace=$(kubectl get pods -A | grep -m 1 -E 'platform|pgo|helmrepo|docker' | cut -d' ' -f1) kubectl -n powerflex patch $(kubectl -n powerflex get postgrescluster -o name) --type merge --patch '{"spec":{"shutdown": false}}' - Перевірте базу даних ОКУ:
echo $(kubectl get pods -l="postgres-operator.crunchydata.com/control-plane=pgo" --no-headers -o name && kubectl get pods -l="postgres-operator.crunchydata.com/instance" --no-headers -o name) | xargs kubectl get -o wide
- Відновіть базу даних оператора кластерного моніторингу (CMO):
- Слідкуйте за станом платформи управління PowerFlex:
- Запустіть наступну команду, щоб визначити номер порту для утиліти моніторингу платформи управління PowerFlex:
kubectl get services monitor-app -n powerflex -o jsonpath="{.spec.ports[0].nodePort}{\"\n\"}" - Зачекайте 20-30 хвилин і перевірте загальний стан здоров'я платформи управління PowerFlex.
- Запустіть наступну команду, щоб визначити номер порту для утиліти моніторингу платформи управління PowerFlex:
- Перейдіть до http://< IP>:p ort/, де IP-адреса вузла – це IP-адреса керування, налаштована на будь-якому з MVM (а не IP-адреса Ingress або PowerFlex Manager).
- Натисніть статус PFMP і зачекайте, поки всі записи стануть зеленими.
- Головний інтерфейс PFMP тепер буде доступний (іноді може чекати від 20 до 30 хвилин).
Версії, на які це вплинуло
PFMP 4.6.1
Виправлено у версії
ПФМП 4.8