PowerFlex 4.6. Несколько модулей pod продолжают перезапускаться
Summary: Несколько модулей pod продолжают перезапускаться во время и после нового развертывания или модернизации до версии 4.6.1 группы ресурсов только для хранилища (SO) и только для вычислений (CO). ...
Symptoms
Новое развертывание PowerFlex Manager 4.6.1 или модернизация до 4.6.1 с 200+ узлами SO- и CO-узлов
Вид экрана во время перезагрузки показывает нехватку памяти:
Воздействие
- Состояние работоспособности системы нестабильно, пользовательский интерфейс перестает отвечать/недоступен
Cause
Из-за проблемы с программным обеспечением платформы PowerFlex Manager Platform (PFMP) версии 4.6.1 и выше системам с более чем 200 узлами (как средними, так и средними) требуется больше вычислительных ресурсов, чем было заявлено ранее: 28 ядер процессора и 64 ГБ памяти.
Resolution
Процедура выключения питания
- Войдите в MVM и выполните следующие команды, чтобы остановить базу данных:
- Проверьте состояние базы данных:
kubectl config set-context default --namespace=$(kubectl get pods -A | grep -m 1 -E 'platform|pgo|helmrepo|docker' | cut -d' ' -f1) echo $(kubectl get pods -l="postgres-operator.crunchydata.com/control-plane=pgo" --no-headers -o name && kubectl get pods -l="postgres-operator.crunchydata.com/instance" --no-headers -o name) | xargs kubectl get -o wide kubectl -n powerflex patch $(kubectl -n powerflex get postgrescluster -o name) --type merge --patch '{"spec":{"shutdown":true}}' - Убедитесь, что база данных выключена.
echo $(kubectl get pods -l="postgres-operator.crunchydata.com/control-plane=pgo" --no-headers -o name && kubectl get pods -l="postgres-operator.crunchydata.com/instance" --no-headers -o name) | xargs kubectl get -o wide
- Проверьте состояние базы данных:
- Выключите питание MVM
Обновление ресурсов MVM
Для нового развертывания или модернизации до версии 4.6.1 узлы MVM должны соответствовать дополнительным требованиям к памяти и ЦП.
- ЦП — 28 ядер
- Оперативная память — 64 Гбайт
Процедура включения питания
- Включите все MVM
- На каждом MVM выполните следующую команду, чтобы проверить состояние сервиса rke2-server:
kubectl get nodesВ зависимости от состояния rke2-server выполните следующие действия:Состояние rke2-сервера
Выполните следующие действия:
Active
Перейдите к следующему действию
Активация
Повторите команду для проверки состояния сервера rke2, пока он не активен.
Failed
Попытайтесь запустить службу, выполнив следующую команду:
systemctl start rke2-server - Когда rke2-сервер будет активен на всех MVM, убедитесь, что все узлы находятся в состоянии готовности:
kubectl get nodes - Когда узлы будут готовы, перейдите к следующему шагу. Если появится сообщение об ошибке, подождите несколько минут и повторите попытку.
- Восстановите базу данных оператора мониторинга кластера (CMO):
kubectl config set-context default --namespace=$(kubectl get pods -A | grep -m 1 -E 'platform|pgo|helmrepo|docker' | cut -d' ' -f1) kubectl -n powerflex patch $(kubectl -n powerflex get postgrescluster -o name) --type merge --patch '{"spec":{"shutdown": false}}' - Проверьте базу данных CMO:
echo $(kubectl get pods -l="postgres-operator.crunchydata.com/control-plane=pgo" --no-headers -o name && kubectl get pods -l="postgres-operator.crunchydata.com/instance" --no-headers -o name) | xargs kubectl get -o wide
- Восстановите базу данных оператора мониторинга кластера (CMO):
- Отслеживайте состояние платформы управления PowerFlex.
- Выполните следующую команду, чтобы определить номер порта для утилиты мониторинга платформы управления PowerFlex:
kubectl get services monitor-app -n powerflex -o jsonpath="{.spec.ports[0].nodePort}{\"\n\"}" - Подождите 20–30 минут и проверьте общее состояние работоспособности платформы управления PowerFlex.
- Выполните следующую команду, чтобы определить номер порта для утилиты мониторинга платформы управления PowerFlex:
- Перейдите в http://< node IP>:p ort/, где IP-адрес узла — это IP-адрес управления, настроенный на любом из MVM (не IP-адрес Ingress или PowerFlex Manager).
- Нажмите на статус PFMP и подождите, пока все записи не станут зелеными.
- Теперь будет доступен основной пользовательский интерфейс PFMP (иногда может подождать 20–30 минут).
Затронутые версии
ПФМП 4.6.1
Исправлено в версии
ПФМП 4.8