PowerProtect Data Manager. В пользовательском интерфейсе PPDM состояние кластера поиска показывает, что конкретный узел поиска находится в состоянии сбоя
Summary: Узел поиска перестает отвечать, а задания индексирования остаются в состоянии очереди, так как они не могут выполняться на сбойных узлах. Это может произойти с узлом Search версии 19.16 или более ранней. ...
Symptoms
На узле поиска, который находится в состоянии сбоя, перейдите в /var/log и проверьте журнал сообщений. Появится запись, похожая на:
2024-07-08T10:00:12.049322-04:00 search_node_name kernel: [518834.025665][ C1] watchdog: BUG: soft lockup - CPU#1 stuck for 235970s! [nfsd:2692]
Затронутые версии 19.16 и ниже
Исследование проведено инженерным отделом Dell в PPDMESC-6808
Cause
Управляющая программа NFS в кластере поиска достигает уровня ОС «Soft lockup». Дополнительные сведения о мягкой блокировке см.:
https://www.suse.com/support/kb/doc/?id=000018705
Resolution
Временное решение.
Войдите в узел поиска, на котором nfsd не отвечает.
source /opt/emc/vmdirect/unit/vmdirect.env && /opt/emc/vmdirect/bin/infranodemgmt get -secret
В нем предоставляются учетные данные администратора и пользователя root для узлов поиска. Откройте сеанс SSH на нужном узле поиска в качестве пользователя admin и выполните следующие команды:
echo 20 > /proc/sys/kernel/watchdog_thresh
Эта команда изменяет пороговое значение таймера наблюдения на 20. Однако это изменение конфигурации не сохраняется после перезапуска сервера. Внесите следующее изменение, чтобы сохранить это значение при перезапуске сервера.
echo "kernel.watchdog_thresh=20" > /etc/sysctl.d/99-watchdog_thresh.conf sysctl -p /etc/sysctl.d/99-watchdog_thresh.conf
Окончательное решение Выпуски PowerProtect Data Manager 19.16 P2 и 19.17+