Диспетчер даних PowerProtect: В інтерфейсі PPDM статус пошукового кластера показує, що певний пошуковий вузол перебуває в стані помилки
Summary: Вузол пошуку перестає реагувати, а завдання індексації залишаються в стані черги, оскільки вони не можуть виконуватися на несправних вузлах. Це може статися з вузлом Пошуку, випуску якого 19.16 або ранішої версії. ...
Symptoms
На вузлі пошуку, який знаходиться в стані помилки, перейдіть до /var/log і перевірте журнал повідомлень. Ви бачите запис, схожий на:
2024-07-08T10:00:12.049322-04:00 search_node_name kernel: [518834.025665][ C1] watchdog: BUG: soft lockup - CPU#1 stuck for 235970s! [nfsd:2692]
Версії, на які вплине: 19.16 і нижче
Досліджено Dell Engineering у PPDMESC-6808
Cause
Демон NFS у пошуковому кластері досягає рівня ОС «М'яке блокування». Для отримання більш детальної інформації про м'яке блокування, прочитайте:
https://www.suse.com/support/kb/doc/?id=000018705
Resolution
Спосіб вирішення:
Вхід у вузол пошуку, у якого був nfsd, не відповідав.
source /opt/emc/vmdirect/unit/vmdirect.env && /opt/emc/vmdirect/bin/infranodemgmt get -secret
Це надає облікові дані адміністратора та root для пошукових вузлів. Відкрийте сеанс SSH у відповідному вузлі пошуку як користувач адміністратора та виконайте такі команди:
echo 20 > /proc/sys/kernel/watchdog_thresh
Ця команда змінює поріг сторожового пса на 20. Однак застосування цієї зміни конфігурації не зберігається під час перезавантаження сервера. Внесіть наступну зміну, щоб зберегти це протягом усього перезавантаження сервера.
echo "kernel.watchdog_thresh=20" > /etc/sysctl.d/99-watchdog_thresh.conf sysctl -p /etc/sysctl.d/99-watchdog_thresh.conf
Постійне виправлення: PowerProtect Data Manager версії 19.16 P2 та 19.17+