PowerProtect Data Manager: In der PPDM-Benutzeroberfläche zeigt der Status des Suchclusters an, dass sich ein bestimmter Such-Node in einem fehlerhaften Zustand befindet
Summary: Der Such-Node reagiert nicht mehr und Indexierungsjobs verbleiben in der Warteschlange, da sie nicht auf ausgefallenen Nodes ausgeführt werden können. Dies kann bei einem Such-Node passieren, der Version 19.16 oder älter ist. ...
Symptoms
Gehen Sie auf dem Such-Node, der sich in einem fehlerhaften Zustand befindet, zu /var/log und überprüfen Sie das Meldungsprotokoll. Ein Eintrag ähnlich dem folgenden wird angezeigt:
2024-07-08T10:00:12.049322-04:00 search_node_name kernel: [518834.025665][ C1] watchdog: BUG: soft lockup - CPU#1 stuck for 235970s! [nfsd:2692]
Betroffene Versionen: 19.16 und niedriger
Untersucht von Dell Engineering in PPDMESC-6808
Cause
Der NFS-Daemon auf dem Suchcluster erreicht einen "Soft-Lockup" auf Betriebssystemebene. Weitere Informationen zu einem Soft-Lockup finden Sie unter:
https://www.suse.com/support/kb/doc/?id=000018705
Resolution
Problemumgehung:
Melden Sie sich beim Such-Node an, auf dem nfsd nicht reagiert hat.
source /opt/emc/vmdirect/unit/vmdirect.env && /opt/emc/vmdirect/bin/infranodemgmt get -secret
Dadurch werden die Admin- und Root-Zugangsdaten für die Such-Nodes bereitgestellt. Öffnen Sie eine SSH-Sitzung für den betreffenden Such-Node als Admin-Nutzer und führen Sie die folgenden Befehle aus:
echo 20 > /proc/sys/kernel/watchdog_thresh
Mit diesem Befehl wird der Watchdog-Schwellenwert in 20 geändert. Das Anwenden dieser Konfigurationsänderung bleibt jedoch beim Neustart des Servers nicht erhalten. Nehmen Sie die folgende Änderung vor, um dies beim Serverneustart beizubehalten.
echo "kernel.watchdog_thresh=20" > /etc/sysctl.d/99-watchdog_thresh.conf sysctl -p /etc/sysctl.d/99-watchdog_thresh.conf
Dauerhafte Lösung: PowerProtect Data Manager Version 19.16 P2 und 19.17+