PowerProtect Data Manager: Nell'interfaccia utente di PPDM, lo stato del cluster di ricerca indica che un determinato nodo di ricerca è in stato di errore
Summary: Il nodo di ricerca non risponde e i processi di indicizzazione rimangono in coda poiché non possono essere eseguiti su nodi con errori. Ciò può verificarsi con un nodo di ricerca che è in versione 19.16 o precedente. ...
Symptoms
Nel nodo di ricerca in stato di errore, accedere a /var/log e controllare il registro dei messaggi. Viene visualizzata una voce simile a:
2024-07-08T10:00:12.049322-04:00 search_node_name kernel: [518834.025665][ C1] watchdog: BUG: soft lockup - CPU#1 stuck for 235970s! [nfsd:2692]
Versioni interessate: 19.16 e versioni precedenti
Analizzato da Dell Engineering in PPDMESC-6808
Cause
Il daemon NFS nel cluster di ricerca raggiunge un livello di sistema operativo "Soft lockup". Per ulteriori informazioni su un soft lockup, leggere:
https://www.suse.com/support/kb/doc/?id=000018705
Resolution
Soluzione alternativa:
Accedere al nodo di ricerca che aveva nfsd che non rispondeva.
source /opt/emc/vmdirect/unit/vmdirect.env && /opt/emc/vmdirect/bin/infranodemgmt get -secret
In questo modo vengono fornite le credenziali amministratore e root per i nodi di ricerca. Aprire la sessione SSH sul nodo di ricerca in questione come utente amministratore ed eseguire i seguenti comandi:
echo 20 > /proc/sys/kernel/watchdog_thresh
Questo comando modifica la soglia watchdog a 20. Tuttavia, l'applicazione di questa modifica alla configurazione non viene mantenuta al riavvio del server. Apportare la seguente modifica per mantenerlo durante il riavvio del server.
echo "kernel.watchdog_thresh=20" > /etc/sysctl.d/99-watchdog_thresh.conf sysctl -p /etc/sysctl.d/99-watchdog_thresh.conf
Correzione permanente: PowerProtect Data Manager versione 19.16 P2 e 19.17+