PowerProtect Data Manager: Na interface do usuário do PPDM, o status do cluster de pesquisa mostra que um nó de pesquisa específico está em estado de falha
Summary: O nó de pesquisa para de responder e os trabalhos de indexação permanecem em um estado de fila, pois não podem ser executados em nós com falha. Isso pode acontecer com um nó de pesquisa que seja a versão 19.16 ou anterior. ...
Symptoms
No nó de pesquisa que está em estado de falha, vá para /var/log e verifique o log de mensagens. Você verá uma entrada semelhante a:
2024-07-08T10:00:12.049322-04:00 search_node_name kernel: [518834.025665][ C1] watchdog: BUG: soft lockup - CPU#1 stuck for 235970s! [nfsd:2692]
Versões afetadas: 19.16 e anterior
Investigado pela engenharia da Dell no PPDMESC-6808
Cause
O daemon NFS no cluster de pesquisa atinge um nível de sistema operacional "Soft lockup". Para obter mais detalhes sobre um travamento flexível, leia:
https://www.suse.com/support/kb/doc/?id=000018705
Resolution
Solução temporária:
Faça login no nó de pesquisa que tinha o nfsd que não estava respondendo.
source /opt/emc/vmdirect/unit/vmdirect.env && /opt/emc/vmdirect/bin/infranodemgmt get -secret
Isso fornece as credenciais de administrador e root para os nós de pesquisa. Abra a sessão SSH para o nó de pesquisa em questão como usuário administrador e execute os seguintes comandos:
echo 20 > /proc/sys/kernel/watchdog_thresh
Esse comando modifica o limite do watchdog para 20. No entanto, a aplicação dessa alteração de configuração não persiste durante a reinicialização do servidor. Faça a seguinte alteração para manter isso na reinicialização do servidor.
echo "kernel.watchdog_thresh=20" > /etc/sysctl.d/99-watchdog_thresh.conf sysctl -p /etc/sysctl.d/99-watchdog_thresh.conf
Correção permanente: PowerProtect Data Manager versão 19.16 P2 & versão 19.17+