NetWorker: O servidor do NetWorker implementado no cluster de failover Red Had Enterprise Linux Pacemaker não tem um método de ajuste do intervalo de monitoramento.
Summary: Interrupções intermitentes do NetWorker observadas em ambientes de clusters grandes devido a breves interrupções de monitoramento. Por padrão, a função do monitor é repetida três vezes. Não há nenhum parâmetro "retry count" disponível. Este artigo da KB define possíveis soluções temporárias e detalhes de RFE para uma oportunidade de aprimoramento do NetWorker. ...
Symptoms
- O servidor do NetWorker é instalado em um cluster de failover do Red Hat Pacemaker (pcs).
- Há interrupções intermitentes no NetWorker devido a breves interrupções no recurso Pacemaker (pcs) para o servidor do NetWorker (o padrão é nws)
Cause
Por padrão, o recurso Pacemaker do NetWorker tem uma operação de "monitor". A operação tem configurações de "intervalo" e "timeout" que são configuradas pelo administrador do cluster durante a configuração inicial do cluster do NetWorker.
root@NWrhelNodeA:~# pcs resource * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started NWrhelNodeA.emclab.local * ip (ocf::heartbeat:IPaddr): Started NWrhelNodeA.emclab.local * nws (ocf::EMC_NetWorker:Server): Started NWrhelNodeA.emclab.local root@NWrhelNodeA:~# pcs resource config nws Resource: nws (class=ocf provider=EMC_NetWorker type=Server) Meta Attrs: is-managed=true Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0) migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0) migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0) start interval=0 timeout=300 (nws-start-interval-0) stop interval=0s timeout=300 (nws-stop-interval-0s) validate-all interval=0 timeout=10 (nws-validate-all-interval-0) monitor interval=120s timeout=300 (nws-monitor-interval-120s)
O NetWorker está configurado para usar o Open Cluster Framework (OCF). A função de monitoramento é definida em /usr/lib/ocf/resource.d/EMC_NetWorker/Server:
NWServer_monitor() {
local count
# exit immediately if configuration is not valid
NWServer_validate_all || exit $?
quick_monitor
if [ $? -eq 0 ]; then
count=0
while [ $count -lt 3 ]; do
echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
if [ $? -eq 0 ]; then
return $OCF_SUCCESS
else
count=`expr ${count} + 1`
sleep 1
fi
done
else
return $OCF_NOT_RUNNING
fi
return $OCF_NOT_RUNNING
}
Nota: Tecnicamente, a falha do monitor nunca deve ocorrer em circunstâncias normais e deve ser indicativa de um erro irrecuperável. No entanto, alguns ambientes grandes podem observar problemas intermitentes em que o nsradmin pode falhar no teste do monitor de um Pacemaker, mesmo que apenas temporariamente, e isso faz com que o Pacemaker tenha uma interrupção total.
Resolution
O administrador do cluster deve investigar todos os problemas de paralisação do cluster. Os registros do cluster podem ser analisados para obter detalhes sobre interrupções:
- /var/log/pcsd/pcsd.log
- /var/log/pacemaker/pacemaker.log
- /var/log/messages
- /nsr_share/nsr/logs/daemon.log
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log
O administrador do cluster pode aumentar os valores de intervalo e timeout do monitor para o recurso de PCs do servidor do NetWorker. Consulte a documentação do Red Hat Pacemaker para obter instruções sobre como alterar os valores de timeout, pois os comandos pacemaker podem mudar em todas as versões do Pacemaker.
Por padrão, o Pacemaker repetiu a função do monitor três vezes. Em alguns casos, isso pode não ser suficiente. Uma solicitação de aprimoramento (RFE) NW-I-2171 é aberta em relação ao NetWorker. A intenção da RFE é ter uma variável de "contagem de repetições" ajustável do usuário introduzida para NWServer_monitor. Se o administrador do NetWorker definir uma nova contagem de repetições, a função do monitor aguardará até que o valor definido de repetição seja concluído antes de causar um failover. Se você quiser rastrear essa RFE, entre em contato com seu gerente de contas do site da Dell ou representante de vendas com o número de RFE NW-I-2171.