NetWorker: Il server NetWorker implementato nel cluster di failover Red Had Enterprise Linux Pacemaker non ha alcun metodo per ottimizzare l'intervallo di monitoraggio.
Summary: Interruzioni intermittenti di NetWorker riscontrate in ambienti cluster di grandi dimensioni a causa di brevi interruzioni del monitoraggio. Per impostazione predefinita, la funzione monitor effettua tre tentativi. Non è disponibile alcun parametro "numero tentativi". Questo articolo della KB definisce le potenziali soluzioni alternative e i dettagli di una RFE per un'opportunità di miglioramento di NetWorker. ...
Symptoms
- Il server NetWorker è installato su un cluster di failover Red Hat Pacemaker (PCS).
- Sono presenti interruzioni intermittenti in NetWorker a causa di brevi interruzioni alla risorsa Pacemaker (PCs) per il server NetWorker (l'impostazione predefinita è nws)
Cause
Per impostazione predefinita, la risorsa Pacemaker per NetWorker ha un'operazione "monitor". L'operazione ha le impostazioni "interval" e "timeout" configurate dall'amministratore del cluster durante la configurazione iniziale del cluster NetWorker.
root@NWrhelNodeA:~# pcs resource * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started NWrhelNodeA.emclab.local * ip (ocf::heartbeat:IPaddr): Started NWrhelNodeA.emclab.local * nws (ocf::EMC_NetWorker:Server): Started NWrhelNodeA.emclab.local root@NWrhelNodeA:~# pcs resource config nws Resource: nws (class=ocf provider=EMC_NetWorker type=Server) Meta Attrs: is-managed=true Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0) migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0) migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0) start interval=0 timeout=300 (nws-start-interval-0) stop interval=0s timeout=300 (nws-stop-interval-0s) validate-all interval=0 timeout=10 (nws-validate-all-interval-0) monitor interval=120s timeout=300 (nws-monitor-interval-120s)
NetWorker è configurato per l'utilizzo di Open Cluster Framework (OCF). La funzione di monitoraggio è definita in /usr/lib/ocf/resource.d/EMC_NetWorker/Server:
NWServer_monitor() {
local count
# exit immediately if configuration is not valid
NWServer_validate_all || exit $?
quick_monitor
if [ $? -eq 0 ]; then
count=0
while [ $count -lt 3 ]; do
echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
if [ $? -eq 0 ]; then
return $OCF_SUCCESS
else
count=`expr ${count} + 1`
sleep 1
fi
done
else
return $OCF_NOT_RUNNING
fi
return $OCF_NOT_RUNNING
}
NOTA: Il guasto del monitor non dovrebbe mai verificarsi tecnicamente in circostanze normali e dovrebbe essere indicativo di un errore irreversibile. Tuttavia, in alcuni ambienti di grandi dimensioni potrebbero verificarsi problemi intermittenti in cui nsradmin può non riuscire sul test del monitor di un Pacemaker anche se solo temporaneamente e ciò determina un'interruzione completa dell'attività di Pacemaker.
Resolution
L'amministratore del cluster deve analizzare tutti i problemi di interruzione dell'attività del cluster. I registri del cluster possono essere esaminati per eventuali dettagli sulle interruzioni:
- /var/log/pcsd/pcsd.log
- /var/log/pacemaker/pacemaker.log
- /var/log/messages
- /nsr_share/nsr/logs/daemon.log
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log
L'amministratore del cluster può aumentare i valori dell'intervallo di monitoraggio e del timeout per la risorsa PCs del server NetWorker. Consultare la documentazione di Red Hat Pacemaker per istruzioni su come modificare i valori di timeout, poiché i comandi Pacemaker possono cambiare tra le versioni di Pacemaker.
Per impostazione predefinita, il Pacemaker effettua tre tentativi per la funzione di monitoraggio. In alcuni casi, potrebbe non essere sufficiente. Viene aperta una richiesta di miglioramento (RFE) NW-I-2171 su NetWorker. L'intenzione della RFE è quella di introdurre una variabile di "conteggio tentativi" regolabile per NWServer_monitor. Se l'amministratore di NetWorker definisce un nuovo numero di tentativi, la funzione monitor attende fino al completamento della quantità di tentativi definita prima di causare un failover. Se si desidera tenere traccia di questa RFE, contattare il Dell Site Account Manager o il responsabile vendite con il numero RFE NW-I-2171.