NetWorker : Le serveur NetWorker déployé sur le cluster de basculement Red Had Enterprise Linux Pacemaker n’a aucune méthode de réglage de l’intervalle de surveillance.
Summary: Pannes intermittentes de NetWorker observées dans les environnements de grands clusters en raison de brèves interruptions de surveillance. Par défaut, la fonction monitor est réessaie trois fois. Aucun paramètre « retry count » n’est disponible. Cet article de la base de connaissances définit des solutions de contournement potentielles et des détails RFE relatifs à une opportunité d’amélioration netWorker. ...
Symptoms
- Le serveur NetWorker est installé sur un cluster de basculement Red Hat Pacemaker (pcs).
- Il existe des pannes intermittentes dans NetWorker en raison de brèves interruptions de la ressource Pacemaker (PC) pour le serveur NetWorker (par défaut: nws)
Cause
Par défaut, la ressource Pacemaker de NetWorker dispose d’une opération de « surveillance ». L’opération comporte des paramètres « interval » et « timeout » qui sont configurés par l’administrateur du cluster lors de la configuration initiale du cluster NetWorker.
root@NWrhelNodeA:~# pcs resource * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started NWrhelNodeA.emclab.local * ip (ocf::heartbeat:IPaddr): Started NWrhelNodeA.emclab.local * nws (ocf::EMC_NetWorker:Server): Started NWrhelNodeA.emclab.local root@NWrhelNodeA:~# pcs resource config nws Resource: nws (class=ocf provider=EMC_NetWorker type=Server) Meta Attrs: is-managed=true Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0) migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0) migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0) start interval=0 timeout=300 (nws-start-interval-0) stop interval=0s timeout=300 (nws-stop-interval-0s) validate-all interval=0 timeout=10 (nws-validate-all-interval-0) monitor interval=120s timeout=300 (nws-monitor-interval-120s)
NetWorker est configuré pour utiliser Open Cluster Framework (OCF). La fonction de surveillance est définie dans /usr/lib/ocf/resource.d/EMC_NetWorker/Server:
NWServer_monitor() {
local count
# exit immediately if configuration is not valid
NWServer_validate_all || exit $?
quick_monitor
if [ $? -eq 0 ]; then
count=0
while [ $count -lt 3 ]; do
echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
if [ $? -eq 0 ]; then
return $OCF_SUCCESS
else
count=`expr ${count} + 1`
sleep 1
fi
done
else
return $OCF_NOT_RUNNING
fi
return $OCF_NOT_RUNNING
}
Remarque : Une défaillance de l’écran ne devrait techniquement jamais se produire dans des circonstances normales et doit indiquer une erreur irrécupérable. Toutefois, certains environnements de grande taille peuvent observer des problèmes intermittents dans lesquels nsradmin peut échouer sur le test de l’écran d’un pacemaker, même si ce n’est que temporairement, ce qui entraîne une panne complète du pacemaker.
Resolution
L’administrateur de cluster doit examiner tous les problèmes de panne de cluster. Les logs de cluster peuvent être examinés pour obtenir des détails sur les interruptions:
- /var/log/pcsd/pcsd.log
- /var/log/pacemaker/pacemaker.log
- /var/log/messages
- /nsr_share/nsr/logs/daemon.log
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log
L’administrateur de cluster peut augmenter l’intervalle de surveillance et les valeurs de délai d’expiration de la ressource Pc du serveur NetWorker. Reportez-vous à la documentation Red Hat Pacemaker pour obtenir des instructions sur la modification des valeurs d’expiration du délai, car les commandes Pacemaker peuvent changer entre les versions de Pacemaker.
Par défaut, le pacemaker réessaie la fonction d’écran trois fois. Dans certains cas, cela peut ne pas être suffisant. Une demande d’amélioration (RFE) NW-I-2171 est ouverte par rapport à NetWorker. L’objectif de la RFE est d’introduire une variable « retry count » réglable par l’utilisateur pour NWServer_monitor. Si l’administrateur NetWorker définit un nouveau nombre de nouvelles tentatives, la fonction monitor attend que le montant de nouvelle tentative défini soit terminé avant de provoquer un basculement. Si vous souhaitez suivre cette demande RFE, contactez votre responsable de compte de site Dell ou votre agent commercial avec le numéro RFE NW-I-2171.