NetWorker: NetWorker-server som är distribuerad i Red Had Enterprise Linux Pacemaker-redundanskluster har ingen metod för att justera övervakningsintervallet.

Summary: Tillfälliga NetWorker-avbrott som observerats i stora klustermiljöer på grund av korta övervakningsavbrott. Som standard försöker skärmfunktionen igen tre gånger. Parametern "retry count" är inte tillgänglig. I den här kunskapsdatabasartikeln definieras möjliga lösningar och RFE-information om en förbättringsmöjlighet för NetWorker. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

  • NetWorker-servern är installerad på ett Red Hat Pacemaker-kluster med växling vid fel (pcs).
  • Det blir tillfälliga avbrott i NetWorker på grund av korta avbrott i Pacemaker-resursen (pcs) för NetWorker-servern (standard är nws)

Cause

Orsaken till klusterstopp kan variera. I det här avsnittet beskrivs vad som används för att utföra netWorker-klusterövervakningsfunktioner. 

Som standard har Pacemaker-resursen för NetWorker en "skärm"-åtgärd. Åtgärden har inställningar för intervall och timeout som konfigureras av klusteradministratören under den första NetWorker-klusterkonfigurationen.
root@NWrhelNodeA:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started NWrhelNodeA.emclab.local
    * ip        (ocf::heartbeat:IPaddr):         Started NWrhelNodeA.emclab.local
    * nws       (ocf::EMC_NetWorker:Server):     Started NWrhelNodeA.emclab.local
root@NWrhelNodeA:~# pcs resource config nws
 Resource: nws (class=ocf provider=EMC_NetWorker type=Server)
  Meta Attrs: is-managed=true
  Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0)
              migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0)
              migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0)
              start interval=0 timeout=300 (nws-start-interval-0)
              stop interval=0s timeout=300 (nws-stop-interval-0s)
              validate-all interval=0 timeout=10 (nws-validate-all-interval-0)
              monitor interval=120s timeout=300 (nws-monitor-interval-120s)

NetWorker har konfigurerats för användning av Open Cluster Framework (OCF). Övervakningsfunktionen definieras i /usr/lib/ocf/resource.d/EMC_NetWorker/Server:

NWServer_monitor() {
        local count

        # exit immediately if configuration is not valid
        NWServer_validate_all || exit $?

        quick_monitor
        if [ $? -eq 0 ]; then
                count=0
                while [ $count -lt 3 ]; do
                        echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
                        if [ $? -eq 0 ]; then
                                return $OCF_SUCCESS
                        else
                                count=`expr ${count} + 1`
                                sleep 1
                        fi
                done
        else
                return $OCF_NOT_RUNNING
        fi

        return $OCF_NOT_RUNNING
}

Obs! Övervakningsfel ska tekniskt sett aldrig inträffa under normala omständigheter och bör vara ett tecken på ett oåterkalleligt fel. Vissa stora miljöer kan dock drabbas av återkommande problem där nsradmin kan misslyckas vid skärmtest av en Pacemaker även om så bara är tillfälligt, vilket leder till att Pacemaker får ett fullständigt avbrott.

Resolution

Klusteradministratören bör undersöka alla problem med klusterfel. Klusterloggarna kan granskas för mer information om avbrott:

  • /var/log/pcsd/pcsd.log
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages
NetWorker-serverloggar kan också granskas. NetWorker-serverns daemon.log finns på den delade disken (t.ex. /nsr_share).
  • /nsr_share/nsr/logs/daemon.log
Om återgivning i realtid inte är aktiverad kan .raw-loggen lämnas in i en .log-fil med följande kommando:
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log

Klusteradministratören kan öka skärmintervall- och timeoutvärdena för NetWorker-serverdatorresursen. Mer information om hur du ändrar timeoutvärdena finns i Dokumentationen för Red Hat Pacemaker eftersom Pacemaker-kommandon kan ändras mellan Pacemaker-versioner.

Som standard försöker Pacemaker att återställa skärmfunktionen tre gånger. I vissa fall kanske detta inte räcker. En begäran om förbättring (RFE) NW-I-2171 öppnas mot NetWorker. RFE:s avsikt är att använda en valbar variabel för "retry count" som har införts för NWServer_monitor. Om NetWorker-administratören definierar ett nytt antal försök väntar övervakningsfunktionen tills det definierade omförsöksbeloppet har slutförts innan det orsakar en failover. Om du vill spåra denna RFE kontaktar du din platskontoansvarige på Dell eller en säljare med RFE-numret NW-I-2171.

Additional Information

Funktionen /usr/lib/ocf/resource.d/EMC_NetWorker/Server nsr_monitor kan ändras av klusteradministratören så att den innehåller ytterligare funktioner. Men skriptet ligger utanför NetWorker-supporten. Eventuella ändringar av dessa skript tas bort under en NetWorker-serveruppgradering.

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000216735
Article Type: Solution
Last Modified: 28 Mar 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.