NetWorker: NetWorker-server som er implementert på Red Had Enterprise Linux Pacemaker-failover-klynge, har ingen metode for å justere overvåkingsintervallet.

Summary: Uregelmessige NetWorker-nedetid observert i store klyngemiljøer på grunn av korte overvåkingsavbrudd. Skjermens funksjon aktiveres på nytt tre ganger som standard. Det er ingen tilgjengelig parameter for "antall forsøk på nytt". Denne KB-en definerer potensielle midlertidige løsninger og en RFE-informasjon for en mulighet for forbedring av NetWorker. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

  • NetWorker-serveren er installert på en Red Hat Pacemaker-klynge (PC-er).
  • Det er periodisk nedetid i NetWorker på grunn av korte avbrudd i Pacemaker-ressursen (PC-er) for NetWorker-server (standard er nws)

Cause

Årsaken til nedetid i klyngen kan variere. Denne delen definerer hva som brukes til å utføre NetWorker-klyngeovervåkingsfunksjoner. 

Pacemaker-ressursen for NetWorker har som standard en «skjerm»-operasjon. Operasjonen har innstillinger for "intervall" og "tidsavbrudd", som konfigureres av klyngeadministratoren under første Konfigurasjon av NetWorker-klynge.
root@NWrhelNodeA:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started NWrhelNodeA.emclab.local
    * ip        (ocf::heartbeat:IPaddr):         Started NWrhelNodeA.emclab.local
    * nws       (ocf::EMC_NetWorker:Server):     Started NWrhelNodeA.emclab.local
root@NWrhelNodeA:~# pcs resource config nws
 Resource: nws (class=ocf provider=EMC_NetWorker type=Server)
  Meta Attrs: is-managed=true
  Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0)
              migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0)
              migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0)
              start interval=0 timeout=300 (nws-start-interval-0)
              stop interval=0s timeout=300 (nws-stop-interval-0s)
              validate-all interval=0 timeout=10 (nws-validate-all-interval-0)
              monitor interval=120s timeout=300 (nws-monitor-interval-120s)

NetWorker er konfigurert til å bruke Open Cluster Framework (OCF). Overvåkingsfunksjonen er definert i /usr/lib/ocf/resource.d/EMC_NetWorker/Server:

NWServer_monitor() {
        local count

        # exit immediately if configuration is not valid
        NWServer_validate_all || exit $?

        quick_monitor
        if [ $? -eq 0 ]; then
                count=0
                while [ $count -lt 3 ]; do
                        echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
                        if [ $? -eq 0 ]; then
                                return $OCF_SUCCESS
                        else
                                count=`expr ${count} + 1`
                                sleep 1
                        fi
                done
        else
                return $OCF_NOT_RUNNING
        fi

        return $OCF_NOT_RUNNING
}

MERK: Monitor failure should technically never occur under normal circumstances and should be indicative of an unrecoverable error. (Skjermfeil skal teknisk sett aldri forekomme under normale forhold og bør være et tegn på en uopprettelig feil. Noen store miljøer kan imidlertid støte på periodiske problemer der nsradmin kan mislykkes på skjermtest av en Pacemaker, selv om det bare er midlertidig, og det fører til at Pacemaker tar et fullstendig strømbrudd.

Resolution

Administratoren for klyngen bør undersøke alle problemer med nedetid i klyngen. Klyngeloggene kan gjennomgås for alle detaljer om avbrudd:

  • /var/log/pcsd/pcsd.log
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages
NetWorker-serverlogger kan også gjennomgås. NetWorker-serverens daemon.log er plassert på den delte disken (for eksempel /nsr_share).
  • /nsr_share/nsr/logs/daemon.log
Hvis gjengivelse i sanntid ikke er aktivert, kan .raw-loggen gjengis i en .log-fil med følgende kommando:
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log

Administratoren for klyngen kan øke verdiene for skjermintervall og tidsavbrudd for Ressursen for NetWorker-server-PC-er. Se Dokumentasjon for Red Hat Pacemaker hvis du vil ha informasjon om hvordan du endrer verdiene for tidsavbrudd, ettersom Pacemaker-kommandoer kan endres på tvers av Pacemaker-versjoner.

Pacemaker aktiverer skjermfunksjonen på nytt tre ganger som standard. I enkelte tilfeller er dette kanskje ikke tilstrekkelig. En forespørsel om utvidelse (RFE) NW-I-2171 åpnes mot NetWorker. Hensikten med RFE er å få en variabel for å endre antall brukere introdusert for NWServer_monitor. Hvis NetWorker-administratoren definerer et nytt antall forsøk, venter skjermfunksjonen til den definerte mengden forsøk på nytt er fullført før det forårsaker en failover. Hvis du vil spore denne RFE-en, kan du kontakte kundekontakten eller salgsrepresentanten til Dell med RFE-nummeret NW-I-2171.

Additional Information

Funksjonen /usr/lib/ocf/resource.d/EMC_NetWorker/Server nsr_monitor kan endres av klyngeadministratoren for å inkludere flere funksjoner. Denne skriptingen er imidlertid utenfor NetWorker-støtte. Eventuelle endringer i disse skriptene fjernes under en NetWorker-serveroppgradering.

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000216735
Article Type: Solution
Last Modified: 28 Mar 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.