NetWorker: NetWorker-serveren, der er implementeret på Red Had Enterprise Linux Pacemaker-failoverklynge, har ingen metode til at justere overvågningsintervallet.

Summary: Periodiske NetWorker-afbrydelser observeret i store klyngemiljøer pga. korte overvågningsafbrydelser. Som standard prøver skærmfunktionen igen tre gange. Der er ingen tilgængelig parameter for "prøv igen". Denne KB definerer potentielle omgåelser og en RFE-detaljer for en Mulighed for at forbedre NetWorker. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

  • NetWorker-serveren er installeret på en failoverklynge med Red Hat Pacemaker (pc'er).
  • Der er periodiske afbrydelser i NetWorker på grund af korte afbrydelser i Pacemaker-ressourcen (pc'er) for NetWorker-serveren (standard er nws)

Cause

Årsagen til klyngeafbrydelse kan variere. Dette afsnit definerer, hvad der bruges til at udføre funktioner til NetWorker-klyngeovervågning. 

Pacemaker-ressourcen for NetWorker har som standard en "skærm"-handling. Handlingen har indstillinger for "interval" og "timeout", som er konfigureret af klyngeadministratoren under den indledende NetWorker-klyngekonfiguration.
root@NWrhelNodeA:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started NWrhelNodeA.emclab.local
    * ip        (ocf::heartbeat:IPaddr):         Started NWrhelNodeA.emclab.local
    * nws       (ocf::EMC_NetWorker:Server):     Started NWrhelNodeA.emclab.local
root@NWrhelNodeA:~# pcs resource config nws
 Resource: nws (class=ocf provider=EMC_NetWorker type=Server)
  Meta Attrs: is-managed=true
  Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0)
              migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0)
              migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0)
              start interval=0 timeout=300 (nws-start-interval-0)
              stop interval=0s timeout=300 (nws-stop-interval-0s)
              validate-all interval=0 timeout=10 (nws-validate-all-interval-0)
              monitor interval=120s timeout=300 (nws-monitor-interval-120s)

NetWorker er konfigureret til at bruge OPEN Cluster Framework (OCF). Overvågningsfunktionen er defineret i /usr/lib/ocf/resource.d/EMC_NetWorker/Server:

NWServer_monitor() {
        local count

        # exit immediately if configuration is not valid
        NWServer_validate_all || exit $?

        quick_monitor
        if [ $? -eq 0 ]; then
                count=0
                while [ $count -lt 3 ]; do
                        echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
                        if [ $? -eq 0 ]; then
                                return $OCF_SUCCESS
                        else
                                count=`expr ${count} + 1`
                                sleep 1
                        fi
                done
        else
                return $OCF_NOT_RUNNING
        fi

        return $OCF_NOT_RUNNING
}

BEMÆRK: Monitor-fejl bør teknisk set ikke forekomme under normale omstændigheder og skal være et tegn på en uoprettelig fejl. Men nogle store miljøer kan opleve periodiske problemer, hvor nsradmin kan mislykkes ved skærmtest af en Pacemaker, selvom det kun er midlertidigt, og det medfører, at Pacemakeren får en fuld afbrydelse.

Resolution

Klyngeadministratoren bør undersøge alle problemer med klyngeafbrydelse. Klyngelogfilerne kan gennemses for oplysninger om afbrydelser:

  • /var/log/pcsd/pcsd.log
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages
NetWorker-serverlogfiler kan også gennemses. NetWorker-serverens daemon.log er placeret på den delte disk (f.eks. /nsr_share).
  • /nsr_share/nsr/logs/daemon.log
Hvis gengivelse i realtid ikke er aktiveret, kan .raw-logfilen gøres til en .log-fil med følgende kommando:
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log

Klyngeadministratoren kan øge skærmintervallet og timeout-værdierne for NetWorker-server-pc'ens ressource. Se Dokumentationen til Red Hat Pacemaker for at få anvisninger til ændring af timeoutværdierne, da Pacemaker-kommandoer kan ændres på tværs af Pacemaker-versioner.

Pacemakeren prøver som standard skærmfunktionen igen tre gange. I nogle tilfælde er dette muligvis ikke tilstrækkeligt. Der åbnes en anmodning om forbedring (RFE) NW-I-2171 i NetWorker. Formålet med RFE er at få introduceret en brugertilpasset "retry count"-variabel for NWServer_monitor. Hvis NetWorker-administratoren definerer et nyt antal forsøg igen, venter skærmfunktionen, indtil den definerede antal forsøg igen er fuldført, før den forårsager en failover. Hvis du vil spore denne RFE, skal du kontakte din Dell Site Account Manager eller salgsrepræsentant med RFE-nummeret NW-I-2171.

Additional Information

Funktionen /usr/lib/ocf/resource.d/EMC_NetWorker/Server nsr_monitor kan ændres af klyngeadministratoren til at inkludere yderligere funktioner. dette scripting ligger imidlertid uden for NetWorker-understøttelsen. Alle ændringer af disse scripts fjernes under en NetWorker-serveropgradering.

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000216735
Article Type: Solution
Last Modified: 28 Mar 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.