NetWorker: NetWorker server geïmplementeerd op Red Had Enterprise Linux Pacemaker failovercluster hebben geen methode om het controleinterval af te stemmen.

Summary: Onregelmatige uitval van NetWorker waargenomen in grote clusteromgevingen als gevolg van korte monitoringonderbrekingen. De monitorfunctie wordt standaard drie keer opnieuw weergegeven. Er is geen parameter 'retry count' beschikbaar. In dit KB-artikel worden mogelijke tijdelijke oplossingen en RFE-details voor een NetWorker-uitbreidingskans gedefinieerd. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

  • De NetWorker-server is geïnstalleerd op een Failovercluster van Red Hat Pacemaker (pc's).
  • Er zijn af en toe storingen in NetWorker als gevolg van korte onderbrekingen van de Pacemaker-bron (pc's) voor de NetWorker-server (standaard is nws)

Cause

De oorzaak van clusterstoringen kan variëren. In dit gedeelte wordt gedefinieerd wat wordt gebruikt voor het uitvoeren van netWorker clustermonitorfuncties. 

Standaard heeft de Pacemaker-resource voor NetWorker een 'monitor'-bewerking. De bewerking heeft instellingen voor "interval" en "time-out" die door de clusterbeheerder zijn geconfigureerd tijdens de initiële NetWorker clusterconfiguratie.
root@NWrhelNodeA:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started NWrhelNodeA.emclab.local
    * ip        (ocf::heartbeat:IPaddr):         Started NWrhelNodeA.emclab.local
    * nws       (ocf::EMC_NetWorker:Server):     Started NWrhelNodeA.emclab.local
root@NWrhelNodeA:~# pcs resource config nws
 Resource: nws (class=ocf provider=EMC_NetWorker type=Server)
  Meta Attrs: is-managed=true
  Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0)
              migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0)
              migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0)
              start interval=0 timeout=300 (nws-start-interval-0)
              stop interval=0s timeout=300 (nws-stop-interval-0s)
              validate-all interval=0 timeout=10 (nws-validate-all-interval-0)
              monitor interval=120s timeout=300 (nws-monitor-interval-120s)

NetWorker is geconfigureerd voor gebruik van Open Cluster Framework (OCF). De bewakingsfunctie wordt gedefinieerd in /usr/lib/ocf/resource.d/EMC_NetWorker/Server:

NWServer_monitor() {
        local count

        # exit immediately if configuration is not valid
        NWServer_validate_all || exit $?

        quick_monitor
        if [ $? -eq 0 ]; then
                count=0
                while [ $count -lt 3 ]; do
                        echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
                        if [ $? -eq 0 ]; then
                                return $OCF_SUCCESS
                        else
                                count=`expr ${count} + 1`
                                sleep 1
                        fi
                done
        else
                return $OCF_NOT_RUNNING
        fi

        return $OCF_NOT_RUNNING
}

OPMERKING: Een monitorfout mag technisch gezien nooit optreden onder normale omstandigheden en dient een indicatie te zijn van een onherstelbare fout. Sommige grote omgevingen kunnen echter af en toe problemen ondervinden waarbij nsradmin kan mislukken bij de monitortest van een Pacemaker, zelfs als deze slechts tijdelijk is, waardoor de Pacemaker een volledige storing ondervindt.

Resolution

De clusterbeheerder moet alle problemen met de clusterstoring onderzoeken. De clusterlogboeken kunnen worden gecontroleerd op details over onderbrekingen:

  • /var/log/pcsd/pcsd.log
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages
NetWorker serverlogboeken kunnen ook worden gecontroleerd. Het daemon.log van de NetWorker server bevindt zich op de gedeelde schijf (bijvoorbeeld /nsr_share).
  • /nsr_share/nsr/logs/daemon.log
Als real-time rendering niet is ingeschakeld, kan het .raw-logboek worden gerenderd in een .log-bestand met de volgende opdracht:
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log

De clusterbeheerder kan het monitorinterval en de time-outwaarden voor de NetWorker server-pc's verhogen. Zie de documentatie van Red Hat Pacemaker voor instructies over het wijzigen van de time-outwaarden, aangezien Pacemaker-opdrachten kunnen veranderen in alle Pacemaker versies.

Standaard zal de Pacemaker de monitorfunctie drie keer opnieuw invoeren. In sommige gevallen is dit mogelijk niet voldoende. Een Request For Enhancement (RFE) NW-I-2171 wordt geopend op NetWorker. De bedoeling van de RFE is om een instelbare 'retry count'-variabele voor de gebruiker te laten invoeren voor NWServer_monitor. Als de NetWorker-administrator een nieuw aantal pogingen definieert, wacht de monitorfunctie tot het gedefinieerde aantal pogingen is voltooid voordat een failover wordt veroorzaakt. Als u deze RFE wilt volgen, neemt u contact op met uw Dell site accountmanager of verkoopvertegenwoordiger met het RFE-nummer NW-I-2171.

Additional Information

De functie /usr/lib/ocf/resource.d/EMC_NetWorker/Server nsr_monitor kan door de clusterbeheerder worden gewijzigd om extra functies op te nemen; deze scripting valt echter buiten netWorker-ondersteuning. Eventuele wijzigingen in deze scripts worden verwijderd tijdens een upgrade van de NetWorker server.

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000216735
Article Type: Solution
Last Modified: 28 Mar 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.