NetWorker: Probleemoplossingsgids voor een serviceprobleem met Red Hat Cluster

Summary: In dit artikel vindt u een overzicht van het aanpakken van opstartproblemen met de NetWorker service voor NetWorker servers die zijn geïmplementeerd op Red Hat pacemakerclusters (pc's). Dit artikel is bedoeld voor NetWorker back-upbeheerders en NetWorker support om te helpen bij het oplossen van deze problemen. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

NetWorker-servers kunnen worden geïmplementeerd in een clusterfailoverconfiguratie op Red Hat-knooppunten met behulp van een pacemaker (pcs) diensten. NetWorker is op meerdere knooppunten geïnstalleerd. De serverdatabases bevinden zich op gedeelde opslag en worden doorgegeven tussen knooppunten op basis van het actieve knooppunt in de pacemakerconfiguratie. De NetWorker-server maakt gebruik van een gedeelde clusternaam en een gedeeld IP-adres, zodat een consistente naamgeving en adressering wordt gewaarborgd, ongeacht het hostingknooppunt. Raadpleeg de NetWorker Cluster Integration Guide voor meer informatie over het instellen van NetWorker in een cluster. Deze handleiding is beschikbaar op de Dell Support productpagina

Clustertopologie:

In dit artikel wordt een voorbeeldcluster gebruikt met de volgende configuratie:
 
NetWorker clustertopologie

Hostnaam
IP-adres
Functie
lnx-node1.amer.lan
192.168.9.108
Fysiek knooppunt 1
lnx-node2.amer.lan
192.168.9.109
Fysiek knooppunt 2
lnx-nwcluster.amer.lan
192.168.9.110
Logische naam gebruikt door NetWorker


Het bestandssysteem op de knooppunten beheert NetWorker met behulp van symbolische koppelingen.

Actief knooppunt:

Een actief knooppunt waar de NetWorker-server wordt gestart, koppelt symbolisch /nsr Naar de gedeelde opslaglocatie:
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     14 Oct  5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x.  11 root root    116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x.   3 root root     17 Aug 31 17:23 nsr_share

Passief knooppunt:

Een "passief" knooppunt koppelt symbolisch /nsr Aan /nsr.NetWorker.local:
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     20 Oct  3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x.  11 root root    116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x.   2 root root      6 Aug 31 17:18 nsr_share

Wanneer een knooppunt zich in een passieve status bevindt, wordt het nsrexecd (NetWorker client) software wordt uitgevoerd met behulp van /nsr.NetWorker.local. Elk fysiek knooppunt heeft zijn eigen clientresource met behulp van de oplosbare naam en het IP-adres van het fysieke knooppunt via het Domain Name System (DNS). De NetWorker-server wordt alleen uitgevoerd met behulp van de gedeelde storage (/nsr_share) en gebruikt het gedeelde IP-adres en de hostnaam. Dit kan slechts op één knooppunt tegelijk actief zijn. 

De volgende pacemaker (pcs) commando's worden gebruikt om een overzicht te krijgen van de configuratie en status van de pacemaker:

  • Clusterconfiguratie:

pcs status
Voorbeeld:
root@lnx-node1:~# pcs status 
Cluster name: rhelclus 
Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) 
Cluster Summary: 
  * Stack: corosync 
  * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum 
  * Last updated: Thu Oct 5 10:59:20 2023 
  * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan 
  * 2 nodes configured 
  * 3 resource instances configured 

Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan 
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan 
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled
Aan de hand van de bovenstaande uitvoer kunnen we bepalen hoeveel knooppunten zich in het cluster bevinden en of er knooppunten offline of in stand-bystatus zijn. De uitvoer laat ook zien welk knooppunt het gedeelde bestandssysteem host (fs), IP-adres van de clusterbron (ip) en de NetWorker-services (nws). De resourcenamen die hier worden gebruikt, zijn de standaardwaarden die worden gebruikt in de NetWorker Cluster Integration Guide; Het is echter mogelijk dat er verschillende namen worden gebruikt. Als u verschillende namen gebruikt, noteer dan de bronnamen en vervang deze indien nodig wanneer u de instructies in dit artikel volgt.
  • Configuratie van pacemakerbronnen:
pcs resource config

Voorbeeld:

root@lnx-node1:~# pcs resource config 
Group: NW_group 
  Resource: fs (class=ocf provider=heartbeat type=Filesystem)
    Attributes: fs-instance_attributes 
      device=/dev/sdb1 
      directory=/nsr_share 
      fstype=xfs 
    Operations: 
      monitor: fs-monitor-interval-20 
        interval=20 
        timeout=300 
      start: fs-start-interval-0s 
        interval=0s 
        timeout=60s 
      stop: fs-stop-interval-0s interval=0s timeout=60s 
  Resource: ip (class=ocf provider=heartbeat type=IPaddr) 
    Attributes: ip-instance_attributes 
      cidr_netmask=24 
      ip=192.1xx.9.1x0 
      nic=ens192 
    Operations: 
      monitor: ip-monitor-interval-15 
        interval=15 
        timeout=120 
      start: ip-start-interval-0s 
        interval=0s 
        timeout=20s 
      stop: ip-stop-interval-0s 
        interval=0s 
        timeout=20s 
  Resource: nws (class=ocf provider=EMC_NetWorker type=Server) 
    Meta Attributes: nws-meta_attributes 
      is-managed=true 
    Operations: 
      meta-data: nws-meta-data-interval-0 
        interval=0 
        timeout=10 
      migrate_from: nws-migrate_from-interval-0 
        interval=0 
        timeout=120
      migrate_to: nws-migrate_to-interval-0 
        interval=0 
        timeout=60 
      monitor: nws-monitor-interval-100 
        interval=100 
        timeout=1200 
      start: nws-start-interval-0 
        interval=0 
        timeout=600 
      stop: nws-stop-interval-0 
        interval=0 
        timeout=600 
      validate-all: nws-validate-all-interval-0 
        interval=0 
        timeout=10

 In de bovenstaande opdracht worden alle pcs Configuratie van bronnen. Belangrijke dingen om op te letten tijdens het eerste overzicht:

  • FS resource "device=": Dit is het apparaat dat wordt gebruikt als koppelpunt voor de gedeelde storage op het knooppuntbestandssysteem. Dit apparaat moet op elk knooppunt hetzelfde zijn. Dit wordt verderop in deze KB besproken.
  • FS resource "directory=": Dit is de map die de gedeelde NetWorker-storage gebruikt. De directory moet worden gekoppeld als het koppelpunt voor het veld "device=". Dit wordt verderop in deze KB besproken.
  • IP resource "ip=": Dit is het IP-adres dat is gekoppeld aan de logische (gedeelde) hostnaam die door de NetWorker-server wordt gebruikt. Dit IP-adres wordt gehost op het actieve knooppunt.
  • Pacemakerzichtbaarheid van het gedeelde adres en opslag:
lcmap

Voorbeeld:

root@lnx-node1:~# lcmap
type: NSR_CLU_TYPE;
clu_type: NSR_LC_TYPE;
interface version: 1.0;

type: NSR_CLU_VIRTHOST;
hostname: 192.168.9.110;
local: TRUE;
owned paths: /nsr_share;

clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;
OPMERKING: De hostnaam moet het IP-adres retourneren dat overeenkomt met de pcs resource config Veld "ip=". De paden in eigendom moeten overeenkomen met de pcs resource config "directory=" veld. In sommige gevallen, wanneer een opstartprobleem wordt waargenomen, wordt het lcmap De opdracht retourneert niet de velden hostnaam, lokale of eigen paden; Dit duidt op een probleem.

Eerste diagnose:

Als NetWorker Services niet kunnen worden gestart, controleert u het pcs Bronstatus om te zien welke resource defect is:

pcs status
Voorbeeld: 
root@lnx-node1:~# pcs status 
... 
... 
Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs    (ocf::heartbeat:Filesystem):   Started lnx-node1.amer.lan 
    * ip    (ocf::heartbeat:IPaddr):       Started lnx-node1.amer.lan 
    * nws   (ocf::EMC_NetWorker:Server):   Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

 Als er een fout wordt waargenomen, wordt er een algemene foutfout geretourneerd. De defecte resources worden weergegeven als FAILED. 

  • FS (bestandssysteem): Als het bestandssysteem een mislukte status heeft, raadpleegt u het onderstaande gedeelte over Fouten in het bestandssysteem.
  • IP (IPaddr): Als de IPaddr de status Failed heeft, raadpleegt u het onderstaande gedeelte over IPaddr Failures.
  • NWS (server): Als de NetWorker-server de status Mislukt heeft, voert u het volgende uit:
  1. Controleer de daemon.raw voor foutberichten die tijdens het opstarten verschijnen. De /nsr_share/nsr/daemon.raw bevindt zich in het pad voor gedeelde opslag. De clientdaemon van de fysieke knooppunten bevindt zich in de /nsr.NetWorker.local/logs/daemon.raw. Zie Dell artikel NetWorker: Hoe nsr_render_log te gebruiken
  2. Als standaardlogboekregistratie niet voldoende is, schakelt u foutopsporing als volgt in:
    1. Probeer de "Server"-bron opnieuw te starten: 
pcs resource cleanup nws
  1. Gebruik de dbgcommand om foutopsporing in te schakelen op de nsrd proces:
dbgcommand -n nsrd Debug=#
Stel een foutopsporingsniveau in met behulp van de nummers 1 tot en met 9. Bewaak de daemon.raw voor aanvullende berichten die naar een probleem kunnen verwijzen.
  1. Kijk in het /var/log/pcsd/pcsd.log voor eventuele fouten.
  2. Kijk in het /var/log/pacemaker/pacemaker.log voor eventuele fouten.
  3. Kijk in het /var/log/messages bestand bestand voor eventuele fouten.
OPMERKING: Wanneer u de pcsd, pacemaker en berichtenlogboeken zoeken naar berichten die zijn geregistreerd tijdens dezelfde tijdstempels als die waarin de NetWorker-services probeerden te starten. Controleer op fouten of storingen die samenvallen met een opstartfout van de service.

Fouten in het bestandssysteem: 

  1. Bekijk de hulpmiddelen voor de pacemaker:
pcs resource
  1. Controleer de bronconfiguratie van de pacemaker voor de bestandssysteembron:
pcs resource fs
Voorbeeld:
 
Noteer het pad van het apparaat, het pad van de directory en het fstype.
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started lnx-node1.amer.lan
    * ip        (ocf::heartbeat:IPaddr):         Started lnx-node1.amer.lan
    * nws       (ocf::EMC_NetWorker:Server):     Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
  Attributes: fs-instance_attributes
    device=/dev/sdb1
    directory=/nsr_share
    fstype=xfs
  Operations:
    monitor: fs-monitor-interval-20
      interval=20
      timeout=300
    start: fs-start-interval-0s
      interval=0s
      timeout=60s
    stop: fs-stop-interval-0s
      interval=0s
      timeout=60s
  1. Controleer of het apparaat op de FS is gekoppeld:
df -h

Voorbeeld:

root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1                                     94G  1.5G   92G   2% /nsr_share
  1. Controleer of het koppelpunt correct is geconfigureerd; Het apparaat koppelen aan het pad:
lsblk

Voorbeeld:

root@lnx-node1:~# lsblk
NAME          MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda             8:0    0   40G  0 disk
├─sda1          8:1    0  600M  0 part /boot/efi
├─sda2          8:2    0    1G  0 part /boot
└─sda3          8:3    0 38.4G  0 part
  ├─rhel-root 253:0    0 34.4G  0 lvm  /
  └─rhel-swap 253:1    0    4G  0 lvm  [SWAP]
sdb             8:16   0  100G  0 disk
└─sdb1          8:17   0 93.1G  0 part /nsr_share
sr0            11:0    1 1024M  0 rom
  1. Controleer of het bestandssysteem dat door het apparaat wordt gebruikt, correct is:
blkid
Voorbeeld:
root@lnx-node1:~# blkid 
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs" 
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064" 
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162" 
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040" 
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3" 
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"
Als de fs-bron (bestandssysteem) niet kan worden gestart. Dit wijst op een probleem buiten NetWorker. De systeembeheerder moet de bestandssysteemconfiguratie van het cluster controleren en bevestigen dat er geen problemen zijn met de gedeelde storage die door de pacemaker wordt gebruikt. Bekijk aanvullende systeemlogboeken met betrekking tot eventuele storingen met het systeem of de bijbehorende apparaten: 
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

IPaddr Failures:

  1. Bekijk de hulpmiddelen voor de pacemaker:
pcs resource
  1. Controleer de bronconfiguratie van de pacemaker voor de bestandssysteembron:
pcs resource config ip
Voorbeeld:
 
Noteer het IP-adres en de netwerkinterfacekaart (NIC).
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
  Attributes: ip-instance_attributes
    cidr_netmask=24
    ip=192.1xx.9.1x0
    nic=ens192
  Operations:
    monitor: ip-monitor-interval-15
      interval=15
      timeout=120
    start: ip-start-interval-0s
      interval=0s
      timeout=20s stop:
    ip-stop-interval-0s
      interval=0s
      timeout=20s
  1. Controleer of de NIC beschikbaar is op het systeem:
ifconfig -a
Voorbeeld: 
root@lnx-node1:~# ifconfig -a 
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
        inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
        inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
        ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
        RX packets 953865 bytes 349705527 (333.5 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0
        TX packets 1190983 bytes 179749786 (171.4 MiB)
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
        inet 127.0.0.1 netmask 255.0.0.0 
        inet6 ::1 prefixlen 128 scopeid 0x10<host>
        loop txqueuelen 1000 (Local Loopback)
        RX packets 129798 bytes 13274289 (12.6 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0 
        TX packets 129798 bytes 13274289 (12.6 MiB) 
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
Het IP-adres dat wordt weergegeven met ifconfig komt overeen met de fysieke knooppuntnaam; het geclusterde IP-adres is echter bereikbaar via deze NIC wanneer het knooppunt actief is. Zorg ervoor dat beide knooppunten zijn geconfigureerd voor het gebruik van dezelfde NIC-namen.
  1. Wordt het IP-adres omgezet in de juiste (logische) hostnaam die door de NetWorker-server wordt gebruikt?
nslookup ip 

nslookup logical_name_FQDN 

nslookup logical_name_short
Voorbeeld:
root@lnx-node1:~# nslookup 192.1xx.9.1x0 
110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. 

root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0 

root@lnx-node1:~# nslookup lnx-nwcluster 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0

Het wordt ook aanbevolen om dezelfde stappen uit te voeren voor het IP-adres, de FQDN en de korte naam van het fysieke knooppunt. Zie Dell artikel NetWorker: Best practices voor het oplossen van problemen met naamresolutie.

  1. Kunt u het IP-adres van het cluster bereiken met behulp van ping?
ping -c 4 ip
Voorbeeld:
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 
PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 
64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms 

--- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 
4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
Als de IP-bron (IPaddr) niet kan worden gestart. Dit wijst op een probleem buiten NetWorker. De systeembeheerder en netwerkbeheerder van het cluster moeten worden ingeschakeld om de netwerkconfiguratie van het cluster te controleren en te bevestigen dat er geen problemen worden waargenomen. Bekijk aanvullende systeemlogboeken met betrekking tot eventuele storingen met het systeem of de bijbehorende apparaten:
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

Other PCS Commands:

Operatie Opdracht
Pacemaker of pcs version:
pcs --version
Pacemaker-overzicht
pcs status
Overzicht van pacemakerbronnen
pcs resource
Bepaal het eigendom van een pad in een cluster.
lcmap
Enable (start) resource.
pcs resource enable resource_name
Start pcs resource met debug.
pcs resource debug-start resource_name 
Evalueer configuratie-instellingen voor pc's
pcs resource config resource_name
Resource uitschakelen (stoppen):
pcs resource disable resource_name  
Start de mislukte bron opnieuw.
pcs resource cleanup resource_name
Stop pacemaker op knooppunt.
pcs stop cluster [--force]
Start pacemaker
pcs cluster start [--all]
Zet de node in stand-by.
pcs node standby node_name
Haal de node uit stand-by. 
pcs node unstandby node_name

Belangrijke logboeken en bestanden:

Pad Doel Aanvullende opdrachten
/var/log/messages Bevat algemene systeemberichten met betrekking tot systeembronnen en -services.
grep 'pacemaker.*\(error\|warning\)' /var/log/messages
/var/log/pacemaker/pacemaker.log  Standaard logboekregistratie van pacemakerinformatie voor pacemakerbronnen en -functies. N.v.t.
/var/log/pcsd/pcsd.log Standaard pacemakerservice/daemon (pcsd) logboek.  N.v.t.
/var/log/cluster/corosync.log Standaard communicatielogboek pacemakerknooppunt.  N.v.t.
/usr/sbin/nw_hae.log NetWorker (nws) Resource-startlogboek zoals gedefinieerd in /usr/lib/ocf/resource.d/EMC_NetWorker/Server N.v.t.
/usr/lib/ocf/resource.d/EMC_NetWorker/Server  Configuratiebestand NetWorker pacemaker. Dit is welke bewerkingen worden uitgevoerd/beheerd door pc's. N.v.t.

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000218281
Article Type: How To
Last Modified: 22 Oct 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.