NetWorker: Fejlfindingsvejledning til Red Hat-klyngeserviceproblem

Summary: Denne artikel indeholder en oversigt over, hvordan du håndterer problemer med NetWorker-serviceopstart for NetWorker-servere, der er udrullet på Red Hat pacemaker-klynger (pc'er). Denne artikel er relevant for NetWorker-sikkerhedskopieringsadministratorer og NetWorker-support som hjælp til fejlfinding af disse problemer. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

NetWorker-servere kan implementeres i en klynge-failover-konfiguration på Red Hat-noder ved hjælp af pacemaker (pcs) NetWorker er installeret på flere noder. Serverdatabaserne er på delt lager, overført mellem noder baseret på den aktive node i pacemakerkonfigurationen. NetWorker-serveren bruger et delt klyngenavn og en delt IP-adresse, hvilket sikrer ensartet navngivning og adressering uanset værtsnoden. Se NetWorker-klyngeintegrationsvejledningen for at få oplysninger om, hvordan du konfigurerer NetWorker i en klynge. Denne vejledning findes på Dell Support-produktsiden

Klyngetopologi:

I denne artikel bruges et eksempel på en klynge med følgende konfiguration:
 
NetWorker-klyngetopologi

Værtsnavn
IP-adresse
Funktion
lnx-node1.amer.lan
192.168.9.108
Fysisk node 1
lnx-node2.amer.lan
192.168.9.109
Fysisk node 2
lnx-nwcluster.amer.lan
192.168.9.110
Logisk navn, der bruges af NetWorker


Filsystemet på noderne administrerer NetWorker ved hjælp af symbolske links.

Aktiv node:

En aktiv node, hvor NetWorker-serveren startes, linker symbolsk /nsr Til den delte lagerplacering:
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     14 Oct  5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x.  11 root root    116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x.   3 root root     17 Aug 31 17:23 nsr_share

Passiv node:

En "passiv" knude linker symbolsk /nsr til /nsr.NetWorker.local:
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     20 Oct  3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x.  11 root root    116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x.   2 root root      6 Aug 31 17:18 nsr_share

Når en node er i passiv tilstand, vises ikonet nsrexecd (NetWorker-klient)-softwaren kører ved hjælp af /nsr.NetWorker.local. Hver fysisk node har sin egen klientressource ved hjælp af den fysiske nodes DNS-navn (Domain Name System), der kan løses, og IP-adresse. NetWorker-serveren kører kun ved hjælp af det delte lager (/nsr_share) og bruger den delte IP-adresse og værtsnavnet. Den kan kun være aktiv på én node ad gangen. 

Følgende pacemaker (pcs) kommandoer bruges til at få et overblik over pacemakerens konfiguration og status:

  • Klyngekonfiguration:

pcs status
Eksempel:
root@lnx-node1:~# pcs status 
Cluster name: rhelclus 
Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) 
Cluster Summary: 
  * Stack: corosync 
  * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum 
  * Last updated: Thu Oct 5 10:59:20 2023 
  * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan 
  * 2 nodes configured 
  * 3 resource instances configured 

Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan 
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan 
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled
Ud fra ovenstående output kan vi bestemme, hvor mange noder der er i klyngen, og om nogen er offline eller i standbystatus. Outputtet viser også, hvilken node der er vært for det delte filsystem (fs), klyngeressource-IP-adresse (ip) og NetWorker-tjenesterne (nws). De ressourcenavne, der bruges her, er de standardværdier, der bruges i NetWorker-klyngeintegrationsvejledningen. Det er dog muligt, at der bruges forskellige navne. Hvis du bruger andre navne, skal du notere ressourcenavnene og erstatte efter behov, når du følger instruktionerne i denne artikel.
  • Konfiguration af pacemakerressource:
pcs resource config

Eksempel:

root@lnx-node1:~# pcs resource config 
Group: NW_group 
  Resource: fs (class=ocf provider=heartbeat type=Filesystem)
    Attributes: fs-instance_attributes 
      device=/dev/sdb1 
      directory=/nsr_share 
      fstype=xfs 
    Operations: 
      monitor: fs-monitor-interval-20 
        interval=20 
        timeout=300 
      start: fs-start-interval-0s 
        interval=0s 
        timeout=60s 
      stop: fs-stop-interval-0s interval=0s timeout=60s 
  Resource: ip (class=ocf provider=heartbeat type=IPaddr) 
    Attributes: ip-instance_attributes 
      cidr_netmask=24 
      ip=192.1xx.9.1x0 
      nic=ens192 
    Operations: 
      monitor: ip-monitor-interval-15 
        interval=15 
        timeout=120 
      start: ip-start-interval-0s 
        interval=0s 
        timeout=20s 
      stop: ip-stop-interval-0s 
        interval=0s 
        timeout=20s 
  Resource: nws (class=ocf provider=EMC_NetWorker type=Server) 
    Meta Attributes: nws-meta_attributes 
      is-managed=true 
    Operations: 
      meta-data: nws-meta-data-interval-0 
        interval=0 
        timeout=10 
      migrate_from: nws-migrate_from-interval-0 
        interval=0 
        timeout=120
      migrate_to: nws-migrate_to-interval-0 
        interval=0 
        timeout=60 
      monitor: nws-monitor-interval-100 
        interval=100 
        timeout=1200 
      start: nws-start-interval-0 
        interval=0 
        timeout=600 
      stop: nws-stop-interval-0 
        interval=0 
        timeout=600 
      validate-all: nws-validate-all-interval-0 
        interval=0 
        timeout=10

 Ovenstående kommando beskriver hver pcs Konfiguration af ressourcer. Vigtige ting at notere sig under den indledende oversigt:

  • FS-ressourcen "device=": Dette er den enhed, der bruges som monteringspunkt for det delte lager på nodefilsystemet. Denne enhed skal være den samme på hver node. Dette beskrives senere i denne KB.
  • FS-ressourcen "directory=": Dette er den mappe, som det delte NetWorker-lager bruger. Mappen skal tilknyttes som monteringspunkt for feltet "device=". Dette beskrives senere i denne KB.
  • IP-ressource "ip=": Dette er den IP-adresse, der er knyttet til det logiske (delte) værtsnavn, der bruges af NetWorker-serveren. Denne IP-adresse hostes på den aktive node.
  • Pacemaker-synlighed af den delte adresse og lagerplads:
lcmap

Eksempel:

root@lnx-node1:~# lcmap
type: NSR_CLU_TYPE;
clu_type: NSR_LC_TYPE;
interface version: 1.0;

type: NSR_CLU_VIRTHOST;
hostname: 192.168.9.110;
local: TRUE;
owned paths: /nsr_share;

clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;
BEMÆRK: Værtsnavnet skal returnere den IP-adresse, der matcher fra pcs resource config feltet "ip=". De ejede stier skal matche pcs resource config feltet "directory=". I nogle tilfælde, når der observeres et startproblem, vil lcmap Kommandoen returnerer ikke felterne værtsnavn, lokale eller ejede stier. Dette er tegn på et problem.

Indledende diagnose:

Hvis NetWorker-tjenesterne ikke kan starte, skal du kontrollere, om pcs Ressourcestatus for at se, hvilken ressource der fejler:

pcs status
Eksempel: 
root@lnx-node1:~# pcs status 
... 
... 
Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs    (ocf::heartbeat:Filesystem):   Started lnx-node1.amer.lan 
    * ip    (ocf::heartbeat:IPaddr):       Started lnx-node1.amer.lan 
    * nws   (ocf::EMC_NetWorker:Server):   Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

 Hvis der observeres en fejl, returneres der en generel fejlfejl. De mislykkede ressourcer vises som MISLYKKET. 

  • FS (filsystem): Hvis filsystemet er i en fejlbehæftet tilstand, skal du se nedenstående afsnit om filsystemfejl.
  • IP (IPaddr): Hvis IPaddr er i en mislykket tilstand, se nedenstående afsnit om IPaddr-fejl.
  • NWS (server): Hvis NetWorker-serveren er i en fejlbehæftet tilstand, skal du gøre følgende:
  1. Gennemse NetWorker-serverens daemon.raw for eventuelle fejlmeddelelser, der vises under opstart. Serverens /nsr_share/nsr/daemon.raw er placeret i den delte lagersti. Klientdæmonen for fysiske noder findes i /nsr.NetWorker.local/logs/daemon.raw. Se Dell-artiklen NetWorker: Sådan bruger du nsr_render_log
  2. Hvis standardlogføring ikke er tilstrækkelig, skal du aktivere fejlfinding på følgende måde:
    1. Forsøg at genstarte "Server"-ressourcen: 
pcs resource cleanup nws
  1. Brug dbgcommand Hvis du vil aktivere fejlfinding på nsrd proces:
dbgcommand -n nsrd Debug=#
Indstil et fejlfindingsniveau ved hjælp af tallene 1 til 9. Overvåg daemon.raw for eventuelle yderligere meddelelser, der kan føre til et problem.
  1. Gennemse /var/log/pcsd/pcsd.log for eventuelle fejl.
  2. Gennemse /var/log/pacemaker/pacemaker.log for eventuelle fejl.
  3. Gennemse /var/log/messages fil for eventuelle fejl.
BEMÆRK: Når du gennemser pcsd-, pacemaker- og meddelelseslogge søger efter meddelelser, der blev logført under de samme tidsstempler, som NetWorker-tjenesterne forsøgte at starte. Gennemgå for eventuelle fejl eller fejl, der falder sammen med fejlen ved opstart af tjenesten.

Filsystemfejl: 

  1. Gennemse pacemakerressourcerne:
pcs resource
  1. Gennemgå pacemakerressourcekonfigurationen for filsystemressourcen:
pcs resource fs
Eksempel:
 
Notér enhedsstien, mappestien og fstype.
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started lnx-node1.amer.lan
    * ip        (ocf::heartbeat:IPaddr):         Started lnx-node1.amer.lan
    * nws       (ocf::EMC_NetWorker:Server):     Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
  Attributes: fs-instance_attributes
    device=/dev/sdb1
    directory=/nsr_share
    fstype=xfs
  Operations:
    monitor: fs-monitor-interval-20
      interval=20
      timeout=300
    start: fs-start-interval-0s
      interval=0s
      timeout=60s
    stop: fs-stop-interval-0s
      interval=0s
      timeout=60s
  1. Bekræft, om enheden er monteret på FS:
df -h

Eksempel:

root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1                                     94G  1.5G   92G   2% /nsr_share
  1. Bekræft, om monteringspunktet er konfigureret korrekt; Tilknytning af enheden til stien:
lsblk

Eksempel:

root@lnx-node1:~# lsblk
NAME          MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda             8:0    0   40G  0 disk
├─sda1          8:1    0  600M  0 part /boot/efi
├─sda2          8:2    0    1G  0 part /boot
└─sda3          8:3    0 38.4G  0 part
  ├─rhel-root 253:0    0 34.4G  0 lvm  /
  └─rhel-swap 253:1    0    4G  0 lvm  [SWAP]
sdb             8:16   0  100G  0 disk
└─sdb1          8:17   0 93.1G  0 part /nsr_share
sr0            11:0    1 1024M  0 rom
  1. Bekræft, at filsystemet, der bruges af enheden, er korrekt:
blkid
Eksempel:
root@lnx-node1:~# blkid 
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs" 
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064" 
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162" 
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040" 
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3" 
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"
Hvis ressourcen fs (filsystem) ikke starter. Dette er tegn på et problem uden for NetWorker. Systemadministratoren bør gennemgå klyngens filsystemkonfiguration og bekræfte, at der ikke er problemer med det delte lager, der bruges af pacemakeren. Gennemgå yderligere systemlogfiler vedrørende eventuelle fejl i systemet eller dets enheder: 
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

IPaddr-fejl:

  1. Gennemse pacemakerressourcerne:
pcs resource
  1. Gennemgå pacemakerressourcekonfigurationen for filsystemressourcen:
pcs resource config ip
Eksempel:
 
Noter IP-adressen og netværkskortet (NIC).
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
  Attributes: ip-instance_attributes
    cidr_netmask=24
    ip=192.1xx.9.1x0
    nic=ens192
  Operations:
    monitor: ip-monitor-interval-15
      interval=15
      timeout=120
    start: ip-start-interval-0s
      interval=0s
      timeout=20s stop:
    ip-stop-interval-0s
      interval=0s
      timeout=20s
  1. Bekræft, om netværkskortet er tilgængeligt på systemet:
ifconfig -a
Eksempel: 
root@lnx-node1:~# ifconfig -a 
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
        inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
        inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
        ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
        RX packets 953865 bytes 349705527 (333.5 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0
        TX packets 1190983 bytes 179749786 (171.4 MiB)
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
        inet 127.0.0.1 netmask 255.0.0.0 
        inet6 ::1 prefixlen 128 scopeid 0x10<host>
        loop txqueuelen 1000 (Local Loopback)
        RX packets 129798 bytes 13274289 (12.6 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0 
        TX packets 129798 bytes 13274289 (12.6 MiB) 
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
IP-adressen vises med ifconfig matcher det fysiske nodenavn; Den grupperede IP kan dog nås via dette NIC, når noden er aktiv. Sørg for, at begge noder er konfigureret til at bruge de samme NIC-navne.
  1. Er IP-adressen oversat til det korrekte (logiske) værtsnavn, der bruges af NetWorker-serveren?
nslookup ip 

nslookup logical_name_FQDN 

nslookup logical_name_short
Eksempel:
root@lnx-node1:~# nslookup 192.1xx.9.1x0 
110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. 

root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0 

root@lnx-node1:~# nslookup lnx-nwcluster 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0

Det anbefales også at udføre de samme trin mod den fysiske nodes IP-adresse, FQDN og korte navn. Se Dell-artiklen NetWorker: Bedste praksis for fejlfinding af navneopløsning.

  1. Kan du nå klyngens IP-adresse ved hjælp af ping?
ping -c 4 ip
Eksempel:
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 
PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 
64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms 

--- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 
4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
Hvis IP-ressourcen (IPaddr) ikke starter. Dette er tegn på et problem uden for NetWorker. Klyngens systemadministrator og netværksadministrator skal inddrages for at gennemgå klyngens netværkskonfiguration og bekræfte, at der ikke er observeret nogen problemer. Gennemgå yderligere systemlogfiler vedrørende eventuelle fejl i systemet eller dets enheder:
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

Andre PCS-kommandoer:

Operation Kommando
Pacemaker eller pcs version:
pcs --version
Pacemaker Oversigt
pcs status
Oversigt over pacemakerressourcer
pcs resource
Bestem ejerskab af stier i en klynge.
lcmap
Aktivér (start) ressource.
pcs resource enable resource_name
Start pcs Ressource med fejlfinding.
pcs resource debug-start resource_name 
Gennemgå konfigurationsindstillinger for pc-ressourcer
pcs resource config resource_name
Deaktiver (stop) ressource:
pcs resource disable resource_name  
Genstart mislykket ressource.
pcs resource cleanup resource_name
Stop pacemaker på node.
pcs stop cluster [--force]
Start pacemaker
pcs cluster start [--all]
Sæt noden i standby.
pcs node standby node_name
Bring noden ud af standby. 
pcs node unstandby node_name

Vigtige logfiler og filer:

Sti Formål Supplerende kommandoer
/var/log/messages Indeholder globale systemmeddelelser vedrørende systemressourcer og -tjenester.
grep 'pacemaker.*\(error\|warning\)' /var/log/messages
/var/log/pacemaker/pacemaker.log  Logføring af standardoplysninger om pacemakere for pacemakerressourcer og -funktioner. Ikke tilgængelig
/var/log/pcsd/pcsd.log Standard pacemaker service / dæmon (pcsd) log.  Ikke tilgængelig
/var/log/cluster/corosync.log Standardkommunikationslog for pacemakernode.  Ikke tilgængelig
/usr/sbin/nw_hae.log NetWorker (nws) ressourcens startlog som defineret i /usr/lib/ocf/resource.d/EMC_NetWorker/Server Ikke tilgængelig
/usr/lib/ocf/resource.d/EMC_NetWorker/Server  NetWorker-pacemakerkonfigurationsfil. Dette er, hvad operationer udføres / administreres af pc'er. Ikke tilgængelig

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000218281
Article Type: How To
Last Modified: 22 Oct 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.