NetWorker: Feilsøkingsveiledning for problem med Red Hat-klyngetjeneste

Summary: Denne artikkelen gir en oversikt over hvordan du tilnærmer deg oppstartsproblemer med NetWorker-tjenester for NetWorker-servere som er implementert på Red Hat-pacemakerklynger (PC-er). Denne artikkelen passer for administratorer for NetWorker-sikkerhetskopiering og NetWorker-støtte som hjelp til å feilsøke slike problemer. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

NetWorker-servere kan implementeres i en klynge-failover-konfigurasjon på Red Hat-noder ved hjelp av pacemaker (pcs) tjenester. NetWorker er installert på flere noder. Serverdatabasene er på delt lagring, sendt mellom noder basert på den aktive noden i pacemakerkonfigurasjonen. NetWorker-serveren bruker et delt klyngenavn og IP-adresse, noe som sikrer konsekvent navngivning og adressering uavhengig av vertsnoden. Se veiledningen for integrering av NetWorker-klynge for mer informasjon om hvordan du konfigurerer NetWorker i en klynge. Denne veiledningen er tilgjengelig på produktsiden for Dells kundestøtte

Klyngetopologi:

Denne artikkelen bruker et eksempel på en klynge med følgende konfigurasjon:
 
NetWorker-klyngetopologi

Vertsnavn
IP-adresse
Funksjon
lnx-node1.amer.lan
192.168.9.108
Fysisk node 1
lnx-node2.amer.lan
192.168.9.109
Fysisk node 2
lnx-nwcluster.amer.lan
192.168.9.110
Logisk navn brukt av NetWorker


Filsystemet på nodene administrerer NetWorker ved hjelp av symbolske koblinger.

Active Node:

En aktiv node der NetWorker-serveren startes symbolsk /nsr til delt lagringsplass:
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     14 Oct  5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x.  11 root root    116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x.   3 root root     17 Aug 31 17:23 nsr_share

Passiv node:

En "passiv" node knytter symbolsk sammen /nsr til /nsr.NetWorker.local:
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     20 Oct  3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x.  11 root root    116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x.   2 root root      6 Aug 31 17:18 nsr_share

Når en node er i en passiv tilstand, vil nsrexecd (NetWorker-klient)-programvaren kjører ved hjelp av: /nsr.NetWorker.local. Hver fysiske node har sin egen klientressurs ved hjelp av den fysiske nodens utløsbare domenenavnsystem (DNS) navn og IP-adresse. NetWorker-serveren kjører bare ved hjelp av delt lagring (/nsr_share) og bruker den delte IP-adressen og vertsnavnet. Dette kan bare være aktivt på én node om gangen. 

Følgende pacemaker (pcs)-kommandoer brukes til å få en oversikt over pacemakerkonfigurasjonen og statusen:

  • Klyngekonfigurasjon:

pcs status
Eksempel:
root@lnx-node1:~# pcs status 
Cluster name: rhelclus 
Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) 
Cluster Summary: 
  * Stack: corosync 
  * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum 
  * Last updated: Thu Oct 5 10:59:20 2023 
  * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan 
  * 2 nodes configured 
  * 3 resource instances configured 

Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan 
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan 
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled
Fra utdataene ovenfor kan vi bestemme hvor mange noder som er i klyngen, og om noen er frakoblet eller i ventemodus. Utdataene viser også hvilken node som er vert for det delte filsystemet (fs), IP-adresse for klyngeressurs (ip), og NetWorker-tjenestene (nws). Ressursnavnene som brukes her, er standardinnstillingene som brukes i veiledningen for integrering av NetWorker-klyngen. Det er imidlertid mulig at forskjellige navn brukes. Hvis du bruker forskjellige navn, noterer du ressursnavnene og erstatter etter behov når du følger instruksjonene i denne artikkelen.
  • Pacemakerressurskonfigurasjon:
pcs resource config

Eksempel:

root@lnx-node1:~# pcs resource config 
Group: NW_group 
  Resource: fs (class=ocf provider=heartbeat type=Filesystem)
    Attributes: fs-instance_attributes 
      device=/dev/sdb1 
      directory=/nsr_share 
      fstype=xfs 
    Operations: 
      monitor: fs-monitor-interval-20 
        interval=20 
        timeout=300 
      start: fs-start-interval-0s 
        interval=0s 
        timeout=60s 
      stop: fs-stop-interval-0s interval=0s timeout=60s 
  Resource: ip (class=ocf provider=heartbeat type=IPaddr) 
    Attributes: ip-instance_attributes 
      cidr_netmask=24 
      ip=192.1xx.9.1x0 
      nic=ens192 
    Operations: 
      monitor: ip-monitor-interval-15 
        interval=15 
        timeout=120 
      start: ip-start-interval-0s 
        interval=0s 
        timeout=20s 
      stop: ip-stop-interval-0s 
        interval=0s 
        timeout=20s 
  Resource: nws (class=ocf provider=EMC_NetWorker type=Server) 
    Meta Attributes: nws-meta_attributes 
      is-managed=true 
    Operations: 
      meta-data: nws-meta-data-interval-0 
        interval=0 
        timeout=10 
      migrate_from: nws-migrate_from-interval-0 
        interval=0 
        timeout=120
      migrate_to: nws-migrate_to-interval-0 
        interval=0 
        timeout=60 
      monitor: nws-monitor-interval-100 
        interval=100 
        timeout=1200 
      start: nws-start-interval-0 
        interval=0 
        timeout=600 
      stop: nws-stop-interval-0 
        interval=0 
        timeout=600 
      validate-all: nws-validate-all-interval-0 
        interval=0 
        timeout=10

 Kommandoen ovenfor beskriver hver pcs ressurskonfigurasjon. Viktige ting å merke seg i den første oversikten:

  • FS resource "device=": Dette er enheten som brukes som monteringspunkt for delt lagring på nodefilsystemet. Denne enheten må være den samme på hver node. Dette diskuteres senere i denne KB-en.
  • FS resource "directory=": Dette er katalogen som den delte NetWorker-lagringen bruker. Katalogen skal være tilknyttet som monteringspunkt for "device="-feltet. Dette diskuteres senere i denne KB-en.
  • IP-ressursen "ip=": Dette er IP-adressen som er knyttet til det logiske (delte) vertsnavnet som brukes av NetWorker-serveren. Denne IP-adressen ligger på den aktive noden.
  • Pacemakersynlighet for delt adresse og lagring:
lcmap

Eksempel:

root@lnx-node1:~# lcmap
type: NSR_CLU_TYPE;
clu_type: NSR_LC_TYPE;
interface version: 1.0;

type: NSR_CLU_VIRTHOST;
hostname: 192.168.9.110;
local: TRUE;
owned paths: /nsr_share;

clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;
MERK: Vertsnavnet skal returnere IP-adressen som samsvarer med pcs resource config "ip="-feltet. De eide banene skal samsvare med pcs resource config "katalog="-feltet. I noen tilfeller, når et oppstartsproblem observeres, vises lcmap Kommandoen returnerer ikke feltene vertsnavn, lokale baner eller eide baner. Dette er en indikasjon på et problem.

Innledende diagnose:

Hvis NetWorker-tjenestene ikke starter, kontrollerer du pcs Ressursstatus for å se hvilken ressurs som feiler:

pcs status
Eksempel: 
root@lnx-node1:~# pcs status 
... 
... 
Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs    (ocf::heartbeat:Filesystem):   Started lnx-node1.amer.lan 
    * ip    (ocf::heartbeat:IPaddr):       Started lnx-node1.amer.lan 
    * nws   (ocf::EMC_NetWorker:Server):   Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

 Hvis det oppdages en feil, returneres en generell feilfeil. De mislykkede ressursene vises som MISLYKKET. 

  • FS (filsystem): Hvis filsystemet er i en mislykket tilstand, kan du se delen nedenfor om Filsystemfeil.
  • IP (IPaddr): Hvis IPaddr er i en mislykket tilstand, se avsnittet nedenfor om IPaddr-feil.
  • NWS (Server): Hvis NetWorker-serveren er i en mislykket tilstand, gjør du følgende:
  1. Se gjennom NetWorker-serverens daemon.raw for eventuelle feilmeldinger som vises under oppstart. Serverens /nsr_share/nsr/daemon.raw er plassert i den delte lagringsbanen. Klientdaemonen for fysiske noder er i /nsr.NetWorker.local/logs/daemon.raw. Se Dell-artikkelen NetWorker: Hvordan du bruker nsr_render_log
  2. Hvis standardlogging ikke er tilstrekkelig, aktiverer du feilsøking ved hjelp av følgende:
    1. Prøv å starte "Server"-ressursen på nytt: 
pcs resource cleanup nws
  1. Trykk på dbgcommand Slik aktiverer du feilsøking på nsrd prosess:
dbgcommand -n nsrd Debug=#
Angi et feilsøkingsnivå ved hjelp av tallene 1 til 9. Overvåk daemon.raw for eventuelle tilleggsmeldinger som kan føre til et problem.
  1. Se /var/log/pcsd/pcsd.log for eventuelle feil.
  2. Se /var/log/pacemaker/pacemaker.log for eventuelle feil.
  3. Se /var/log/messages fil for eventuelle feil.
MERK: Ved gjennomgang av pcsd, pacemaker- og meldingslogger ser etter meldinger som ble logget i løpet av de samme tidsstemplene som NetWorker-tjenestene forsøkte å starte. Gjennomgå for eventuelle feil eller feil som sammenfaller med feilen ved oppstart av tjenesten.

Feil på filsystemet: 

  1. Se gjennom pacemakerressursene:
pcs resource
  1. Se gjennom pacemakerressurskonfigurasjonen for filsystemressursen:
pcs resource fs
Eksempel:
 
Noter enhetsbanen, katalogbanen og fstype.
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started lnx-node1.amer.lan
    * ip        (ocf::heartbeat:IPaddr):         Started lnx-node1.amer.lan
    * nws       (ocf::EMC_NetWorker:Server):     Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
  Attributes: fs-instance_attributes
    device=/dev/sdb1
    directory=/nsr_share
    fstype=xfs
  Operations:
    monitor: fs-monitor-interval-20
      interval=20
      timeout=300
    start: fs-start-interval-0s
      interval=0s
      timeout=60s
    stop: fs-stop-interval-0s
      interval=0s
      timeout=60s
  1. Bekreft om enheten er montert på FS:
df -h

Eksempel:

root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1                                     94G  1.5G   92G   2% /nsr_share
  1. Bekreft om monteringspunktet er riktig konfigurert; Knytte enheten til banen:
lsblk

Eksempel:

root@lnx-node1:~# lsblk
NAME          MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda             8:0    0   40G  0 disk
├─sda1          8:1    0  600M  0 part /boot/efi
├─sda2          8:2    0    1G  0 part /boot
└─sda3          8:3    0 38.4G  0 part
  ├─rhel-root 253:0    0 34.4G  0 lvm  /
  └─rhel-swap 253:1    0    4G  0 lvm  [SWAP]
sdb             8:16   0  100G  0 disk
└─sdb1          8:17   0 93.1G  0 part /nsr_share
sr0            11:0    1 1024M  0 rom
  1. Bekreft at filsystemet som brukes av enheten, er riktig:
blkid
Eksempel:
root@lnx-node1:~# blkid 
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs" 
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064" 
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162" 
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040" 
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3" 
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"
Hvis fs-ressursen (filsystem) ikke starter. Dette er en indikasjon på et problem utenfor NetWorker. Systemadministratoren bør gjennomgå klyngens filsystemkonfigurasjon og bekrefte at ingen problemer med den delte lagringen som brukes av pacemakeren. Se gjennom ytterligere systemlogger angående eventuelle feil med systemet eller enhetene: 
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

IPaddr-feil:

  1. Se gjennom pacemakerressursene:
pcs resource
  1. Se gjennom pacemakerressurskonfigurasjonen for filsystemressursen:
pcs resource config ip
Eksempel:
 
Noter deg IP-adressen og nettverkskortet (NIC).
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
  Attributes: ip-instance_attributes
    cidr_netmask=24
    ip=192.1xx.9.1x0
    nic=ens192
  Operations:
    monitor: ip-monitor-interval-15
      interval=15
      timeout=120
    start: ip-start-interval-0s
      interval=0s
      timeout=20s stop:
    ip-stop-interval-0s
      interval=0s
      timeout=20s
  1. Bekreft om NIC-en er tilgjengelig på systemet:
ifconfig -a
Eksempel: 
root@lnx-node1:~# ifconfig -a 
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
        inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
        inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
        ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
        RX packets 953865 bytes 349705527 (333.5 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0
        TX packets 1190983 bytes 179749786 (171.4 MiB)
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
        inet 127.0.0.1 netmask 255.0.0.0 
        inet6 ::1 prefixlen 128 scopeid 0x10<host>
        loop txqueuelen 1000 (Local Loopback)
        RX packets 129798 bytes 13274289 (12.6 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0 
        TX packets 129798 bytes 13274289 (12.6 MiB) 
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
IP-adressen som vises med ifconfig samsvarer med navnet på den fysiske noden Den klyngede IP-en kan imidlertid nås via dette NIC-et når noden er aktiv. Kontroller at begge nodene er konfigurert til å bruke de samme NIC-navnene.
  1. Løser IP-adressen det riktige (logiske) vertsnavnet som brukes av NetWorker-serveren?
nslookup ip 

nslookup logical_name_FQDN 

nslookup logical_name_short
Eksempel:
root@lnx-node1:~# nslookup 192.1xx.9.1x0 
110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. 

root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0 

root@lnx-node1:~# nslookup lnx-nwcluster 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0

Det anbefales også å utføre de samme trinnene mot den fysiske nodens IP-adresse, FQDN og kortnavn. Se Dell-artikkelen NetWorker: Anbefalte fremgangsmåter for feilsøking av navneoppløsning.

  1. Kan du nå klyngens IP-adresse ved hjelp av ping?
ping -c 4 ip
Eksempel:
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 
PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 
64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms 

--- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 
4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
Hvis IP-ressursen (IPaddr) ikke starter. Dette er en indikasjon på et problem utenfor NetWorker. Klyngens systemadministrator og nettverksadministrator bør engasjeres for å gjennomgå klyngens nettverkskonfigurasjon og bekrefte at ingen problemer blir oppdaget. Se gjennom ytterligere systemlogger angående eventuelle feil med systemet eller enhetene:
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

Andre PCS-kommandoer:

Operasjon Kommando
Pacemaker eller pcs version:
pcs --version
Pacemaker Oversikt
pcs status
Oversikt over pacemakerressurs
pcs resource
Bestemme baneeierskap i en klynge.
lcmap
Aktiver (start) ressurs.
pcs resource enable resource_name
Start pcs Ressurs med Debug.
pcs resource debug-start resource_name 
Gjennomgå PC-ens konfigurasjonsinnstillinger
pcs resource config resource_name
Deaktiver (stopp) ressurs:
pcs resource disable resource_name  
Ressursen omstart mislyktes.
pcs resource cleanup resource_name
Stopp pacemakeren på noden.
pcs stop cluster [--force]
Start pacemaker
pcs cluster start [--all]
Sett noden i ventemodus.
pcs node standby node_name
Ta noden ut av ventemodus. 
pcs node unstandby node_name

Viktige logger og filer:

Sti Purpose Tilleggskommandoer
/var/log/messages Inneholder globale systemmeldinger angående systemressurser og tjenester.
grep 'pacemaker.*\(error\|warning\)' /var/log/messages
/var/log/pacemaker/pacemaker.log  Standard pacemakerinformasjonslogging for pacemakerressurser og -funksjoner. Ikke relevant
/var/log/pcsd/pcsd.log Standard pacemakertjeneste/daemon (pcsd) logg.  Ikke relevant
/var/log/cluster/corosync.log Standard kommunikasjonslogg for pacemakernode.  Ikke relevant
/usr/sbin/nw_hae.log NetWorker (nws) Ressursstartlogg som definert i /usr/lib/ocf/resource.d/EMC_NetWorker/Server Ikke relevant
/usr/lib/ocf/resource.d/EMC_NetWorker/Server  NetWorker pacemakerkonfigurasjonsfil. Dette er hva operasjoner utføres / administreres av pcs. Ikke relevant

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000218281
Article Type: How To
Last Modified: 22 Oct 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.