NetWorker: Guida alla risoluzione dei problemi di Red Hat Cluster Service

Summary: Questo articolo fornisce una panoramica su come risolvere i problemi di avvio del servizio NetWorker per i server NetWorker implementati sui cluster Red Hat pacemaker (pcs). Questo articolo è adatto ai Backup Administrator di NetWorker e al supporto di NetWorker e fornisce assistenza nella risoluzione di questi problemi. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

I server NetWorker possono essere implementati in una configurazione di failover del cluster sui nodi Red Hat utilizzando pacemaker (pcs), servizi di pubblica utilità. NetWorker è installato su più nodi. I database del server si trovano su storage condiviso, passati tra i nodi in base al nodo attivo nella configurazione pacemaker. Il server NetWorker utilizza un nome cluster e un indirizzo IP condivisi, garantendo denominazione e indirizzamento coerenti indipendentemente dal nodo di hosting. Consultare la NetWorker Cluster Integration Guide per informazioni dettagliate su come configurare NetWorker in un cluster. Questa guida è disponibile nella pagina del prodotto del supporto Dell

Topologia cluster:

Questo articolo utilizza un cluster di esempio con la seguente configurazione:
 
Topologia del cluster NetWorker

Nome host
Indirizzo IP
Funzione
lnx-node1.amer.lan
192.168.9.108
Nodo fisico 1
lnx-node2.amer.lan
192.168.9.109
Nodo fisico 2
lnx-nwcluster.amer.lan
192.168.9.110
Nome logico utilizzato da NetWorker


Il file system sui nodi gestisce NetWorker utilizzando link simbolici.

Nodo attivo:

Un nodo attivo in cui viene avviato il server NetWorker si collega simbolicamente /nsr Alla posizione di archiviazione condivisa:
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     14 Oct  5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x.  11 root root    116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x.   3 root root     17 Aug 31 17:23 nsr_share

Nodo passivo:

Un nodo "passivo" si collega simbolicamente /nsr su /nsr.NetWorker.local:
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     20 Oct  3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x.  11 root root    116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x.   2 root root      6 Aug 31 17:18 nsr_share

Quando un nodo è in uno stato passivo, il nsrexecd Il software (client NetWorker) è in esecuzione tramite /nsr.NetWorker.local. Ogni nodo fisico ha la propria risorsa client che utilizza il nome risolvibile e l'indirizzo IP del DNS (Domain Name System) del nodo fisico. Il server NetWorker viene eseguito solo utilizzando lo storage condiviso (/nsr_share) e utilizza l'indirizzo IP e il nome host condivisi. Può essere attivo solo su un nodo alla volta. 

Il seguente pacemaker (pcs) I comandi vengono utilizzati per ottenere una panoramica della configurazione e dello stato del pacemaker:

  • Configurazione del cluster:

pcs status
Esempio:
root@lnx-node1:~# pcs status 
Cluster name: rhelclus 
Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) 
Cluster Summary: 
  * Stack: corosync 
  * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum 
  * Last updated: Thu Oct 5 10:59:20 2023 
  * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan 
  * 2 nodes configured 
  * 3 resource instances configured 

Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan 
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan 
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled
Dall'output precedente, è possibile determinare il numero di nodi presenti nel cluster e se qualcuno è offline o in stato di standby. L'output mostra anche quale nodo ospita il file system condiviso (fs), l'indirizzo IP della risorsa cluster (ip) e i servizi NetWorker (nws). I nomi delle risorse qui utilizzati sono quelli predefiniti utilizzati in NetWorker Cluster Integration Guide. Tuttavia, è possibile che vengano utilizzati nomi diversi. Se si utilizzano nomi diversi, prendere nota dei nomi delle risorse e sostituirli in base alle esigenze seguendo le istruzioni riportate in questo articolo.
  • Configurazione delle risorse Pacemaker:
pcs resource config

Esempio:

root@lnx-node1:~# pcs resource config 
Group: NW_group 
  Resource: fs (class=ocf provider=heartbeat type=Filesystem)
    Attributes: fs-instance_attributes 
      device=/dev/sdb1 
      directory=/nsr_share 
      fstype=xfs 
    Operations: 
      monitor: fs-monitor-interval-20 
        interval=20 
        timeout=300 
      start: fs-start-interval-0s 
        interval=0s 
        timeout=60s 
      stop: fs-stop-interval-0s interval=0s timeout=60s 
  Resource: ip (class=ocf provider=heartbeat type=IPaddr) 
    Attributes: ip-instance_attributes 
      cidr_netmask=24 
      ip=192.1xx.9.1x0 
      nic=ens192 
    Operations: 
      monitor: ip-monitor-interval-15 
        interval=15 
        timeout=120 
      start: ip-start-interval-0s 
        interval=0s 
        timeout=20s 
      stop: ip-stop-interval-0s 
        interval=0s 
        timeout=20s 
  Resource: nws (class=ocf provider=EMC_NetWorker type=Server) 
    Meta Attributes: nws-meta_attributes 
      is-managed=true 
    Operations: 
      meta-data: nws-meta-data-interval-0 
        interval=0 
        timeout=10 
      migrate_from: nws-migrate_from-interval-0 
        interval=0 
        timeout=120
      migrate_to: nws-migrate_to-interval-0 
        interval=0 
        timeout=60 
      monitor: nws-monitor-interval-100 
        interval=100 
        timeout=1200 
      start: nws-start-interval-0 
        interval=0 
        timeout=600 
      stop: nws-stop-interval-0 
        interval=0 
        timeout=600 
      validate-all: nws-validate-all-interval-0 
        interval=0 
        timeout=10

 Il comando precedente descrive in dettaglio ogni pcs configurazione delle risorse. Aspetti importanti da ricordare durante la panoramica iniziale:

  • Risorsa FS "device=": Si tratta del dispositivo utilizzato come mount point per lo storage condiviso sul file system del nodo. Questo dispositivo deve essere lo stesso su ogni nodo. Questo argomento viene descritto più avanti in questo articolo della KB.
  • Risorsa FS "directory=": Si tratta della directory utilizzata dallo storage NetWorker condiviso. La directory deve essere associata come mount point per il campo "device=". Questo argomento viene descritto più avanti in questo articolo della KB.
  • Risorsa IP "ip=": Si tratta dell'indirizzo IP associato al nome host logico (condiviso) utilizzato dal server NetWorker. Questo indirizzo IP è in hosting sul nodo attivo.
  • Pacemaker Visibilità dell'indirizzo condiviso e dello storage:
lcmap

Esempio:

root@lnx-node1:~# lcmap
type: NSR_CLU_TYPE;
clu_type: NSR_LC_TYPE;
interface version: 1.0;

type: NSR_CLU_VIRTHOST;
hostname: 192.168.9.110;
local: TRUE;
owned paths: /nsr_share;

clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;
NOTA: Il nome host deve restituire l'indirizzo IP corrispondente da pcs resource config Campo "ip=". I percorsi di proprietà devono corrispondere al pcs resource config Campo "directory=". In alcuni casi, quando si verifica un problema di avvio, il lcmap non restituisce i campi hostname, local o owned paths; Questo è indicativo di un problema.

Diagnosi iniziale:

Se i servizi NetWorker non si avviano, controllare il pcs Lo stato della risorsa per verificare quale risorsa ha esito negativo:

pcs status
Esempio: 
root@lnx-node1:~# pcs status 
... 
... 
Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs    (ocf::heartbeat:Filesystem):   Started lnx-node1.amer.lan 
    * ip    (ocf::heartbeat:IPaddr):       Started lnx-node1.amer.lan 
    * nws   (ocf::EMC_NetWorker:Server):   Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

 Se si osserva un errore, viene restituito un errore generale. Le risorse non riuscite vengono visualizzate come FAILED. 

  • FS (file system): Se il file system si trova in uno stato di errore, consultare la sezione sottostante sugli errori del file system.
  • IP (IPaddr): Se IPaddr è in uno stato di errore, vedere la sezione seguente sugli errori di IPaddr.
  • NWS (server): Se il server NetWorker si trova in uno stato di errore, effettuare le seguenti operazioni:
  1. Esaminare la finestra di dialogo del server NetWorker daemon.raw per eventuali messaggi di errore visualizzati durante l'avvio. La directory del server /nsr_share/nsr/daemon.raw si trova nel percorso di storage condiviso. Il daemon del client dei nodi fisici si trova in /nsr.NetWorker.local/logs/daemon.raw. Consultare l'articolo Dell NetWorker: Come utilizzare nsr_render_log (in inglese)
  2. Se la registrazione predefinita non è sufficiente, abilitare il debug nel modo seguente:
    1. Tentare di riavviare la risorsa "Server": 
pcs resource cleanup nws
  1. Utilizzare il comando dbgcommand Per abilitare debug su nsrd processo:
dbgcommand -n nsrd Debug=#
Impostare un livello di debug utilizzando i numeri da 1 a 9. Monitorare il daemon.raw per eventuali messaggi aggiuntivi che potrebbero indirizzare a un problema.
  1. Esaminare /var/log/pcsd/pcsd.log per eventuali errori.
  2. Esaminare /var/log/pacemaker/pacemaker.log per eventuali errori.
  3. Esaminare /var/log/messages file per eventuali errori.
NOTA: Quando si esamina la sezione pcsd, i registri pacemaker e messaggi cercano i messaggi registrati negli stessi timestamp dei tentativi di avvio dei servizi NetWorker. Verificare la presenza di eventuali errori o guasti che coincidono con l'errore di avvio del servizio.

Errori del file system: 

  1. Esaminare le risorse per pacemaker:
pcs resource
  1. Esaminare la configurazione della risorsa pacemaker per la risorsa Filesystem:
pcs resource fs
Esempio:
 
Prendere nota del percorso del dispositivo, del percorso della directory e di fstype.
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started lnx-node1.amer.lan
    * ip        (ocf::heartbeat:IPaddr):         Started lnx-node1.amer.lan
    * nws       (ocf::EMC_NetWorker:Server):     Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
  Attributes: fs-instance_attributes
    device=/dev/sdb1
    directory=/nsr_share
    fstype=xfs
  Operations:
    monitor: fs-monitor-interval-20
      interval=20
      timeout=300
    start: fs-start-interval-0s
      interval=0s
      timeout=60s
    stop: fs-stop-interval-0s
      interval=0s
      timeout=60s
  1. Verificare se il dispositivo è montato sull FS:
df -h

Esempio:

root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1                                     94G  1.5G   92G   2% /nsr_share
  1. Verificare se il mount point è configurato correttamente; Associazione del dispositivo al percorso:
lsblk

Esempio:

root@lnx-node1:~# lsblk
NAME          MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda             8:0    0   40G  0 disk
├─sda1          8:1    0  600M  0 part /boot/efi
├─sda2          8:2    0    1G  0 part /boot
└─sda3          8:3    0 38.4G  0 part
  ├─rhel-root 253:0    0 34.4G  0 lvm  /
  └─rhel-swap 253:1    0    4G  0 lvm  [SWAP]
sdb             8:16   0  100G  0 disk
└─sdb1          8:17   0 93.1G  0 part /nsr_share
sr0            11:0    1 1024M  0 rom
  1. Verificare che il file system utilizzato dal dispositivo sia corretto:
blkid
Esempio:
root@lnx-node1:~# blkid 
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs" 
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064" 
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162" 
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040" 
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3" 
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"
Se la risorsa fs (Filesystem) non si avvia. Ciò è indicativo di un problema esterno a NetWorker. Il System Administrator deve esaminare la configurazione del file system del cluster e verificare che non ci siano problemi con lo storage condiviso utilizzato da pacemaker. Esaminare i registri di sistema aggiuntivi relativi a eventuali guasti del sistema o dei relativi dispositivi: 
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

Errori IPaddr:

  1. Esaminare le risorse per pacemaker:
pcs resource
  1. Esaminare la configurazione della risorsa pacemaker per la risorsa Filesystem:
pcs resource config ip
Esempio:
 
Prendere nota dell'indirizzo IP e della scheda di interfaccia di rete (NIC).
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
  Attributes: ip-instance_attributes
    cidr_netmask=24
    ip=192.1xx.9.1x0
    nic=ens192
  Operations:
    monitor: ip-monitor-interval-15
      interval=15
      timeout=120
    start: ip-start-interval-0s
      interval=0s
      timeout=20s stop:
    ip-stop-interval-0s
      interval=0s
      timeout=20s
  1. Verificare se la scheda di rete è disponibile sul sistema:
ifconfig -a
Esempio: 
root@lnx-node1:~# ifconfig -a 
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
        inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
        inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
        ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
        RX packets 953865 bytes 349705527 (333.5 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0
        TX packets 1190983 bytes 179749786 (171.4 MiB)
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
        inet 127.0.0.1 netmask 255.0.0.0 
        inet6 ::1 prefixlen 128 scopeid 0x10<host>
        loop txqueuelen 1000 (Local Loopback)
        RX packets 129798 bytes 13274289 (12.6 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0 
        TX packets 129798 bytes 13274289 (12.6 MiB) 
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
L'indirizzo IP mostrato con ifconfig corrisponde al nome del nodo fisico; tuttavia, l'IP del cluster è raggiungibile tramite questa scheda di rete quando il nodo è attivo. Accertarsi che entrambi i nodi siano configurati per utilizzare gli stessi nomi delle schede di rete.
  1. L'indirizzo IP viene risolto nel nome host (logico) corretto utilizzato dal server NetWorker?
nslookup ip 

nslookup logical_name_FQDN 

nslookup logical_name_short
Esempio:
root@lnx-node1:~# nslookup 192.1xx.9.1x0 
110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. 

root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0 

root@lnx-node1:~# nslookup lnx-nwcluster 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0

Si consiglia inoltre di eseguire la stessa procedura per l'indirizzo IP, l FQDN e il nome breve del nodo fisico. Consultare l'articolo Dell NetWorker: Best practice per la risoluzione dei problemi di risoluzione dei nomi.

  1. È possibile raggiungere l'indirizzo IP del cluster utilizzando ping? giallo
ping -c 4 ip
Esempio:
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 
PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 
64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms 

--- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 
4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
Se la risorsa IP (IPaddr) non si avvia. Ciò è indicativo di un problema esterno a NetWorker. Il System Administrator e l'amministratore di rete del cluster devono essere coinvolti per esaminare la configurazione di rete del cluster e confermare che non siano stati osservati problemi. Esaminare i registri di sistema aggiuntivi relativi a eventuali guasti del sistema o dei relativi dispositivi:
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

Altri comandi PCS:

Operazione Comando
Pacemaker o pcs version:
pcs --version
Panoramica di Pacemaker
pcs status
Panoramica delle risorse Pacemaker
pcs resource
Determinare la proprietà del percorso in un cluster.
lcmap
Abilitare (avviare) la risorsa.
pcs resource enable resource_name
Start pcs risorsa con debug.
pcs resource debug-start resource_name 
Esame delle impostazioni di configurazione delle risorse PC
pcs resource config resource_name
Disabilitare (arrestare) la risorsa:
pcs resource disable resource_name  
Riavviare la risorsa non riuscita.
pcs resource cleanup resource_name
Arresto del pacemaker sul nodo.
pcs stop cluster [--force]
Avviare il pacemaker
pcs cluster start [--all]
Mettere il nodo in standby.
pcs node standby node_name
Mettere il nodo fuori dalla modalità standby. 
pcs node unstandby node_name

Registri e file importanti:

Sentiero Scopo Comandi supplementari
/var/log/messages Contiene messaggi di sistema globali relativi alle risorse e ai servizi di sistema.
grep 'pacemaker.*\(error\|warning\)' /var/log/messages
/var/log/pacemaker/pacemaker.log  Registrazione predefinita delle informazioni sul pacemaker per le risorse e le funzioni del pacemaker. N/D
/var/log/pcsd/pcsd.log Servizio/daemon pacemaker predefinito (pcsd) registro.  N/D
/var/log/cluster/corosync.log Registro predefinito delle comunicazioni del nodo pacemaker.  N/D
/usr/sbin/nw_hae.log NetWorker (nws) Registro iniziale della risorsa come definito in /usr/lib/ocf/resource.d/EMC_NetWorker/Server N/D
/usr/lib/ocf/resource.d/EMC_NetWorker/Server  File di configurazione del pacemaker NetWorker. Queste sono le operazioni che vengono eseguite/gestite dai pc. N/D

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000218281
Article Type: How To
Last Modified: 22 Oct 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.