NetWorker: Troubleshooting-Handbuch für Red Hat Cluster Service-Problem

Summary: Dieser Artikel bietet eine Übersicht über die Vorgehensweise beim Starten von NetWorker-Services für NetWorker-Server, die auf Pacemaker-Clustern (PCs) bereitgestellt werden. Dieser Artikel richtet sich an NetWorker-Backupadministratoren und den NetWorker-Support, um das Troubleshooting dieser Probleme zu erleichtern. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

NetWorker-Server können in einer Cluster-Failover-Konfiguration auf Red Hat-Nodes mithilfe von pacemaker (pcs) Dienstleistungen. NetWorker ist auf mehreren Nodes installiert. Die Serverdatenbanken befinden sich im Shared Storage und werden basierend auf dem aktiven Node in der Pacemaker-Konfiguration zwischen Nodes übergeben. Der NetWorker-Server verwendet einen gemeinsamen Clusternamen und eine gemeinsame IP-Adresse, wodurch eine konsistente Benennung und Adressierung unabhängig vom Hosting-Node gewährleistet wird. Weitere Informationen zum Einrichten von NetWorker in einem Cluster finden Sie im NetWorker Cluster Integration Guide. Dieses Handbuch ist auf der Produktseite des Dell Supports verfügbar. 

Clustertopologie:

In diesem Artikel wird ein Beispielcluster mit der folgenden Konfiguration verwendet:
 
NetWorker-Clustertopologie

Hostname
IP-Adresse
Funktion
lnx-node1.amer.lan
192.168.9.108
Physischer Node 1
lnx-node2.amer.lan
192.168.9.109
Physischer Node 2
lnx-nwcluster.amer.lan
192.168.9.110
Von NetWorker verwendeter logischer Name


Das Dateisystem auf den Nodes verwaltet NetWorker über symbolische Links.

Aktiver Node:

Ein aktiver Node, auf dem der NetWorker-Server gestartet wird, ist symbolisch verknüpft. /nsr Zum gemeinsamen Speicherort:
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     14 Oct  5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x.  11 root root    116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x.   3 root root     17 Aug 31 17:23 nsr_share

Passiver Node:

Ein "passiver" Knoten verknüpft symbolisch /nsr an /nsr.NetWorker.localaus:
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     20 Oct  3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x.  11 root root    116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x.   2 root root      6 Aug 31 17:18 nsr_share

Wenn sich ein Node in einem passiven Zustand befindet, wird die nsrexecd (NetWorker-Client) wird mit ausgeführt /nsr.NetWorker.local. Jeder physische Node verfügt über eine eigene Clientressource, die den auflösbaren Namen und die IP-Adresse des Domain Name System (DNS) des physischen Nodes verwendet. Der NetWorker-Server wird nur unter Verwendung des Shared Storage (/nsr_share) und verwendet die gemeinsam genutzte IP-Adresse und den gemeinsamen Hostnamen. Dieser kann jeweils nur auf einem Node aktiv sein. 

Der folgende Herzschrittmacher (pcs) werden Befehle verwendet, um sich einen Überblick über die Pacemaker-Konfiguration und den Status zu verschaffen:

  • Clusterkonfiguration:

pcs status
Beispiel:
root@lnx-node1:~# pcs status 
Cluster name: rhelclus 
Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) 
Cluster Summary: 
  * Stack: corosync 
  * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum 
  * Last updated: Thu Oct 5 10:59:20 2023 
  * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan 
  * 2 nodes configured 
  * 3 resource instances configured 

Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan 
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan 
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled
Anhand der obigen Ausgabe können wir bestimmen, wie viele Nodes sich im Cluster befinden und ob einige offline sind oder sich im Standby-Status befinden. Die Ausgabe zeigt auch, welcher Node das freigegebene Dateisystem hostet (fs), IP-Adresse der Clusterressource (ip) und die NetWorker-Services (nws). Die Ressourcennamen, die hier verwendet werden, sind die Standardeinstellungen, die im NetWorker Cluster Integration Guide verwendet werden. Es ist jedoch möglich, dass unterschiedliche Namen verwendet werden. Wenn Sie unterschiedliche Namen verwenden, notieren Sie sich die Ressourcennamen und ersetzen Sie sie nach Bedarf, wenn Sie die Anweisungen in diesem Artikel befolgen.
  • Konfiguration der Pacemaker-Ressource:
pcs resource config

Beispiel:

root@lnx-node1:~# pcs resource config 
Group: NW_group 
  Resource: fs (class=ocf provider=heartbeat type=Filesystem)
    Attributes: fs-instance_attributes 
      device=/dev/sdb1 
      directory=/nsr_share 
      fstype=xfs 
    Operations: 
      monitor: fs-monitor-interval-20 
        interval=20 
        timeout=300 
      start: fs-start-interval-0s 
        interval=0s 
        timeout=60s 
      stop: fs-stop-interval-0s interval=0s timeout=60s 
  Resource: ip (class=ocf provider=heartbeat type=IPaddr) 
    Attributes: ip-instance_attributes 
      cidr_netmask=24 
      ip=192.1xx.9.1x0 
      nic=ens192 
    Operations: 
      monitor: ip-monitor-interval-15 
        interval=15 
        timeout=120 
      start: ip-start-interval-0s 
        interval=0s 
        timeout=20s 
      stop: ip-stop-interval-0s 
        interval=0s 
        timeout=20s 
  Resource: nws (class=ocf provider=EMC_NetWorker type=Server) 
    Meta Attributes: nws-meta_attributes 
      is-managed=true 
    Operations: 
      meta-data: nws-meta-data-interval-0 
        interval=0 
        timeout=10 
      migrate_from: nws-migrate_from-interval-0 
        interval=0 
        timeout=120
      migrate_to: nws-migrate_to-interval-0 
        interval=0 
        timeout=60 
      monitor: nws-monitor-interval-100 
        interval=100 
        timeout=1200 
      start: nws-start-interval-0 
        interval=0 
        timeout=600 
      stop: nws-stop-interval-0 
        interval=0 
        timeout=600 
      validate-all: nws-validate-all-interval-0 
        interval=0 
        timeout=10

 Der obige Befehl enthält Details zu jedem pcs Konfiguration der Ressourcen. Wichtige Dinge, die Sie beim ersten Überblick beachten sollten:

  • FS-Ressource "device=": Dies ist das Gerät, das als Einhängepunkt für den gemeinsamen Speicher auf dem Node-Dateisystem verwendet wird. Dieses Gerät muss auf jedem Node identisch sein. Dies wird später in diesem Wissensdatenbank-Artikel erläutert.
  • FS-Ressource "directory=": Dies ist das Verzeichnis, das der freigegebene NetWorker-Storage verwendet. Das Verzeichnis sollte als Einhängepunkt für das Feld "device=" zugeordnet werden. Dies wird später in diesem Wissensdatenbank-Artikel erläutert.
  • IP-Ressource "ip=": Dies ist die IP-Adresse, die dem logischen (freigegebenen) Hostnamen zugeordnet ist, der vom NetWorker-Server verwendet wird. Diese IP-Adresse wird auf dem aktiven Node gehostet.
  • Pacemaker-Sichtbarkeit der freigegebenen Adresse und des Speichers:
lcmap

Beispiel:

root@lnx-node1:~# lcmap
type: NSR_CLU_TYPE;
clu_type: NSR_LC_TYPE;
interface version: 1.0;

type: NSR_CLU_VIRTHOST;
hostname: 192.168.9.110;
local: TRUE;
owned paths: /nsr_share;

clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;
HINWEIS: Der Hostname sollte die IP-Adresse zurückgeben, die aus dem pcs resource config "ip="-Feld. Die eigenen Pfade sollten mit den Pfaden pcs resource config "directory="-Feld. In einigen Fällen, wenn ein Startproblem beobachtet wird, wird das lcmap gibt nicht die Felder Hostname, lokale Pfade oder eigene Pfade zurück. Dies ist ein Hinweis auf ein Problem.

Erste Diagnose:

Wenn die NetWorker-Services nicht gestartet werden können, überprüfen Sie die pcs Ressourcenstatus, um festzustellen, welche Ressource fehlschlägt:

pcs status
Beispiel: 
root@lnx-node1:~# pcs status 
... 
... 
Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs    (ocf::heartbeat:Filesystem):   Started lnx-node1.amer.lan 
    * ip    (ocf::heartbeat:IPaddr):       Started lnx-node1.amer.lan 
    * nws   (ocf::EMC_NetWorker:Server):   Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

 Wenn ein Fehler beobachtet wird, wird ein allgemeiner Fehler zurückgegeben. Die fehlgeschlagenen Ressourcen werden als FAILED angezeigt. 

  • FS (Dateisystem): Wenn sich das Dateisystem in einem fehlerhaften Zustand befindet, lesen Sie den folgenden Abschnitt zu Dateisystemfehlern.
  • IP (IPaddr): Wenn sich IPaddr in einem fehlerhaften Zustand befindet, lesen Sie den folgenden Abschnitt zu IPaddr-Fehlern.
  • NWS (Server): Wenn sich der NetWorker-Server in einem fehlerhaften Zustand befindet, führen Sie die folgenden Schritte aus:
  1. Überprüfen Sie die daemon.raw Für alle Fehlermeldungen, die während des Startvorgangs angezeigt werden. Der Server /nsr_share/nsr/daemon.raw befindet sich im Pfad Shared Storage. Der Client-Daemon für physische Nodes befindet sich im /nsr.NetWorker.local/logs/daemon.raw. Weitere Informationen finden Sie im Dell Artikel NetWorker: Verwenden von nsr_render_log
  2. Wenn die Standardprotokollierung nicht ausreicht, aktivieren Sie das Debuggen wie folgt:
    1. Versuchen Sie, die Ressource "Server" neu zu starten: 
pcs resource cleanup nws
  1. Verwenden Sie den Befehl dbgcommand So aktivieren Sie das Debuggen auf der nsrd Prozess:
dbgcommand -n nsrd Debug=#
Legen Sie ein Debug-Level mit den Zahlen 1 bis 9 fest. Überwachen Sie die daemon.raw für alle zusätzlichen Nachrichten, die auf ein Problem verweisen können.
  1. Überprüfen Sie die /var/log/pcsd/pcsd.log für eventuelle Fehler.
  2. Überprüfen Sie die /var/log/pacemaker/pacemaker.log für eventuelle Fehler.
  3. Überprüfen Sie die /var/log/messages Datei für etwaige Fehler.
HINWEIS: Bei der Überprüfung der pcsd, Pacemaker und Meldungsprotokolle suchen nach Meldungen, die während derselben Zeitstempel protokolliert wurden, als die NetWorker-Services versuchten, gestartet zu werden. Überprüfen Sie auf Fehler oder Ausfälle, die mit dem Fehler beim Starten des Dienstes zusammenfallen.

Dateisystemfehler: 

  1. Sieh dir die Pacemaker-Ressourcen an:
pcs resource
  1. Überprüfen Sie die Pacemaker-Ressourcenkonfiguration für die Dateisystemressource:
pcs resource fs
Beispiel:
 
Notieren Sie sich den Gerätepfad, den Verzeichnispfad und den fstype.
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started lnx-node1.amer.lan
    * ip        (ocf::heartbeat:IPaddr):         Started lnx-node1.amer.lan
    * nws       (ocf::EMC_NetWorker:Server):     Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
  Attributes: fs-instance_attributes
    device=/dev/sdb1
    directory=/nsr_share
    fstype=xfs
  Operations:
    monitor: fs-monitor-interval-20
      interval=20
      timeout=300
    start: fs-start-interval-0s
      interval=0s
      timeout=60s
    stop: fs-stop-interval-0s
      interval=0s
      timeout=60s
  1. Überprüfen Sie, ob das Gerät auf dem FS gemountet ist:
df -h

Beispiel:

root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1                                     94G  1.5G   92G   2% /nsr_share
  1. Überprüfen Sie, ob der Mount-Punkt korrekt konfiguriert ist. Zuordnen des Geräts zum Pfad:
lsblk

Beispiel:

root@lnx-node1:~# lsblk
NAME          MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda             8:0    0   40G  0 disk
├─sda1          8:1    0  600M  0 part /boot/efi
├─sda2          8:2    0    1G  0 part /boot
└─sda3          8:3    0 38.4G  0 part
  ├─rhel-root 253:0    0 34.4G  0 lvm  /
  └─rhel-swap 253:1    0    4G  0 lvm  [SWAP]
sdb             8:16   0  100G  0 disk
└─sdb1          8:17   0 93.1G  0 part /nsr_share
sr0            11:0    1 1024M  0 rom
  1. Vergewissern Sie sich, dass das vom Gerät verwendete Dateisystem korrekt ist:
blkid
Beispiel:
root@lnx-node1:~# blkid 
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs" 
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064" 
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162" 
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040" 
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3" 
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"
Wenn die FS-Ressource (Dateisystem) nicht gestartet werden kann. Dies weist auf ein Problem außerhalb von NetWorker hin. Der Systemadministrator sollte die Dateisystemkonfiguration des Clusters überprüfen und bestätigen, dass keine Probleme mit dem von Pacemaker verwendeten gemeinsamen Speicher vorliegen. Überprüfen Sie zusätzliche Systemprotokolle hinsichtlich etwaiger Fehler des Systems oder seiner Geräte: 
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

IPaddr-Fehler:

  1. Sieh dir die Pacemaker-Ressourcen an:
pcs resource
  1. Überprüfen Sie die Pacemaker-Ressourcenkonfiguration für die Dateisystemressource:
pcs resource config ip
Beispiel:
 
Notieren Sie sich die IP-Adresse und die Netzwerkschnittstellenkarte (NIC).
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
  Attributes: ip-instance_attributes
    cidr_netmask=24
    ip=192.1xx.9.1x0
    nic=ens192
  Operations:
    monitor: ip-monitor-interval-15
      interval=15
      timeout=120
    start: ip-start-interval-0s
      interval=0s
      timeout=20s stop:
    ip-stop-interval-0s
      interval=0s
      timeout=20s
  1. Überprüfen Sie, ob die NIC im System verfügbar ist:
ifconfig -a
Beispiel: 
root@lnx-node1:~# ifconfig -a 
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
        inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
        inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
        ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
        RX packets 953865 bytes 349705527 (333.5 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0
        TX packets 1190983 bytes 179749786 (171.4 MiB)
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
        inet 127.0.0.1 netmask 255.0.0.0 
        inet6 ::1 prefixlen 128 scopeid 0x10<host>
        loop txqueuelen 1000 (Local Loopback)
        RX packets 129798 bytes 13274289 (12.6 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0 
        TX packets 129798 bytes 13274289 (12.6 MiB) 
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
Die IP-Adresse wird mit ifconfig entspricht dem Namen des physischen Nodes. Die geclusterte IP ist jedoch über diese NIC erreichbar, wenn der Node aktiv ist. Stellen Sie sicher, dass beide Nodes für die Verwendung derselben NIC-Namen konfiguriert sind.
  1. Wird die IP-Adresse in den richtigen (logischen) Hostnamen aufgelöst, der vom NetWorker-Server verwendet wird?
nslookup ip 

nslookup logical_name_FQDN 

nslookup logical_name_short
Beispiel:
root@lnx-node1:~# nslookup 192.1xx.9.1x0 
110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. 

root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0 

root@lnx-node1:~# nslookup lnx-nwcluster 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0

Es wird auch empfohlen, die gleichen Schritte für die IP-Adresse, den FQDN und den Kurznamen des physischen Node durchzuführen. Weitere Informationen finden Sie im Dell Artikel NetWorker: Best Practices für das Troubleshooting bei der Namensauflösung.

  1. Erreichen Sie die IP-Adresse des Clusters mithilfe von ping?
ping -c 4 ip
Beispiel:
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 
PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 
64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms 

--- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 
4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
Wenn die IP-Ressource (IPaddr) nicht gestartet werden kann. Dies weist auf ein Problem außerhalb von NetWorker hin. Der Systemadministrator und der Netzwerkadministrator des Clusters sollten einbezogen werden, um die Netzwerkkonfiguration des Clusters zu überprüfen und sicherzustellen, dass keine Probleme beobachtet wurden. Überprüfen Sie zusätzliche Systemprotokolle hinsichtlich etwaiger Fehler des Systems oder seiner Geräte:
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

Andere PCS-Befehle:

Operation Befehl
Herzschrittmacher oder pcs Version:
pcs --version
Pacemaker – Übersicht
pcs status
Pacemaker-Ressourcenübersicht
pcs resource
Bestimmen Sie die Pfadeigentumsrechte in einem Cluster.
lcmap
Ressource aktivieren (starten).
pcs resource enable resource_name
Start pcs Ressource mit debug.
pcs resource debug-start resource_name 
Überprüfen der Konfigurationseinstellungen für PC-Ressourcen
pcs resource config resource_name
Deaktivieren (beenden) Sie die Ressource:
pcs resource disable resource_name  
Neustart der fehlgeschlagenen Ressource.
pcs resource cleanup resource_name
Pacemaker auf Node beenden.
pcs stop cluster [--force]
Pacemaker starten
pcs cluster start [--all]
Versetzen Sie den Node in den Stand-by-Modus.
pcs node standby node_name
Bringen Sie den Node aus dem Stand-by-Modus. 
pcs node unstandby node_name

Wichtige Protokolle und Dateien:

Pfad Zweck Ergänzende Befehle
/var/log/messages Enthält globale Systemmeldungen zu Systemressourcen und Services.
grep 'pacemaker.*\(error\|warning\)' /var/log/messages
/var/log/pacemaker/pacemaker.log  Standardmäßige Pacemaker-Informationsprotokollierung für Pacemaker-Ressourcen und -Funktionen. N. z.
/var/log/pcsd/pcsd.log Standardmäßiger Pacemaker-Service/-Daemon (pcsd) protokollieren.  N. z.
/var/log/cluster/corosync.log Standardmäßiges Kommunikationsprotokoll des Pacemaker-Node.  N. z.
/usr/sbin/nw_hae.log NetWorker (nws) Ressourcenstartprotokoll gemäß Definition in /usr/lib/ocf/resource.d/EMC_NetWorker/Server N. z.
/usr/lib/ocf/resource.d/EMC_NetWorker/Server  NetWorker-Pacemaker-Konfigurationsdatei. Dies sind die Vorgänge, die von PCs durchgeführt/verwaltet werden. N. z.

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000218281
Article Type: How To
Last Modified: 22 Oct 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.