NetWorker : Guide de dépannage du problème lié au service de cluster Red Hat

Summary: Cet article fournit un tour d’horizon de la façon d’aborder les problèmes de démarrage du service NetWorker pour les serveurs NetWorker déployés sur des clusters de stimulateurs cardiaques Red Hat (PC). Cet article est destiné aux administrateurs de sauvegarde NetWorker et au support NetWorker pour faciliter la résolution de ces problèmes. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Les NetWorker Servers peuvent être déployés dans une configuration de basculement de cluster sur les nœuds Red Hat à l’aide du pacemaker (pcs) dans les services de l’entreprise. NetWorker est installé sur plusieurs nœuds. Les bases de données du serveur se trouvent sur un stockage partagé, transmis entre les nœuds en fonction du nœud actif dans la configuration du pacemaker. NetWorker Server utilise une adresse IP et un nom de cluster partagés, ce qui garantit la cohérence des noms et des adressages, quel que soit le nœud hôte. Consultez le Guide d’intégration de cluster NetWorker pour plus d’informations sur la configuration de NetWorker dans un cluster. Ce guide est disponible sur la page produit du support Dell

Topologie du cluster :

Cet article utilise un exemple de cluster avec la configuration suivante :
 
Topologie de cluster NetWorker

Nom d’hôte
Adresse IP
Fonction
lnx-node1.amer.lan
192.168.9.108
Nœud physique 1
lnx-node2.amer.lan
192.168.9.109
Nœud physique 2
lnx-nwcluster.amer.lan
192.168.9.110
Nom logique utilisé par NetWorker


Le système de fichiers sur les nœuds gère NetWorker à l’aide de liens symboliques.

Nœud actif :

Un nœud actif sur lequel NetWorker Server est démarré est symboliquement lié /nsr Vers l’emplacement de stockage partagé :
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     14 Oct  5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x.  11 root root    116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x.   3 root root     17 Aug 31 17:23 nsr_share

Nœud passif :

Un noeud « passif » relie symboliquement /nsr to /nsr.NetWorker.local:
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     20 Oct  3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x.  11 root root    116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x.   2 root root      6 Aug 31 17:18 nsr_share

Lorsqu’un nœud est à l’état passif, le nsrexecd Le logiciel (client NetWorker) est en cours d’exécution à l’aide de /nsr.NetWorker.local. Chaque nœud physique dispose de sa propre ressource client utilisant le nom et l’adresse IP du système de noms de domaine (DNS) du nœud physique. Le NetWorker Server s’exécute uniquement avec le stockage partagé (/nsr_share) et utilise l’adresse IP et le nom d’hôte partagés. Elle ne peut être active que sur un seul nœud à la fois. 

Le stimulateur cardiaque suivant (pcs) sont utilisées pour obtenir une vue d’ensemble de la configuration et de l’état du pacemaker :

  • Configuration du cluster :

pcs status
Exemple :
root@lnx-node1:~# pcs status 
Cluster name: rhelclus 
Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) 
Cluster Summary: 
  * Stack: corosync 
  * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum 
  * Last updated: Thu Oct 5 10:59:20 2023 
  * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan 
  * 2 nodes configured 
  * 3 resource instances configured 

Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan 
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan 
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled
À partir de la sortie ci-dessus, nous pouvons déterminer le nombre de nœuds dans le cluster et si certains sont hors ligne ou en état de veille. La sortie indique également quel nœud héberge le système de fichiers partagé (fs), adresse IP de la ressource du cluster (ip) et les services NetWorker (nws). Les noms de ressources utilisés ici sont les noms par défaut utilisés dans le Guide d’intégration de cluster NetWorker. Cependant, il est possible que des noms différents soient utilisés. Si vous utilisez des noms différents, notez les noms des ressources et remplacez-les si nécessaire en suivant les instructions de cet article.
  • Configuration des ressources Pacemaker :
pcs resource config

Exemple :

root@lnx-node1:~# pcs resource config 
Group: NW_group 
  Resource: fs (class=ocf provider=heartbeat type=Filesystem)
    Attributes: fs-instance_attributes 
      device=/dev/sdb1 
      directory=/nsr_share 
      fstype=xfs 
    Operations: 
      monitor: fs-monitor-interval-20 
        interval=20 
        timeout=300 
      start: fs-start-interval-0s 
        interval=0s 
        timeout=60s 
      stop: fs-stop-interval-0s interval=0s timeout=60s 
  Resource: ip (class=ocf provider=heartbeat type=IPaddr) 
    Attributes: ip-instance_attributes 
      cidr_netmask=24 
      ip=192.1xx.9.1x0 
      nic=ens192 
    Operations: 
      monitor: ip-monitor-interval-15 
        interval=15 
        timeout=120 
      start: ip-start-interval-0s 
        interval=0s 
        timeout=20s 
      stop: ip-stop-interval-0s 
        interval=0s 
        timeout=20s 
  Resource: nws (class=ocf provider=EMC_NetWorker type=Server) 
    Meta Attributes: nws-meta_attributes 
      is-managed=true 
    Operations: 
      meta-data: nws-meta-data-interval-0 
        interval=0 
        timeout=10 
      migrate_from: nws-migrate_from-interval-0 
        interval=0 
        timeout=120
      migrate_to: nws-migrate_to-interval-0 
        interval=0 
        timeout=60 
      monitor: nws-monitor-interval-100 
        interval=100 
        timeout=1200 
      start: nws-start-interval-0 
        interval=0 
        timeout=600 
      stop: nws-stop-interval-0 
        interval=0 
        timeout=600 
      validate-all: nws-validate-all-interval-0 
        interval=0 
        timeout=10

 La commande ci-dessus détaille chaque pcs Configuration des ressources. Points importants à prendre en compte lors de la présentation initiale :

  • Ressource FS « device= » : Il s’agit du périphérique utilisé comme point de montage pour le stockage partagé sur le système de fichiers du nœud. Ce périphérique doit être le même sur chaque nœud. Cette question est abordée plus loin dans cet article de la base de connaissances.
  • FS resource « directory= » : Il s’agit du répertoire utilisé par le stockage NetWorker partagé. Le répertoire doit être associé en tant que point de montage pour le champ « device= ». Cette question est abordée plus loin dans cet article de la base de connaissances.
  • IP resource « ip= » : Il s’agit de l’adresse IP associée au nom d’hôte logique (partagé) utilisé par le NetWorker Server. Cette adresse IP est hébergée sur le nœud actif.
  • Visibilité Pacemaker de l’adresse partagée et du stockage :
lcmap

Exemple :

root@lnx-node1:~# lcmap
type: NSR_CLU_TYPE;
clu_type: NSR_LC_TYPE;
interface version: 1.0;

type: NSR_CLU_VIRTHOST;
hostname: 192.168.9.110;
local: TRUE;
owned paths: /nsr_share;

clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;
Remarque : Le nom d’hôte doit renvoyer l’adresse IP correspondant à partir de pcs resource config Champ « ip= ». Les chemins détenus doivent correspondre au pcs resource config Champ « directory= ». Dans certains cas, lorsqu’un problème de démarrage est observé, le lcmap ne renvoie pas les champs hostname, local ou owned paths ; C’est révélateur d’un problème.

Diagnostic initial :

Si les services NetWorker ne parviennent pas à démarrer, vérifiez le pcs État de la ressource pour voir quelle ressource est défaillante :

pcs status
Exemple : 
root@lnx-node1:~# pcs status 
... 
... 
Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs    (ocf::heartbeat:Filesystem):   Started lnx-node1.amer.lan 
    * ip    (ocf::heartbeat:IPaddr):       Started lnx-node1.amer.lan 
    * nws   (ocf::EMC_NetWorker:Server):   Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

 Si une défaillance est observée, une erreur de défaillance générale est renvoyée. Les ressources en échec s’affichent comme étant EN ÉCHEC. 

  • FS (système de fichiers) : Si le système de fichiers est en état d’échec, reportez-vous à la section ci-dessous sur les échecs du système de fichiers.
  • IP (IPaddr) : Si l’IPaddr est dans un état d’échec, reportez-vous à la section ci-dessous sur les échecs d’IPaddr.
  • NWS (serveur) : Si le NetWorker Server est en état d’échec, procédez comme suit :
  1. Vérification de l’application du NetWorker Server daemon.raw pour les messages d’échec qui s’affichent pendant le démarrage. Le serveur /nsr_share/nsr/daemon.raw se trouve dans le chemin de stockage partagé. Le processus client des nœuds physiques se trouve dans /nsr.NetWorker.local/logs/daemon.raw. Voir l’article Dell NetWorker : utilisation de nsr_render_log
  2. Si la consignation par défaut n’est pas suffisante, activez le débogage en procédant comme suit :
    1. Essayez de redémarrer la ressource « Server » : 
pcs resource cleanup nws
  1. Utilisez la commande dbgcommand Pour activer le débogage sur le nsrd processus:
dbgcommand -n nsrd Debug=#
Définissez un niveau de débogage à l’aide des nombres de 1 à 9. Surveillez les paramètres daemon.raw pour tout message supplémentaire pouvant pointer vers un problème.
  1. Passez en revue la /var/log/pcsd/pcsd.log en cas d’erreurs.
  2. Passez en revue la /var/log/pacemaker/pacemaker.log en cas d’erreurs.
  3. Passez en revue la /var/log/messages pour toute erreur.
Remarque : Lors de l’examen de l' pcsd, pacemaker et les journaux de messages recherchent les messages qui ont été consignés au cours des mêmes horodatages que le démarrage des services NetWorker. Recherchez les erreurs ou les défaillances qui coïncident avec l’échec du démarrage du service.

Défaillances du système de fichiers : 

  1. Passez en revue les ressources relatives aux stimulateurs cardiaques :
pcs resource
  1. Passez en revue la configuration de la ressource Pacemaker pour la ressource Système de fichiers :
pcs resource fs
Exemple :
 
Notez le chemin du périphérique, le chemin du répertoire et le fstype.
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started lnx-node1.amer.lan
    * ip        (ocf::heartbeat:IPaddr):         Started lnx-node1.amer.lan
    * nws       (ocf::EMC_NetWorker:Server):     Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
  Attributes: fs-instance_attributes
    device=/dev/sdb1
    directory=/nsr_share
    fstype=xfs
  Operations:
    monitor: fs-monitor-interval-20
      interval=20
      timeout=300
    start: fs-start-interval-0s
      interval=0s
      timeout=60s
    stop: fs-stop-interval-0s
      interval=0s
      timeout=60s
  1. Vérifiez si le périphérique est monté sur le système de fichiers :
df -h

Exemple :

root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1                                     94G  1.5G   92G   2% /nsr_share
  1. Vérifiez si le point de montage est correctement configuré ; Associer l’appareil au chemin :
lsblk

Exemple :

root@lnx-node1:~# lsblk
NAME          MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda             8:0    0   40G  0 disk
├─sda1          8:1    0  600M  0 part /boot/efi
├─sda2          8:2    0    1G  0 part /boot
└─sda3          8:3    0 38.4G  0 part
  ├─rhel-root 253:0    0 34.4G  0 lvm  /
  └─rhel-swap 253:1    0    4G  0 lvm  [SWAP]
sdb             8:16   0  100G  0 disk
└─sdb1          8:17   0 93.1G  0 part /nsr_share
sr0            11:0    1 1024M  0 rom
  1. Confirmez que le système de fichiers utilisé par le périphérique est correct :
blkid
Exemple :
root@lnx-node1:~# blkid 
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs" 
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064" 
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162" 
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040" 
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3" 
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"
Si la ressource fs (système de fichiers) ne parvient pas à démarrer. Cela indique un problème en dehors de NetWorker. L’administrateur système doit vérifier la configuration du système de fichiers du cluster et confirmer qu’il n’y a aucun problème avec le stockage partagé utilisé par Pacemaker. Passez en revue les journaux système supplémentaires concernant les défaillances du système ou de ses périphériques : 
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

Échecs IPaddr :

  1. Passez en revue les ressources relatives aux stimulateurs cardiaques :
pcs resource
  1. Passez en revue la configuration de la ressource Pacemaker pour la ressource Système de fichiers :
pcs resource config ip
Exemple :
 
Notez l’adresse IP et la carte d’interface réseau (NIC).
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
  Attributes: ip-instance_attributes
    cidr_netmask=24
    ip=192.1xx.9.1x0
    nic=ens192
  Operations:
    monitor: ip-monitor-interval-15
      interval=15
      timeout=120
    start: ip-start-interval-0s
      interval=0s
      timeout=20s stop:
    ip-stop-interval-0s
      interval=0s
      timeout=20s
  1. Vérifiez si la carte NIC est disponible sur le système :
ifconfig -a
Exemple : 
root@lnx-node1:~# ifconfig -a 
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
        inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
        inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
        ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
        RX packets 953865 bytes 349705527 (333.5 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0
        TX packets 1190983 bytes 179749786 (171.4 MiB)
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
        inet 127.0.0.1 netmask 255.0.0.0 
        inet6 ::1 prefixlen 128 scopeid 0x10<host>
        loop txqueuelen 1000 (Local Loopback)
        RX packets 129798 bytes 13274289 (12.6 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0 
        TX packets 129798 bytes 13274289 (12.6 MiB) 
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
L’adresse IP indiquée avec ifconfig correspond au nom du nœud physique ; Toutefois, l’adresse IP du cluster est accessible via cette carte réseau lorsque le nœud est actif. Assurez-vous que les deux nœuds sont configurés pour utiliser les mêmes noms de carte NIC.
  1. L’adresse IP est-elle résolue en un nom d’hôte correct (logique) utilisé par le NetWorker Server ?
nslookup ip 

nslookup logical_name_FQDN 

nslookup logical_name_short
Exemple :
root@lnx-node1:~# nslookup 192.1xx.9.1x0 
110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. 

root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0 

root@lnx-node1:~# nslookup lnx-nwcluster 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0

Il est également recommandé d’effectuer les mêmes étapes sur l’adresse IP, le FQDN et le nom abrégé du nœud physique. Voir l’article Dell NetWorker : Résolution de noms Pratiques d’excellence en matière de dépannage.

  1. Pouvez-vous atteindre l’adresse IP du cluster à l’aide de la commande suivante : ping?
ping -c 4 ip
Exemple :
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 
PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 
64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms 

--- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 
4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
Si la ressource IP (IPaddr) ne parvient pas à démarrer. Cela indique un problème en dehors de NetWorker. L’administrateur système et l’administrateur réseau du cluster doivent être chargés de vérifier la configuration réseau du cluster et de confirmer qu’aucun problème n’est observé. Passez en revue les journaux système supplémentaires concernant les défaillances du système ou de ses périphériques :
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

Autres commandes PCS :

Opération Commande
Stimulateur cardiaque ou pcs version:
pcs --version
Présentation des stimulateurs cardiaques
pcs status
Présentation des ressources Pacemaker
pcs resource
Déterminer la propriété du chemin dans un cluster.
lcmap
Activer (démarrer) la ressource.
pcs resource enable resource_name
Commencer pcs ressource avec débogage.
pcs resource debug-start resource_name 
Vérifier les paramètres de configuration des ressources PC
pcs resource config resource_name
Désactiver (arrêter) la ressource :
pcs resource disable resource_name  
Le redémarrage de la ressource a échoué.
pcs resource cleanup resource_name
Arrêtez le stimulateur cardiaque sur le nœud.
pcs stop cluster [--force]
Démarrer le stimulateur cardiaque
pcs cluster start [--all]
Mettez le nœud en veille.
pcs node standby node_name
Sortez le nœud de l’état de veille. 
pcs node unstandby node_name

Journaux et fichiers importants :

Chemin Objectif Commandes supplémentaires
/var/log/messages Contient des messages système globaux concernant les ressources et services système.
grep 'pacemaker.*\(error\|warning\)' /var/log/messages
/var/log/pacemaker/pacemaker.log  Journalisation par défaut des informations sur les stimulateurs cardiaques pour les ressources et les fonctions des stimulateurs cardiaques. Sans objet
/var/log/pcsd/pcsd.log Service/processus de pacemaker par défaut (pcsd) log.  Sans objet
/var/log/cluster/corosync.log Journal de communication par défaut du nœud du pacemaker.  Sans objet
/usr/sbin/nw_hae.log NetWorker (nws) journal de démarrage de la ressource, tel que défini dans /usr/lib/ocf/resource.d/EMC_NetWorker/Server Sans objet
/usr/lib/ocf/resource.d/EMC_NetWorker/Server  Fichier de configuration du pacemaker NetWorker. Voici les opérations exécutées/gérées par les PC. Sans objet

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000218281
Article Type: How To
Last Modified: 22 Oct 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.