NetWorker : Guide de dépannage du problème lié au service de cluster Red Hat
Summary: Cet article fournit un tour d’horizon de la façon d’aborder les problèmes de démarrage du service NetWorker pour les serveurs NetWorker déployés sur des clusters de stimulateurs cardiaques Red Hat (PC). Cet article est destiné aux administrateurs de sauvegarde NetWorker et au support NetWorker pour faciliter la résolution de ces problèmes. ...
Instructions
Les NetWorker Servers peuvent être déployés dans une configuration de basculement de cluster sur les nœuds Red Hat à l’aide du pacemaker (pcs) dans les services de l’entreprise. NetWorker est installé sur plusieurs nœuds. Les bases de données du serveur se trouvent sur un stockage partagé, transmis entre les nœuds en fonction du nœud actif dans la configuration du pacemaker. NetWorker Server utilise une adresse IP et un nom de cluster partagés, ce qui garantit la cohérence des noms et des adressages, quel que soit le nœud hôte. Consultez le Guide d’intégration de cluster NetWorker pour plus d’informations sur la configuration de NetWorker dans un cluster. Ce guide est disponible sur la page produit du support Dell.
Topologie du cluster :
Cet article utilise un exemple de cluster avec la configuration suivante :
Topologie de cluster NetWorker
|
Nom d’hôte
|
Adresse IP
|
Fonction
|
|
lnx-node1.amer.lan
|
192.168.9.108
|
Nœud physique 1
|
|
lnx-node2.amer.lan
|
192.168.9.109
|
Nœud physique 2
|
|
lnx-nwcluster.amer.lan
|
192.168.9.110
|
Nom logique utilisé par NetWorker
|
Le système de fichiers sur les nœuds gère NetWorker à l’aide de liens symboliques.
Nœud actif :
/nsr Vers l’emplacement de stockage partagé :
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx. 1 root root 14 Oct 5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x. 11 root root 116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x. 3 root root 17 Aug 31 17:23 nsr_share
Nœud passif :
/nsr to /nsr.NetWorker.local:
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx. 1 root root 20 Oct 3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x. 11 root root 116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x. 2 root root 6 Aug 31 17:18 nsr_share
Lorsqu’un nœud est à l’état passif, le nsrexecd Le logiciel (client NetWorker) est en cours d’exécution à l’aide de /nsr.NetWorker.local. Chaque nœud physique dispose de sa propre ressource client utilisant le nom et l’adresse IP du système de noms de domaine (DNS) du nœud physique. Le NetWorker Server s’exécute uniquement avec le stockage partagé (/nsr_share) et utilise l’adresse IP et le nom d’hôte partagés. Elle ne peut être active que sur un seul nœud à la fois.
Le stimulateur cardiaque suivant (pcs) sont utilisées pour obtenir une vue d’ensemble de la configuration et de l’état du pacemaker :
-
Configuration du cluster :
pcs status
root@lnx-node1:~# pcs status Cluster name: rhelclus Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) Cluster Summary: * Stack: corosync * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum * Last updated: Thu Oct 5 10:59:20 2023 * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan * 2 nodes configured * 3 resource instances configured Node List: * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] Full List of Resources: * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan Daemon Status: corosync: active/enabled pacemaker: active/enabled pcsd: active/enabled
fs), adresse IP de la ressource du cluster (ip) et les services NetWorker (nws). Les noms de ressources utilisés ici sont les noms par défaut utilisés dans le Guide d’intégration de cluster NetWorker. Cependant, il est possible que des noms différents soient utilisés. Si vous utilisez des noms différents, notez les noms des ressources et remplacez-les si nécessaire en suivant les instructions de cet article.
- Configuration des ressources Pacemaker :
pcs resource config
Exemple :
root@lnx-node1:~# pcs resource config Group: NW_group Resource: fs (class=ocf provider=heartbeat type=Filesystem) Attributes: fs-instance_attributes device=/dev/sdb1 directory=/nsr_share fstype=xfs Operations: monitor: fs-monitor-interval-20 interval=20 timeout=300 start: fs-start-interval-0s interval=0s timeout=60s stop: fs-stop-interval-0s interval=0s timeout=60s Resource: ip (class=ocf provider=heartbeat type=IPaddr) Attributes: ip-instance_attributes cidr_netmask=24 ip=192.1xx.9.1x0 nic=ens192 Operations: monitor: ip-monitor-interval-15 interval=15 timeout=120 start: ip-start-interval-0s interval=0s timeout=20s stop: ip-stop-interval-0s interval=0s timeout=20s Resource: nws (class=ocf provider=EMC_NetWorker type=Server) Meta Attributes: nws-meta_attributes is-managed=true Operations: meta-data: nws-meta-data-interval-0 interval=0 timeout=10 migrate_from: nws-migrate_from-interval-0 interval=0 timeout=120 migrate_to: nws-migrate_to-interval-0 interval=0 timeout=60 monitor: nws-monitor-interval-100 interval=100 timeout=1200 start: nws-start-interval-0 interval=0 timeout=600 stop: nws-stop-interval-0 interval=0 timeout=600 validate-all: nws-validate-all-interval-0 interval=0 timeout=10
La commande ci-dessus détaille chaque pcs Configuration des ressources. Points importants à prendre en compte lors de la présentation initiale :
- Ressource FS « device= » : Il s’agit du périphérique utilisé comme point de montage pour le stockage partagé sur le système de fichiers du nœud. Ce périphérique doit être le même sur chaque nœud. Cette question est abordée plus loin dans cet article de la base de connaissances.
- FS resource « directory= » : Il s’agit du répertoire utilisé par le stockage NetWorker partagé. Le répertoire doit être associé en tant que point de montage pour le champ « device= ». Cette question est abordée plus loin dans cet article de la base de connaissances.
- IP resource « ip= » : Il s’agit de l’adresse IP associée au nom d’hôte logique (partagé) utilisé par le NetWorker Server. Cette adresse IP est hébergée sur le nœud actif.
- Visibilité Pacemaker de l’adresse partagée et du stockage :
lcmap
Exemple :
root@lnx-node1:~# lcmap type: NSR_CLU_TYPE; clu_type: NSR_LC_TYPE; interface version: 1.0; type: NSR_CLU_VIRTHOST; hostname: 192.168.9.110; local: TRUE; owned paths: /nsr_share; clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;
pcs resource config Champ « ip= ». Les chemins détenus doivent correspondre au pcs resource config Champ « directory= ». Dans certains cas, lorsqu’un problème de démarrage est observé, le lcmap ne renvoie pas les champs hostname, local ou owned paths ; C’est révélateur d’un problème.
Diagnostic initial :
Si les services NetWorker ne parviennent pas à démarrer, vérifiez le pcs État de la ressource pour voir quelle ressource est défaillante :
pcs status
root@lnx-node1:~# pcs status ... ... Node List: * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] Full List of Resources: * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan Daemon Status: corosync: active/enabled pacemaker: active/enabled pcsd: active/enabled
Si une défaillance est observée, une erreur de défaillance générale est renvoyée. Les ressources en échec s’affichent comme étant EN ÉCHEC.
- FS (système de fichiers) : Si le système de fichiers est en état d’échec, reportez-vous à la section ci-dessous sur les échecs du système de fichiers.
- IP (IPaddr) : Si l’IPaddr est dans un état d’échec, reportez-vous à la section ci-dessous sur les échecs d’IPaddr.
- NWS (serveur) : Si le NetWorker Server est en état d’échec, procédez comme suit :
- Vérification de l’application du NetWorker Server
daemon.rawpour les messages d’échec qui s’affichent pendant le démarrage. Le serveur/nsr_share/nsr/daemon.rawse trouve dans le chemin de stockage partagé. Le processus client des nœuds physiques se trouve dans/nsr.NetWorker.local/logs/daemon.raw. Voir l’article Dell NetWorker : utilisation de nsr_render_log - Si la consignation par défaut n’est pas suffisante, activez le débogage en procédant comme suit :
- Essayez de redémarrer la ressource « Server » :
pcs resource cleanup nws
- Utilisez la commande
dbgcommandPour activer le débogage sur lensrdprocessus:
dbgcommand -n nsrd Debug=#
daemon.raw pour tout message supplémentaire pouvant pointer vers un problème.
- Passez en revue la
/var/log/pcsd/pcsd.logen cas d’erreurs. - Passez en revue la
/var/log/pacemaker/pacemaker.logen cas d’erreurs. - Passez en revue la
/var/log/messagespour toute erreur.
pcsd, pacemaker et les journaux de messages recherchent les messages qui ont été consignés au cours des mêmes horodatages que le démarrage des services NetWorker. Recherchez les erreurs ou les défaillances qui coïncident avec l’échec du démarrage du service.
Défaillances du système de fichiers :
- Passez en revue les ressources relatives aux stimulateurs cardiaques :
pcs resource
- Passez en revue la configuration de la ressource Pacemaker pour la ressource Système de fichiers :
pcs resource fs
root@lnx-node1:~# pcs resource
* Resource Group: NW_group:
* fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
* ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
* nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
Attributes: fs-instance_attributes
device=/dev/sdb1
directory=/nsr_share
fstype=xfs
Operations:
monitor: fs-monitor-interval-20
interval=20
timeout=300
start: fs-start-interval-0s
interval=0s
timeout=60s
stop: fs-stop-interval-0s
interval=0s
timeout=60s
- Vérifiez si le périphérique est monté sur le système de fichiers :
df -h
Exemple :
root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1 94G 1.5G 92G 2% /nsr_share
- Vérifiez si le point de montage est correctement configuré ; Associer l’appareil au chemin :
lsblk
Exemple :
root@lnx-node1:~# lsblk
NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
sda 8:0 0 40G 0 disk
├─sda1 8:1 0 600M 0 part /boot/efi
├─sda2 8:2 0 1G 0 part /boot
└─sda3 8:3 0 38.4G 0 part
├─rhel-root 253:0 0 34.4G 0 lvm /
└─rhel-swap 253:1 0 4G 0 lvm [SWAP]
sdb 8:16 0 100G 0 disk
└─sdb1 8:17 0 93.1G 0 part /nsr_share
sr0 11:0 1 1024M 0 rom
- Confirmez que le système de fichiers utilisé par le périphérique est correct :
blkid
root@lnx-node1:~# blkid
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs"
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064"
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162"
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040"
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3"
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"
/var/log/pcsd/pcsd.log/var/log/pacemaker/pacemaker.log/var/log/messages
Échecs IPaddr :
- Passez en revue les ressources relatives aux stimulateurs cardiaques :
pcs resource
- Passez en revue la configuration de la ressource Pacemaker pour la ressource Système de fichiers :
pcs resource config ip
root@lnx-node1:~# pcs resource
* Resource Group: NW_group:
* fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
* ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
* nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
Attributes: ip-instance_attributes
cidr_netmask=24
ip=192.1xx.9.1x0
nic=ens192
Operations:
monitor: ip-monitor-interval-15
interval=15
timeout=120
start: ip-start-interval-0s
interval=0s
timeout=20s stop:
ip-stop-interval-0s
interval=0s
timeout=20s
- Vérifiez si la carte NIC est disponible sur le système :
ifconfig -a
root@lnx-node1:~# ifconfig -a
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
RX packets 953865 bytes 349705527 (333.5 MiB)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 1190983 bytes 179749786 (171.4 MiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
inet 127.0.0.1 netmask 255.0.0.0
inet6 ::1 prefixlen 128 scopeid 0x10<host>
loop txqueuelen 1000 (Local Loopback)
RX packets 129798 bytes 13274289 (12.6 MiB)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 129798 bytes 13274289 (12.6 MiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
L’adresse IP indiquée avec ifconfig correspond au nom du nœud physique ; Toutefois, l’adresse IP du cluster est accessible via cette carte réseau lorsque le nœud est actif. Assurez-vous que les deux nœuds sont configurés pour utiliser les mêmes noms de carte NIC.
- L’adresse IP est-elle résolue en un nom d’hôte correct (logique) utilisé par le NetWorker Server ?
nslookup ip nslookup logical_name_FQDN nslookup logical_name_short
root@lnx-node1:~# nslookup 192.1xx.9.1x0 110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. Server: 192.1xx.9.1x0 Address: 192.1xx.9.100#53 Name: lnx-nwcluster.amer.lan Address: 192.1xx.9.1x0 root@lnx-node1:~# nslookup lnx-nwcluster Server: 192.1xx.9.1x0 Address: 192.1xx.9.100#53 Name: lnx-nwcluster.amer.lan Address: 192.1xx.9.1x0
Il est également recommandé d’effectuer les mêmes étapes sur l’adresse IP, le FQDN et le nom abrégé du nœud physique. Voir l’article Dell NetWorker : Résolution de noms Pratiques d’excellence en matière de dépannage.
- Pouvez-vous atteindre l’adresse IP du cluster à l’aide de la commande suivante :
ping?
ping -c 4 ip
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms --- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
/var/log/pcsd/pcsd.log/var/log/pacemaker/pacemaker.log/var/log/messages
Autres commandes PCS :
| Opération | Commande |
Stimulateur cardiaque ou pcs version: |
|
| Présentation des stimulateurs cardiaques |
|
| Présentation des ressources Pacemaker |
|
| Déterminer la propriété du chemin dans un cluster. |
|
| Activer (démarrer) la ressource. |
|
Commencer pcs ressource avec débogage. |
|
| Vérifier les paramètres de configuration des ressources PC |
|
| Désactiver (arrêter) la ressource : |
|
| Le redémarrage de la ressource a échoué. |
|
| Arrêtez le stimulateur cardiaque sur le nœud. |
|
| Démarrer le stimulateur cardiaque |
|
| Mettez le nœud en veille. |
|
| Sortez le nœud de l’état de veille. |
|
Journaux et fichiers importants :
| Chemin | Objectif | Commandes supplémentaires |
/var/log/messages |
Contient des messages système globaux concernant les ressources et services système. |
|
/var/log/pacemaker/pacemaker.log |
Journalisation par défaut des informations sur les stimulateurs cardiaques pour les ressources et les fonctions des stimulateurs cardiaques. | Sans objet |
/var/log/pcsd/pcsd.log |
Service/processus de pacemaker par défaut (pcsd) log. |
Sans objet |
/var/log/cluster/corosync.log |
Journal de communication par défaut du nœud du pacemaker. | Sans objet |
/usr/sbin/nw_hae.log |
NetWorker (nws) journal de démarrage de la ressource, tel que défini dans /usr/lib/ocf/resource.d/EMC_NetWorker/Server |
Sans objet |
/usr/lib/ocf/resource.d/EMC_NetWorker/Server |
Fichier de configuration du pacemaker NetWorker. Voici les opérations exécutées/gérées par les PC. | Sans objet |