NetWorker: Guía de solución de problemas de Red Hat Cluster Service

Resumen: En este artículo, se proporciona una visión general de cómo abordar los problemas de inicio del servicio de NetWorker para los servidores NetWorker Server implementados en clústeres de Red Hat Pacemaker (PC). Este artículo es adecuado para los administradores de respaldo de NetWorker y el soporte de NetWorker a fin de ayudar en la solución de estos problemas. ...

Este artículo se aplica a Este artículo no se aplica a Este artículo no está vinculado a ningún producto específico. No se identifican todas las versiones del producto en este artículo.

Instrucciones

Los servidores de NetWorker se pueden implementar en una configuración de conmutación por error de clúster en nodos Red Hat mediante Pacemaker (pcs) servicios. NetWorker se instala en varios nodos. Las bases de datos del servidor se encuentran en un almacenamiento compartido, que se pasan entre nodos en función del nodo activo en la configuración del marcapasos. NetWorker Server utiliza un nombre de clúster y una dirección IP compartidos, lo que garantiza la asignación de nombres y el direccionamiento coherentes, independientemente del nodo de hosting. Consulte la Guía de integración de clústeres de NetWorker para obtener detalles sobre cómo configurar NetWorker en un clúster. Esta guía está disponible en la página del producto de soporte de Dell

Topología de clúster:

En este artículo, se utiliza un clúster de ejemplo con la siguiente configuración:
 
Topología de clúster de NetWorker

Nombre del host
Dirección IP
Función
lnx-node1.amer.lan
192.168.9.108
Nodo físico 1
lnx-node2.amer.lan
192.168.9.109
Nodo físico 2
lnx-nwcluster.amer.lan
192.168.9.110
Nombre lógico utilizado por NetWorker


El sistema de archivos en los nodos administra NetWorker mediante vínculos simbólicos.

Nodo activo:

Un nodo activo donde se inicia NetWorker Server se vincula simbólicamente /nsr A la ubicación de almacenamiento compartido:
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     14 Oct  5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x.  11 root root    116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x.   3 root root     17 Aug 31 17:23 nsr_share

Nodo pasivo:

Un nodo "pasivo" se vincula simbólicamente /nsr como /nsr.NetWorker.local:
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     20 Oct  3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x.  11 root root    116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x.   2 root root      6 Aug 31 17:18 nsr_share

Cuando un nodo se encuentra en un estado pasivo, el nsrexecd El software (cliente de NetWorker) se ejecuta con /nsr.NetWorker.local. Cada nodo físico tiene su propio recurso de cliente mediante el nombre que se puede resolver y la dirección IP del sistema de nombres de dominio (DNS) del nodo físico. NetWorker Server solo se ejecuta mediante el almacenamiento compartido (/nsr_share) y utiliza la dirección IP y el nombre de host compartidos. Esto solo puede estar activo en un nodo a la vez. 

El siguiente marcapasos (pcs) se utilizan para obtener una visión general de la configuración y el estado de Pacemaker:

  • Configuración del clúster:

pcs status
Ejemplo:
root@lnx-node1:~# pcs status 
Cluster name: rhelclus 
Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) 
Cluster Summary: 
  * Stack: corosync 
  * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum 
  * Last updated: Thu Oct 5 10:59:20 2023 
  * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan 
  * 2 nodes configured 
  * 3 resource instances configured 

Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan 
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan 
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled
A partir del resultado anterior, podemos determinar cuántos nodos hay en el clúster y si alguno está offline o en estado de espera. La salida también muestra qué nodo aloja el sistema de archivos compartido (fs), dirección IP del recurso del clúster (ip), y los servicios de NetWorker (nws). Los nombres de recursos utilizados aquí son los predeterminados que se usan en la Guía de integración de clústeres de NetWorker; sin embargo, es posible que se utilicen nombres diferentes. Si usa nombres diferentes, tome nota de los nombres de los recursos y reemplácelos según sea necesario cuando siga las instrucciones de este artículo.
  • Configuración del recurso Pacemaker:
pcs resource config

Ejemplo:

root@lnx-node1:~# pcs resource config 
Group: NW_group 
  Resource: fs (class=ocf provider=heartbeat type=Filesystem)
    Attributes: fs-instance_attributes 
      device=/dev/sdb1 
      directory=/nsr_share 
      fstype=xfs 
    Operations: 
      monitor: fs-monitor-interval-20 
        interval=20 
        timeout=300 
      start: fs-start-interval-0s 
        interval=0s 
        timeout=60s 
      stop: fs-stop-interval-0s interval=0s timeout=60s 
  Resource: ip (class=ocf provider=heartbeat type=IPaddr) 
    Attributes: ip-instance_attributes 
      cidr_netmask=24 
      ip=192.1xx.9.1x0 
      nic=ens192 
    Operations: 
      monitor: ip-monitor-interval-15 
        interval=15 
        timeout=120 
      start: ip-start-interval-0s 
        interval=0s 
        timeout=20s 
      stop: ip-stop-interval-0s 
        interval=0s 
        timeout=20s 
  Resource: nws (class=ocf provider=EMC_NetWorker type=Server) 
    Meta Attributes: nws-meta_attributes 
      is-managed=true 
    Operations: 
      meta-data: nws-meta-data-interval-0 
        interval=0 
        timeout=10 
      migrate_from: nws-migrate_from-interval-0 
        interval=0 
        timeout=120
      migrate_to: nws-migrate_to-interval-0 
        interval=0 
        timeout=60 
      monitor: nws-monitor-interval-100 
        interval=100 
        timeout=1200 
      start: nws-start-interval-0 
        interval=0 
        timeout=600 
      stop: nws-stop-interval-0 
        interval=0 
        timeout=600 
      validate-all: nws-validate-all-interval-0 
        interval=0 
        timeout=10

 El comando anterior detalla cada pcs Configuración de recursos. Aspectos importantes que debe tener en cuenta durante la visión general inicial:

  • Recurso de FS "device=": Este es el dispositivo que se utiliza como punto de montaje para el almacenamiento compartido en el sistema de archivos del nodo. Este dispositivo debe ser el mismo en cada nodo. Esto se analiza más adelante en este artículo de la base de conocimientos.
  • Recurso de FS "directory=": Este es el directorio que utiliza el almacenamiento compartido de NetWorker. El directorio debe estar asociado como el punto de montaje para el campo "device=". Esto se analiza más adelante en este artículo de la base de conocimientos.
  • Recurso IP "ip=": Esta es la dirección IP asociada con el nombre de host lógico (compartido) que utiliza NetWorker Server. Esta dirección IP se aloja en el nodo activo.
  • Visibilidad de Pacemaker de la dirección y el almacenamiento compartidos:
lcmap

Ejemplo:

root@lnx-node1:~# lcmap
type: NSR_CLU_TYPE;
clu_type: NSR_LC_TYPE;
interface version: 1.0;

type: NSR_CLU_VIRTHOST;
hostname: 192.168.9.110;
local: TRUE;
owned paths: /nsr_share;

clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;
NOTA: El nombre de host debe devolver la dirección IP coincidente de la pcs resource config Campo "ip=". Las rutas de propiedad deben coincidir con las pcs resource config Campo "directory=". En algunos casos, cuando se observa un problema de inicio, el lcmap El comando no devuelve los campos de nombre de host, rutas locales o de propiedad; Esto es indicativo de un problema.

Diagnóstico inicial:

Si los servicios de NetWorker no se inician, compruebe el pcs Estado del recurso para ver qué recurso falla:

pcs status
Ejemplo: 
root@lnx-node1:~# pcs status 
... 
... 
Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs    (ocf::heartbeat:Filesystem):   Started lnx-node1.amer.lan 
    * ip    (ocf::heartbeat:IPaddr):       Started lnx-node1.amer.lan 
    * nws   (ocf::EMC_NetWorker:Server):   Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

 Si se observa una falla, se devuelve un error de falla general. Los recursos fallidos se muestran como FALLIDOS. 

  • FS (sistema de archivos): Si el sistema de archivos está en un estado fallido, consulte la siguiente sección sobre Fallas del sistema de archivos.
  • IP (dirección IP): Si la dirección IP está en un estado fallido, consulte la sección siguiente sobre Fallas de dirección IP.
  • NWS (servidor): Si NetWorker Server está en un estado fallido, realice lo siguiente:
  1. Revise el archivo daemon.raw para ver los mensajes de error que aparecen durante el inicio. El archivo del servidor /nsr_share/nsr/daemon.raw se encuentra en la ruta de almacenamiento compartido. El demonio de cliente de nodos físicos se encuentra en /nsr.NetWorker.local/logs/daemon.raw. Consulte el artículo de Dell NetWorker: Cómo utilizar nsr_render_log
  2. Si el registro predeterminado no es suficiente, habilite la depuración mediante lo siguiente:
    1. Intente reiniciar el recurso "Server": 
pcs resource cleanup nws
  1. Use el comando dbgcommand Para habilitar la depuración en el nsrd proceso:
dbgcommand -n nsrd Debug=#
Establezca un nivel de depuración con números del 1 al 9. Monitoree el daemon.raw para cualquier mensaje adicional que pueda dirigir a un problema.
  1. Consulte /var/log/pcsd/pcsd.log en caso de errores.
  2. Consulte /var/log/pacemaker/pacemaker.log en caso de errores.
  3. Consulte /var/log/messages en busca de errores.
NOTA: Al revisar la pcsd, Pacemaker y los registros de mensajes buscan mensajes que se registraron durante los mismos registros de fecha y hora en que los servicios de NetWorker intentaron iniciarse. Revise si hay errores o fallas que coincidan con la falla de inicio del servicio.

Fallas del sistema de archivos: 

  1. Revise los recursos de marcapasos:
pcs resource
  1. Revise la configuración del recurso de Pacemaker para el recurso del sistema de archivos:
pcs resource fs
Ejemplo:
 
Tome nota de la ruta del dispositivo, la ruta del directorio y fstype.
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started lnx-node1.amer.lan
    * ip        (ocf::heartbeat:IPaddr):         Started lnx-node1.amer.lan
    * nws       (ocf::EMC_NetWorker:Server):     Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
  Attributes: fs-instance_attributes
    device=/dev/sdb1
    directory=/nsr_share
    fstype=xfs
  Operations:
    monitor: fs-monitor-interval-20
      interval=20
      timeout=300
    start: fs-start-interval-0s
      interval=0s
      timeout=60s
    stop: fs-stop-interval-0s
      interval=0s
      timeout=60s
  1. Confirme si el dispositivo está montado en el FS:
df -h

Ejemplo:

root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1                                     94G  1.5G   92G   2% /nsr_share
  1. Confirme si el punto de montaje está configurado correctamente; Asociar el dispositivo con la ruta:
lsblk

Ejemplo:

root@lnx-node1:~# lsblk
NAME          MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda             8:0    0   40G  0 disk
├─sda1          8:1    0  600M  0 part /boot/efi
├─sda2          8:2    0    1G  0 part /boot
└─sda3          8:3    0 38.4G  0 part
  ├─rhel-root 253:0    0 34.4G  0 lvm  /
  └─rhel-swap 253:1    0    4G  0 lvm  [SWAP]
sdb             8:16   0  100G  0 disk
└─sdb1          8:17   0 93.1G  0 part /nsr_share
sr0            11:0    1 1024M  0 rom
  1. Confirme que el sistema de archivos utilizado por el dispositivo sea correcto:
blkid
Ejemplo:
root@lnx-node1:~# blkid 
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs" 
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064" 
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162" 
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040" 
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3" 
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"
Si el recurso fs (sistema de archivos) no se inicia. Esto es indicativo de un problema fuera de NetWorker. El administrador del sistema debe revisar la configuración del sistema de archivos del clúster y confirmar que no haya problemas con el almacenamiento compartido que utiliza Pacemaker. Revise registros adicionales del sistema con respecto a cualquier falla con el sistema o sus dispositivos: 
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

Fallas de dirección IPaddr:

  1. Revise los recursos de marcapasos:
pcs resource
  1. Revise la configuración del recurso de Pacemaker para el recurso del sistema de archivos:
pcs resource config ip
Ejemplo:
 
Tome nota de la dirección IP y la tarjeta de interfaz de red (NIC).
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
  Attributes: ip-instance_attributes
    cidr_netmask=24
    ip=192.1xx.9.1x0
    nic=ens192
  Operations:
    monitor: ip-monitor-interval-15
      interval=15
      timeout=120
    start: ip-start-interval-0s
      interval=0s
      timeout=20s stop:
    ip-stop-interval-0s
      interval=0s
      timeout=20s
  1. Confirme si la NIC está disponible en el sistema:
ifconfig -a
Ejemplo: 
root@lnx-node1:~# ifconfig -a 
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
        inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
        inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
        ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
        RX packets 953865 bytes 349705527 (333.5 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0
        TX packets 1190983 bytes 179749786 (171.4 MiB)
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
        inet 127.0.0.1 netmask 255.0.0.0 
        inet6 ::1 prefixlen 128 scopeid 0x10<host>
        loop txqueuelen 1000 (Local Loopback)
        RX packets 129798 bytes 13274289 (12.6 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0 
        TX packets 129798 bytes 13274289 (12.6 MiB) 
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
La dirección IP que se muestra con ifconfig coincide con el nombre del nodo físico; sin embargo, se puede acceder a la IP del clúster a través de esta NIC cuando el nodo está activo. Asegúrese de que ambos nodos estén configurados para usar los mismos nombres de NIC.
  1. ¿La dirección IP se resuelve en el nombre de host correcto (lógico) que utiliza NetWorker Server?
nslookup ip 

nslookup logical_name_FQDN 

nslookup logical_name_short
Ejemplo:
root@lnx-node1:~# nslookup 192.1xx.9.1x0 
110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. 

root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0 

root@lnx-node1:~# nslookup lnx-nwcluster 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0

También se recomienda realizar los mismos pasos en la dirección IP, el FQDN y el nombre corto del nodo físico. Consulte el artículo de Dell NetWorker: Prácticas recomendadas para la solución de problemas de resolución de nombres.

  1. ¿Puede acceder a la dirección IP del clúster mediante ping?
ping -c 4 ip
Ejemplo:
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 
PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 
64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms 

--- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 
4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
Si el recurso IP (dirección IPaddr) no se inicia. Esto es indicativo de un problema fuera de NetWorker. El administrador del sistema y el administrador de red del clúster deben participar para revisar la configuración de red del clúster y confirmar que no se observen problemas. Revise registros adicionales del sistema con respecto a cualquier falla con el sistema o sus dispositivos:
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

Otros comandos de PCS:

Operación Comando
Marcapasos o pcs versión:
pcs --version
Visión general de Pacemaker
pcs status
Descripción general de recursos de Pacemaker
pcs resource
Determine la propiedad de la ruta en un clúster.
lcmap
Habilite (inicie) el recurso.
pcs resource enable resource_name
Inicio pcs recurso con depuración.
pcs resource debug-start resource_name 
Revisar los ajustes de configuración de recursos de PC
pcs resource config resource_name
Deshabilite (detenga) el recurso:
pcs resource disable resource_name  
Reinicie el recurso fallido.
pcs resource cleanup resource_name
Detenga el marcapasos en el nodo.
pcs stop cluster [--force]
Arranque el marcapasos
pcs cluster start [--all]
Coloque el nodo en espera.
pcs node standby node_name
Saque el nodo del modo de espera. 
pcs node unstandby node_name

Registros y archivos importantes:

Camino Propósito: Comandos complementarios
/var/log/messages Contiene mensajes globales del sistema relacionados con los recursos y servicios del sistema.
grep 'pacemaker.*\(error\|warning\)' /var/log/messages
/var/log/pacemaker/pacemaker.log  Registro predeterminado de información de marcapasos para recursos y funciones de marcapasos. N/D
/var/log/pcsd/pcsd.log Servicio/demonio de marcapasos predeterminado (pcsd) registro.  N/D
/var/log/cluster/corosync.log Registro de comunicación predeterminado del nodo de marcapasos.  N/D
/usr/sbin/nw_hae.log NetWorker (nws) registro de inicio del recurso, tal como se define en /usr/lib/ocf/resource.d/EMC_NetWorker/Server N/D
/usr/lib/ocf/resource.d/EMC_NetWorker/Server  Archivo de configuración de NetWorker Pacemaker. Estas son las operaciones que las PC realizan/administran. N/D

Productos afectados

NetWorker

Productos

NetWorker Family, NetWorker Series
Propiedades del artículo
Número del artículo: 000218281
Tipo de artículo: How To
Última modificación: 22 oct. 2025
Versión:  6
Encuentre respuestas a sus preguntas de otros usuarios de Dell
Servicios de soporte
Compruebe si el dispositivo está cubierto por los servicios de soporte.