NetWorker: Guía de solución de problemas de Red Hat Cluster Service

Resumen: En este artículo, se proporciona una visión general de cómo abordar los problemas de inicio del servicio de NetWorker para los servidores NetWorker Server implementados en clústeres de Red Hat Pacemaker (PC). Este artículo es adecuado para los administradores de respaldo de NetWorker y el soporte de NetWorker a fin de ayudar en la solución de estos problemas. ...

Este artículo se aplica a Este artículo no se aplica a Este artículo no está vinculado a ningún producto específico. No se identifican todas las versiones del producto en este artículo.

Consulte estos recursos

Instrucciones

Los servidores de NetWorker se pueden implementar en una configuración de conmutación por error de clúster en nodos Red Hat mediante Pacemaker (pcs) servicios. NetWorker se instala en varios nodos. Las bases de datos del servidor se encuentran en un almacenamiento compartido, que se pasan entre nodos en función del nodo activo en la configuración del marcapasos. NetWorker Server utiliza un nombre de clúster y una dirección IP compartidos, lo que garantiza la asignación de nombres y el direccionamiento coherentes, independientemente del nodo de hosting. Consulte la Guía de integración de clústeres de NetWorker para obtener detalles sobre cómo configurar NetWorker en un clúster. Esta guía está disponible en la página del producto de soporte de Dell.

Topología de clúster:

En este artículo, se utiliza un clúster de ejemplo con la siguiente configuración:

Topología de clúster de NetWorker

Nombre del host	Dirección IP	Función
lnx-node1.amer.lan	192.168.9.108	Nodo físico 1
lnx-node2.amer.lan	192.168.9.109	Nodo físico 2
lnx-nwcluster.amer.lan	192.168.9.110	Nombre lógico utilizado por NetWorker

El sistema de archivos en los nodos administra NetWorker mediante vínculos simbólicos.

Nodo activo:

Un nodo activo donde se inicia NetWorker Server se vincula simbólicamente /nsr A la ubicación de almacenamiento compartido:

root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     14 Oct  5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x.  11 root root    116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x.   3 root root     17 Aug 31 17:23 nsr_share

Nodo pasivo:

Un nodo "pasivo" se vincula simbólicamente /nsr como /nsr.NetWorker.local:

root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     20 Oct  3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x.  11 root root    116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x.   2 root root      6 Aug 31 17:18 nsr_share

Cuando un nodo se encuentra en un estado pasivo, el nsrexecd El software (cliente de NetWorker) se ejecuta con /nsr.NetWorker.local. Cada nodo físico tiene su propio recurso de cliente mediante el nombre que se puede resolver y la dirección IP del sistema de nombres de dominio (DNS) del nodo físico. NetWorker Server solo se ejecuta mediante el almacenamiento compartido (/nsr_share) y utiliza la dirección IP y el nombre de host compartidos. Esto solo puede estar activo en un nodo a la vez.

El siguiente marcapasos (pcs) se utilizan para obtener una visión general de la configuración y el estado de Pacemaker:

Configuración del clúster:

pcs status

Ejemplo:

root@lnx-node1:~# pcs status 
Cluster name: rhelclus 
Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) 
Cluster Summary: 
  * Stack: corosync 
  * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum 
  * Last updated: Thu Oct 5 10:59:20 2023 
  * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan 
  * 2 nodes configured 
  * 3 resource instances configured 

Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan 
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan 
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

A partir del resultado anterior, podemos determinar cuántos nodos hay en el clúster y si alguno está offline o en estado de espera. La salida también muestra qué nodo aloja el sistema de archivos compartido (fs), dirección IP del recurso del clúster (ip), y los servicios de NetWorker (nws). Los nombres de recursos utilizados aquí son los predeterminados que se usan en la Guía de integración de clústeres de NetWorker; sin embargo, es posible que se utilicen nombres diferentes. Si usa nombres diferentes, tome nota de los nombres de los recursos y reemplácelos según sea necesario cuando siga las instrucciones de este artículo.

Configuración del recurso Pacemaker:

pcs resource config

Ejemplo:

root@lnx-node1:~# pcs resource config 
Group: NW_group 
  Resource: fs (class=ocf provider=heartbeat type=Filesystem)
    Attributes: fs-instance_attributes 
      device=/dev/sdb1 
      directory=/nsr_share 
      fstype=xfs 
    Operations: 
      monitor: fs-monitor-interval-20 
        interval=20 
        timeout=300 
      start: fs-start-interval-0s 
        interval=0s 
        timeout=60s 
      stop: fs-stop-interval-0s interval=0s timeout=60s 
  Resource: ip (class=ocf provider=heartbeat type=IPaddr) 
    Attributes: ip-instance_attributes 
      cidr_netmask=24 
      ip=192.1xx.9.1x0 
      nic=ens192 
    Operations: 
      monitor: ip-monitor-interval-15 
        interval=15 
        timeout=120 
      start: ip-start-interval-0s 
        interval=0s 
        timeout=20s 
      stop: ip-stop-interval-0s 
        interval=0s 
        timeout=20s 
  Resource: nws (class=ocf provider=EMC_NetWorker type=Server) 
    Meta Attributes: nws-meta_attributes 
      is-managed=true 
    Operations: 
      meta-data: nws-meta-data-interval-0 
        interval=0 
        timeout=10 
      migrate_from: nws-migrate_from-interval-0 
        interval=0 
        timeout=120
      migrate_to: nws-migrate_to-interval-0 
        interval=0 
        timeout=60 
      monitor: nws-monitor-interval-100 
        interval=100 
        timeout=1200 
      start: nws-start-interval-0 
        interval=0 
        timeout=600 
      stop: nws-stop-interval-0 
        interval=0 
        timeout=600 
      validate-all: nws-validate-all-interval-0 
        interval=0 
        timeout=10

El comando anterior detalla cada pcs Configuración de recursos. Aspectos importantes que debe tener en cuenta durante la visión general inicial:

Recurso de FS "device=": Este es el dispositivo que se utiliza como punto de montaje para el almacenamiento compartido en el sistema de archivos del nodo. Este dispositivo debe ser el mismo en cada nodo. Esto se analiza más adelante en este artículo de la base de conocimientos.
Recurso de FS "directory=": Este es el directorio que utiliza el almacenamiento compartido de NetWorker. El directorio debe estar asociado como el punto de montaje para el campo "device=". Esto se analiza más adelante en este artículo de la base de conocimientos.
Recurso IP "ip=": Esta es la dirección IP asociada con el nombre de host lógico (compartido) que utiliza NetWorker Server. Esta dirección IP se aloja en el nodo activo.

Visibilidad de Pacemaker de la dirección y el almacenamiento compartidos:

lcmap

Ejemplo:

root@lnx-node1:~# lcmap
type: NSR_CLU_TYPE;
clu_type: NSR_LC_TYPE;
interface version: 1.0;

type: NSR_CLU_VIRTHOST;
hostname: 192.168.9.110;
local: TRUE;
owned paths: /nsr_share;

clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;

NOTA: El nombre de host debe devolver la dirección IP coincidente de la pcs resource config Campo "ip=". Las rutas de propiedad deben coincidir con las pcs resource config Campo "directory=". En algunos casos, cuando se observa un problema de inicio, el lcmap El comando no devuelve los campos de nombre de host, rutas locales o de propiedad; Esto es indicativo de un problema.

Diagnóstico inicial:

Si los servicios de NetWorker no se inician, compruebe el pcs Estado del recurso para ver qué recurso falla:

pcs status

Ejemplo:

root@lnx-node1:~# pcs status 
... 
... 
Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs    (ocf::heartbeat:Filesystem):   Started lnx-node1.amer.lan 
    * ip    (ocf::heartbeat:IPaddr):       Started lnx-node1.amer.lan 
    * nws   (ocf::EMC_NetWorker:Server):   Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

Si se observa una falla, se devuelve un error de falla general. Los recursos fallidos se muestran como FALLIDOS.

FS (sistema de archivos): Si el sistema de archivos está en un estado fallido, consulte la siguiente sección sobre Fallas del sistema de archivos.
IP (dirección IP): Si la dirección IP está en un estado fallido, consulte la sección siguiente sobre Fallas de dirección IP.
NWS (servidor): Si NetWorker Server está en un estado fallido, realice lo siguiente:

Revise el archivo daemon.raw para ver los mensajes de error que aparecen durante el inicio. El archivo del servidor /nsr_share/nsr/daemon.raw se encuentra en la ruta de almacenamiento compartido. El demonio de cliente de nodos físicos se encuentra en /nsr.NetWorker.local/logs/daemon.raw. Consulte el artículo de Dell NetWorker: Cómo utilizar nsr_render_log
Si el registro predeterminado no es suficiente, habilite la depuración mediante lo siguiente:
1. Intente reiniciar el recurso "Server":

pcs resource cleanup nws

Use el comando dbgcommand Para habilitar la depuración en el nsrd proceso:

dbgcommand -n nsrd Debug=#

Establezca un nivel de depuración con números del 1 al 9. Monitoree el daemon.raw para cualquier mensaje adicional que pueda dirigir a un problema.

Consulte /var/log/pcsd/pcsd.log en caso de errores.
Consulte /var/log/pacemaker/pacemaker.log en caso de errores.
Consulte /var/log/messages en busca de errores.

NOTA: Al revisar la pcsd, Pacemaker y los registros de mensajes buscan mensajes que se registraron durante los mismos registros de fecha y hora en que los servicios de NetWorker intentaron iniciarse. Revise si hay errores o fallas que coincidan con la falla de inicio del servicio.

Fallas del sistema de archivos:

Revise los recursos de marcapasos:

pcs resource

Revise la configuración del recurso de Pacemaker para el recurso del sistema de archivos:

pcs resource fs

Ejemplo:

Tome nota de la ruta del dispositivo, la ruta del directorio y fstype.

root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started lnx-node1.amer.lan
    * ip        (ocf::heartbeat:IPaddr):         Started lnx-node1.amer.lan
    * nws       (ocf::EMC_NetWorker:Server):     Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
  Attributes: fs-instance_attributes
    device=/dev/sdb1
    directory=/nsr_share
    fstype=xfs
  Operations:
    monitor: fs-monitor-interval-20
      interval=20
      timeout=300
    start: fs-start-interval-0s
      interval=0s
      timeout=60s
    stop: fs-stop-interval-0s
      interval=0s
      timeout=60s

Confirme si el dispositivo está montado en el FS:

df -h

Ejemplo:

root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1                                     94G  1.5G   92G   2% /nsr_share

Confirme si el punto de montaje está configurado correctamente; Asociar el dispositivo con la ruta:

lsblk

Ejemplo:

root@lnx-node1:~# lsblk
NAME          MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda             8:0    0   40G  0 disk
├─sda1          8:1    0  600M  0 part /boot/efi
├─sda2          8:2    0    1G  0 part /boot
└─sda3          8:3    0 38.4G  0 part
  ├─rhel-root 253:0    0 34.4G  0 lvm  /
  └─rhel-swap 253:1    0    4G  0 lvm  [SWAP]
sdb             8:16   0  100G  0 disk
└─sdb1          8:17   0 93.1G  0 part /nsr_share
sr0            11:0    1 1024M  0 rom

Confirme que el sistema de archivos utilizado por el dispositivo sea correcto:

blkid

Ejemplo:

root@lnx-node1:~# blkid 
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs" 
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064" 
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162" 
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040" 
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3" 
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"

Si el recurso fs (sistema de archivos) no se inicia. Esto es indicativo de un problema fuera de NetWorker. El administrador del sistema debe revisar la configuración del sistema de archivos del clúster y confirmar que no haya problemas con el almacenamiento compartido que utiliza Pacemaker. Revise registros adicionales del sistema con respecto a cualquier falla con el sistema o sus dispositivos:

/var/log/pcsd/pcsd.log
/var/log/pacemaker/pacemaker.log
/var/log/messages

Fallas de dirección IPaddr:

Revise los recursos de marcapasos:

pcs resource

Revise la configuración del recurso de Pacemaker para el recurso del sistema de archivos:

pcs resource config ip

Ejemplo:

Tome nota de la dirección IP y la tarjeta de interfaz de red (NIC).

root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
  Attributes: ip-instance_attributes
    cidr_netmask=24
    ip=192.1xx.9.1x0
    nic=ens192
  Operations:
    monitor: ip-monitor-interval-15
      interval=15
      timeout=120
    start: ip-start-interval-0s
      interval=0s
      timeout=20s stop:
    ip-stop-interval-0s
      interval=0s
      timeout=20s

Confirme si la NIC está disponible en el sistema:

ifconfig -a

Ejemplo:

root@lnx-node1:~# ifconfig -a 
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
        inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
        inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
        ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
        RX packets 953865 bytes 349705527 (333.5 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0
        TX packets 1190983 bytes 179749786 (171.4 MiB)
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
        inet 127.0.0.1 netmask 255.0.0.0 
        inet6 ::1 prefixlen 128 scopeid 0x10<host>
        loop txqueuelen 1000 (Local Loopback)
        RX packets 129798 bytes 13274289 (12.6 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0 
        TX packets 129798 bytes 13274289 (12.6 MiB) 
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0

La dirección IP que se muestra con ifconfig coincide con el nombre del nodo físico; sin embargo, se puede acceder a la IP del clúster a través de esta NIC cuando el nodo está activo. Asegúrese de que ambos nodos estén configurados para usar los mismos nombres de NIC.

¿La dirección IP se resuelve en el nombre de host correcto (lógico) que utiliza NetWorker Server?

nslookup ip 

nslookup logical_name_FQDN 

nslookup logical_name_short

Ejemplo:

root@lnx-node1:~# nslookup 192.1xx.9.1x0 
110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. 

root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0 

root@lnx-node1:~# nslookup lnx-nwcluster 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0

También se recomienda realizar los mismos pasos en la dirección IP, el FQDN y el nombre corto del nodo físico. Consulte el artículo de Dell NetWorker: Prácticas recomendadas para la solución de problemas de resolución de nombres.

¿Puede acceder a la dirección IP del clúster mediante ping?

ping -c 4 ip

Ejemplo:

root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 
PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 
64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms 

--- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 
4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms

Si el recurso IP (dirección IPaddr) no se inicia. Esto es indicativo de un problema fuera de NetWorker. El administrador del sistema y el administrador de red del clúster deben participar para revisar la configuración de red del clúster y confirmar que no se observen problemas. Revise registros adicionales del sistema con respecto a cualquier falla con el sistema o sus dispositivos:

/var/log/pcsd/pcsd.log
/var/log/pacemaker/pacemaker.log
/var/log/messages

Otros comandos de PCS:

Operación	Comando
Marcapasos o `pcs` versión:	`pcs --version`
Visión general de Pacemaker	`pcs status`
Descripción general de recursos de Pacemaker	`pcs resource`
Determine la propiedad de la ruta en un clúster.	`lcmap`
Habilite (inicie) el recurso.	`pcs resource enable resource_name`
Inicio `pcs` recurso con depuración.	`pcs resource debug-start resource_name`
Revisar los ajustes de configuración de recursos de PC	`pcs resource config resource_name`
Deshabilite (detenga) el recurso:	`pcs resource disable resource_name`
Reinicie el recurso fallido.	`pcs resource cleanup resource_name`
Detenga el marcapasos en el nodo.	`pcs stop cluster [--force]`
Arranque el marcapasos	`pcs cluster start [--all]`
Coloque el nodo en espera.	`pcs node standby node_name`
Saque el nodo del modo de espera.	`pcs node unstandby node_name`

Registros y archivos importantes:

Camino	Propósito:	Comandos complementarios
`/var/log/messages`	Contiene mensajes globales del sistema relacionados con los recursos y servicios del sistema.	`grep 'pacemaker.*\(error\\|warning\)' /var/log/messages`
`/var/log/pacemaker/pacemaker.log`	Registro predeterminado de información de marcapasos para recursos y funciones de marcapasos.	N/D
`/var/log/pcsd/pcsd.log`	Servicio/demonio de marcapasos predeterminado (`pcsd`) registro.	N/D
`/var/log/cluster/corosync.log`	Registro de comunicación predeterminado del nodo de marcapasos.	N/D
`/usr/sbin/nw_hae.log`	NetWorker (`nws`) registro de inicio del recurso, tal como se define en `/usr/lib/ocf/resource.d/EMC_NetWorker/Server`	N/D
`/usr/lib/ocf/resource.d/EMC_NetWorker/Server`	Archivo de configuración de NetWorker Pacemaker. Estas son las operaciones que las PC realizan/administran.	N/D

Productos afectados

NetWorker

Productos

NetWorker Family, NetWorker Series

Número del artículo: 000218281

Tipo de artículo: How To

Última modificación: 22 oct. 2025

Versión: 6

Compruebe si el dispositivo está cubierto por los servicios de soporte.

NetWorker: Guía de solución de problemas de Red Hat Cluster Service

Instrucciones

Topología de clúster:

En este artículo, se utiliza un clúster de ejemplo con la siguiente configuración:

Topología de clúster de NetWorker

El sistema de archivos en los nodos administra NetWorker mediante vínculos simbólicos.

Nodo activo:

Nodo pasivo:

Configuración del clúster:

Diagnóstico inicial:

Fallas del sistema de archivos:

Fallas de dirección IPaddr:

Otros comandos de PCS:

Registros y archivos importantes:

Productos afectados

Productos

Propiedades del artículo

Encuentre respuestas a sus preguntas de otros usuarios de Dell

Servicios de soporte

Propiedades del artículo

Encuentre respuestas a sus preguntas de otros usuarios de Dell

Servicios de soporte

NetWorker: Guía de solución de problemas de Red Hat Cluster Service

Artículo detallado

Instrucciones

Productos afectados

Instrucciones

Topología de clúster:

En este artículo, se utiliza un clúster de ejemplo con la siguiente configuración: Topología de clúster de NetWorker

El sistema de archivos en los nodos administra NetWorker mediante vínculos simbólicos.Nodo activo:

Nodo pasivo:

Configuración del clúster:

Diagnóstico inicial:

Fallas del sistema de archivos:

Fallas de dirección IPaddr:

Otros comandos de PCS:

Registros y archivos importantes:

Productos afectados

Productos

Propiedades del artículo

Encuentre respuestas a sus preguntas de otros usuarios de Dell

Servicios de soporte

Propiedades del artículo

Encuentre respuestas a sus preguntas de otros usuarios de Dell

Servicios de soporte

En este artículo, se utiliza un clúster de ejemplo con la siguiente configuración:

Topología de clúster de NetWorker

El sistema de archivos en los nodos administra NetWorker mediante vínculos simbólicos.

Nodo activo: