NetWorker: Guía de solución de problemas de Red Hat Cluster Service
Summary: En este artículo, se proporciona una visión general de cómo abordar los problemas de inicio del servicio de NetWorker para los servidores NetWorker Server implementados en clústeres de Red Hat Pacemaker (PC). Este artículo es adecuado para los administradores de respaldo de NetWorker y el soporte de NetWorker a fin de ayudar en la solución de estos problemas. ...
Instructions
Los servidores de NetWorker se pueden implementar en una configuración de conmutación por error de clúster en nodos Red Hat mediante Pacemaker (pcs) servicios. NetWorker se instala en varios nodos. Las bases de datos del servidor se encuentran en un almacenamiento compartido, que se pasan entre nodos en función del nodo activo en la configuración del marcapasos. NetWorker Server utiliza un nombre de clúster y una dirección IP compartidos, lo que garantiza la asignación de nombres y el direccionamiento coherentes, independientemente del nodo de hosting. Consulte la Guía de integración de clústeres de NetWorker para obtener detalles sobre cómo configurar NetWorker en un clúster. Esta guía está disponible en la página del producto de soporte de Dell.
Topología de clúster:
En este artículo, se utiliza un clúster de ejemplo con la siguiente configuración:
Topología de clúster de NetWorker
|
Nombre del host
|
Dirección IP
|
Función
|
|
lnx-node1.amer.lan
|
192.168.9.108
|
Nodo físico 1
|
|
lnx-node2.amer.lan
|
192.168.9.109
|
Nodo físico 2
|
|
lnx-nwcluster.amer.lan
|
192.168.9.110
|
Nombre lógico utilizado por NetWorker
|
El sistema de archivos en los nodos administra NetWorker mediante vínculos simbólicos.
Nodo activo:
/nsr A la ubicación de almacenamiento compartido:
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx. 1 root root 14 Oct 5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x. 11 root root 116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x. 3 root root 17 Aug 31 17:23 nsr_share
Nodo pasivo:
/nsr como /nsr.NetWorker.local:
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx. 1 root root 20 Oct 3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x. 11 root root 116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x. 2 root root 6 Aug 31 17:18 nsr_share
Cuando un nodo se encuentra en un estado pasivo, el nsrexecd El software (cliente de NetWorker) se ejecuta con /nsr.NetWorker.local. Cada nodo físico tiene su propio recurso de cliente mediante el nombre que se puede resolver y la dirección IP del sistema de nombres de dominio (DNS) del nodo físico. NetWorker Server solo se ejecuta mediante el almacenamiento compartido (/nsr_share) y utiliza la dirección IP y el nombre de host compartidos. Esto solo puede estar activo en un nodo a la vez.
El siguiente marcapasos (pcs) se utilizan para obtener una visión general de la configuración y el estado de Pacemaker:
-
Configuración del clúster:
pcs status
root@lnx-node1:~# pcs status Cluster name: rhelclus Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) Cluster Summary: * Stack: corosync * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum * Last updated: Thu Oct 5 10:59:20 2023 * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan * 2 nodes configured * 3 resource instances configured Node List: * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] Full List of Resources: * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan Daemon Status: corosync: active/enabled pacemaker: active/enabled pcsd: active/enabled
fs), dirección IP del recurso del clúster (ip), y los servicios de NetWorker (nws). Los nombres de recursos utilizados aquí son los predeterminados que se usan en la Guía de integración de clústeres de NetWorker; sin embargo, es posible que se utilicen nombres diferentes. Si usa nombres diferentes, tome nota de los nombres de los recursos y reemplácelos según sea necesario cuando siga las instrucciones de este artículo.
- Configuración del recurso Pacemaker:
pcs resource config
Ejemplo:
root@lnx-node1:~# pcs resource config Group: NW_group Resource: fs (class=ocf provider=heartbeat type=Filesystem) Attributes: fs-instance_attributes device=/dev/sdb1 directory=/nsr_share fstype=xfs Operations: monitor: fs-monitor-interval-20 interval=20 timeout=300 start: fs-start-interval-0s interval=0s timeout=60s stop: fs-stop-interval-0s interval=0s timeout=60s Resource: ip (class=ocf provider=heartbeat type=IPaddr) Attributes: ip-instance_attributes cidr_netmask=24 ip=192.1xx.9.1x0 nic=ens192 Operations: monitor: ip-monitor-interval-15 interval=15 timeout=120 start: ip-start-interval-0s interval=0s timeout=20s stop: ip-stop-interval-0s interval=0s timeout=20s Resource: nws (class=ocf provider=EMC_NetWorker type=Server) Meta Attributes: nws-meta_attributes is-managed=true Operations: meta-data: nws-meta-data-interval-0 interval=0 timeout=10 migrate_from: nws-migrate_from-interval-0 interval=0 timeout=120 migrate_to: nws-migrate_to-interval-0 interval=0 timeout=60 monitor: nws-monitor-interval-100 interval=100 timeout=1200 start: nws-start-interval-0 interval=0 timeout=600 stop: nws-stop-interval-0 interval=0 timeout=600 validate-all: nws-validate-all-interval-0 interval=0 timeout=10
El comando anterior detalla cada pcs Configuración de recursos. Aspectos importantes que debe tener en cuenta durante la visión general inicial:
- Recurso de FS "device=": Este es el dispositivo que se utiliza como punto de montaje para el almacenamiento compartido en el sistema de archivos del nodo. Este dispositivo debe ser el mismo en cada nodo. Esto se analiza más adelante en este artículo de la base de conocimientos.
- Recurso de FS "directory=": Este es el directorio que utiliza el almacenamiento compartido de NetWorker. El directorio debe estar asociado como el punto de montaje para el campo "device=". Esto se analiza más adelante en este artículo de la base de conocimientos.
- Recurso IP "ip=": Esta es la dirección IP asociada con el nombre de host lógico (compartido) que utiliza NetWorker Server. Esta dirección IP se aloja en el nodo activo.
- Visibilidad de Pacemaker de la dirección y el almacenamiento compartidos:
lcmap
Ejemplo:
root@lnx-node1:~# lcmap type: NSR_CLU_TYPE; clu_type: NSR_LC_TYPE; interface version: 1.0; type: NSR_CLU_VIRTHOST; hostname: 192.168.9.110; local: TRUE; owned paths: /nsr_share; clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;
pcs resource config Campo "ip=". Las rutas de propiedad deben coincidir con las pcs resource config Campo "directory=". En algunos casos, cuando se observa un problema de inicio, el lcmap El comando no devuelve los campos de nombre de host, rutas locales o de propiedad; Esto es indicativo de un problema.
Diagnóstico inicial:
Si los servicios de NetWorker no se inician, compruebe el pcs Estado del recurso para ver qué recurso falla:
pcs status
root@lnx-node1:~# pcs status ... ... Node List: * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] Full List of Resources: * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan Daemon Status: corosync: active/enabled pacemaker: active/enabled pcsd: active/enabled
Si se observa una falla, se devuelve un error de falla general. Los recursos fallidos se muestran como FALLIDOS.
- FS (sistema de archivos): Si el sistema de archivos está en un estado fallido, consulte la siguiente sección sobre Fallas del sistema de archivos.
- IP (dirección IP): Si la dirección IP está en un estado fallido, consulte la sección siguiente sobre Fallas de dirección IP.
- NWS (servidor): Si NetWorker Server está en un estado fallido, realice lo siguiente:
- Revise el archivo
daemon.rawpara ver los mensajes de error que aparecen durante el inicio. El archivo del servidor/nsr_share/nsr/daemon.rawse encuentra en la ruta de almacenamiento compartido. El demonio de cliente de nodos físicos se encuentra en/nsr.NetWorker.local/logs/daemon.raw. Consulte el artículo de Dell NetWorker: Cómo utilizar nsr_render_log - Si el registro predeterminado no es suficiente, habilite la depuración mediante lo siguiente:
- Intente reiniciar el recurso "Server":
pcs resource cleanup nws
- Use el comando
dbgcommandPara habilitar la depuración en elnsrdproceso:
dbgcommand -n nsrd Debug=#
daemon.raw para cualquier mensaje adicional que pueda dirigir a un problema.
- Consulte
/var/log/pcsd/pcsd.logen caso de errores. - Consulte
/var/log/pacemaker/pacemaker.logen caso de errores. - Consulte
/var/log/messagesen busca de errores.
pcsd, Pacemaker y los registros de mensajes buscan mensajes que se registraron durante los mismos registros de fecha y hora en que los servicios de NetWorker intentaron iniciarse. Revise si hay errores o fallas que coincidan con la falla de inicio del servicio.
Fallas del sistema de archivos:
- Revise los recursos de marcapasos:
pcs resource
- Revise la configuración del recurso de Pacemaker para el recurso del sistema de archivos:
pcs resource fs
root@lnx-node1:~# pcs resource
* Resource Group: NW_group:
* fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
* ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
* nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
Attributes: fs-instance_attributes
device=/dev/sdb1
directory=/nsr_share
fstype=xfs
Operations:
monitor: fs-monitor-interval-20
interval=20
timeout=300
start: fs-start-interval-0s
interval=0s
timeout=60s
stop: fs-stop-interval-0s
interval=0s
timeout=60s
- Confirme si el dispositivo está montado en el FS:
df -h
Ejemplo:
root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1 94G 1.5G 92G 2% /nsr_share
- Confirme si el punto de montaje está configurado correctamente; Asociar el dispositivo con la ruta:
lsblk
Ejemplo:
root@lnx-node1:~# lsblk
NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
sda 8:0 0 40G 0 disk
├─sda1 8:1 0 600M 0 part /boot/efi
├─sda2 8:2 0 1G 0 part /boot
└─sda3 8:3 0 38.4G 0 part
├─rhel-root 253:0 0 34.4G 0 lvm /
└─rhel-swap 253:1 0 4G 0 lvm [SWAP]
sdb 8:16 0 100G 0 disk
└─sdb1 8:17 0 93.1G 0 part /nsr_share
sr0 11:0 1 1024M 0 rom
- Confirme que el sistema de archivos utilizado por el dispositivo sea correcto:
blkid
root@lnx-node1:~# blkid
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs"
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064"
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162"
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040"
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3"
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"
/var/log/pcsd/pcsd.log/var/log/pacemaker/pacemaker.log/var/log/messages
Fallas de dirección IPaddr:
- Revise los recursos de marcapasos:
pcs resource
- Revise la configuración del recurso de Pacemaker para el recurso del sistema de archivos:
pcs resource config ip
root@lnx-node1:~# pcs resource
* Resource Group: NW_group:
* fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
* ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
* nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
Attributes: ip-instance_attributes
cidr_netmask=24
ip=192.1xx.9.1x0
nic=ens192
Operations:
monitor: ip-monitor-interval-15
interval=15
timeout=120
start: ip-start-interval-0s
interval=0s
timeout=20s stop:
ip-stop-interval-0s
interval=0s
timeout=20s
- Confirme si la NIC está disponible en el sistema:
ifconfig -a
root@lnx-node1:~# ifconfig -a
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
RX packets 953865 bytes 349705527 (333.5 MiB)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 1190983 bytes 179749786 (171.4 MiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
inet 127.0.0.1 netmask 255.0.0.0
inet6 ::1 prefixlen 128 scopeid 0x10<host>
loop txqueuelen 1000 (Local Loopback)
RX packets 129798 bytes 13274289 (12.6 MiB)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 129798 bytes 13274289 (12.6 MiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
La dirección IP que se muestra con ifconfig coincide con el nombre del nodo físico; sin embargo, se puede acceder a la IP del clúster a través de esta NIC cuando el nodo está activo. Asegúrese de que ambos nodos estén configurados para usar los mismos nombres de NIC.
- ¿La dirección IP se resuelve en el nombre de host correcto (lógico) que utiliza NetWorker Server?
nslookup ip nslookup logical_name_FQDN nslookup logical_name_short
root@lnx-node1:~# nslookup 192.1xx.9.1x0 110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. Server: 192.1xx.9.1x0 Address: 192.1xx.9.100#53 Name: lnx-nwcluster.amer.lan Address: 192.1xx.9.1x0 root@lnx-node1:~# nslookup lnx-nwcluster Server: 192.1xx.9.1x0 Address: 192.1xx.9.100#53 Name: lnx-nwcluster.amer.lan Address: 192.1xx.9.1x0
También se recomienda realizar los mismos pasos en la dirección IP, el FQDN y el nombre corto del nodo físico. Consulte el artículo de Dell NetWorker: Prácticas recomendadas para la solución de problemas de resolución de nombres.
- ¿Puede acceder a la dirección IP del clúster mediante
ping?
ping -c 4 ip
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms --- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
/var/log/pcsd/pcsd.log/var/log/pacemaker/pacemaker.log/var/log/messages
Otros comandos de PCS:
| Operación | Comando |
Marcapasos o pcs versión: |
|
| Visión general de Pacemaker |
|
| Descripción general de recursos de Pacemaker |
|
| Determine la propiedad de la ruta en un clúster. |
|
| Habilite (inicie) el recurso. |
|
Inicio pcs recurso con depuración. |
|
| Revisar los ajustes de configuración de recursos de PC |
|
| Deshabilite (detenga) el recurso: |
|
| Reinicie el recurso fallido. |
|
| Detenga el marcapasos en el nodo. |
|
| Arranque el marcapasos |
|
| Coloque el nodo en espera. |
|
| Saque el nodo del modo de espera. |
|
Registros y archivos importantes:
| Camino | Propósito: | Comandos complementarios |
/var/log/messages |
Contiene mensajes globales del sistema relacionados con los recursos y servicios del sistema. |
|
/var/log/pacemaker/pacemaker.log |
Registro predeterminado de información de marcapasos para recursos y funciones de marcapasos. | N/D |
/var/log/pcsd/pcsd.log |
Servicio/demonio de marcapasos predeterminado (pcsd) registro. |
N/D |
/var/log/cluster/corosync.log |
Registro de comunicación predeterminado del nodo de marcapasos. | N/D |
/usr/sbin/nw_hae.log |
NetWorker (nws) registro de inicio del recurso, tal como se define en /usr/lib/ocf/resource.d/EMC_NetWorker/Server |
N/D |
/usr/lib/ocf/resource.d/EMC_NetWorker/Server |
Archivo de configuración de NetWorker Pacemaker. Estas son las operaciones que las PC realizan/administran. | N/D |