NetWorker: Guia de solução de problemas para problema do serviço de cluster Red Hat

Summary: Este artigo fornece uma visão geral de como abordar problemas de inicialização do serviço NetWorker para servidores NetWorker implementados em clusters Red Hat Pacemaker (PCs). Este artigo é apropriado para administradores de backup do NetWorker e suporte do NetWorker para ajudar na solução desses problemas. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Os servidores do NetWorker podem ser implementados em uma configuração de failover de cluster em nós Red Hat usando o Pacemaker (pcs) serviços. O NetWorker é instalado em vários nós. Os bancos de dados do servidor estão em armazenamento compartilhado, passados entre os nós com base no nó ativo na configuração do pacemaker. O servidor do NetWorker usa um nome de cluster compartilhado e endereço IP, garantindo nomeação e endereçamento consistentes, independentemente do nó de hospedagem. Consulte o Guia de integração de clusters do NetWorker para obter detalhes sobre como configurar o NetWorker em um cluster. Este guia está disponível na página de produto do Suporte Dell

Topologia do cluster:

Este artigo usa um cluster de exemplo com a seguinte configuração:
 
Topologia de cluster do NetWorker

Nome de host
Endereço IP
Função
lnx-node1.amer.lan
192.168.9.108
Nó físico 1
lnx-node2.amer.lan
192.168.9.109
Nó físico 2
lnx-nwcluster.amer.lan
192.168.9.110
Nome lógico usado pelo NetWorker


O file system nos nós gerencia o NetWorker usando links simbólicos.

Nó ativo:

Um nó ativo em que o servidor do NetWorker é iniciado se vincula simbolicamente /nsr Para o local de armazenamento compartilhado:
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     14 Oct  5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x.  11 root root    116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x.   3 root root     17 Aug 31 17:23 nsr_share

Nó passivo:

Um nó "passivo" vincula simbolicamente /nsr para /nsr.NetWorker.local:
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     20 Oct  3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x.  11 root root    116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x.   2 root root      6 Aug 31 17:18 nsr_share

Quando um nó está em um estado passivo, o nsrexecd O software (client NetWorker) está sendo executado usando /nsr.NetWorker.local. Cada nó físico tem seu próprio recurso de client usando o nome DNS (Sistema de Nomes de Domínio) resolvível e o endereço IP do nó físico. O servidor do NetWorker só é executado usando o armazenamento compartilhado (/nsr_share) e usa o endereço IP compartilhado e o nome de host. Isso só pode estar ativo em um nó por vez. 

O seguinte marcapasso (pcs) são usados para obter uma visão geral da configuração e do status do Pacemaker:

  • Configuração em cluster:

pcs status
Exemplo:
root@lnx-node1:~# pcs status 
Cluster name: rhelclus 
Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) 
Cluster Summary: 
  * Stack: corosync 
  * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum 
  * Last updated: Thu Oct 5 10:59:20 2023 
  * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan 
  * 2 nodes configured 
  * 3 resource instances configured 

Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan 
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan 
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled
No resultado acima, podemos determinar quantos nós estão no cluster e se há algum status off-line ou em espera. O resultado também mostra qual nó está hospedando o sistema de arquivos compartilhado (fs), endereço IP do recurso de cluster (ip) e os serviços do NetWorker (nws). Os nomes de recursos usados aqui são os padrões usados no Guia de integração de cluster do NetWorker; no entanto, é possível que nomes diferentes sejam usados. Se você estiver usando nomes diferentes, anote os nomes de recursos e substitua conforme necessário ao seguir as instruções neste artigo.
  • Configuração de recursos do Pacemaker:
pcs resource config

Exemplo:

root@lnx-node1:~# pcs resource config 
Group: NW_group 
  Resource: fs (class=ocf provider=heartbeat type=Filesystem)
    Attributes: fs-instance_attributes 
      device=/dev/sdb1 
      directory=/nsr_share 
      fstype=xfs 
    Operations: 
      monitor: fs-monitor-interval-20 
        interval=20 
        timeout=300 
      start: fs-start-interval-0s 
        interval=0s 
        timeout=60s 
      stop: fs-stop-interval-0s interval=0s timeout=60s 
  Resource: ip (class=ocf provider=heartbeat type=IPaddr) 
    Attributes: ip-instance_attributes 
      cidr_netmask=24 
      ip=192.1xx.9.1x0 
      nic=ens192 
    Operations: 
      monitor: ip-monitor-interval-15 
        interval=15 
        timeout=120 
      start: ip-start-interval-0s 
        interval=0s 
        timeout=20s 
      stop: ip-stop-interval-0s 
        interval=0s 
        timeout=20s 
  Resource: nws (class=ocf provider=EMC_NetWorker type=Server) 
    Meta Attributes: nws-meta_attributes 
      is-managed=true 
    Operations: 
      meta-data: nws-meta-data-interval-0 
        interval=0 
        timeout=10 
      migrate_from: nws-migrate_from-interval-0 
        interval=0 
        timeout=120
      migrate_to: nws-migrate_to-interval-0 
        interval=0 
        timeout=60 
      monitor: nws-monitor-interval-100 
        interval=100 
        timeout=1200 
      start: nws-start-interval-0 
        interval=0 
        timeout=600 
      stop: nws-stop-interval-0 
        interval=0 
        timeout=600 
      validate-all: nws-validate-all-interval-0 
        interval=0 
        timeout=10

 O comando acima detalha cada pcs Configuração de recursos. Coisas importantes a serem observadas durante a visão geral inicial:

  • Recurso do FS "device=": Esse é o dispositivo usado como ponto de montagem para o armazenamento compartilhado no sistema de arquivos do nó. Esse dispositivo deve ser o mesmo em cada nó. Isso será discutido mais adiante neste artigo da KB.
  • Recurso do FS "directory=": Esse é o diretório usado pelo armazenamento compartilhado do NetWorker. O diretório deve ser associado como o ponto de montagem para o campo "device=". Isso será discutido mais adiante neste artigo da KB.
  • Recurso de IP "ip=": Esse é o endereço IP associado ao nome de host lógico (compartilhado) usado pelo servidor do NetWorker. Esse endereço IP é hospedado no nó ativo.
  • Visibilidade do Pacemaker do endereço e do armazenamento compartilhados:
lcmap

Exemplo:

root@lnx-node1:~# lcmap
type: NSR_CLU_TYPE;
clu_type: NSR_LC_TYPE;
interface version: 1.0;

type: NSR_CLU_VIRTHOST;
hostname: 192.168.9.110;
local: TRUE;
owned paths: /nsr_share;

clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;
Nota: O nome de host deve retornar o endereço IP correspondente do pcs resource config Campo "ip=". Os caminhos de propriedade devem corresponder ao pcs resource config Campo "diretório=". Em alguns casos, quando um problema de inicialização é observado, o lcmap O comando não retorna os campos hostname, local ou caminhos de propriedade; Isso é indicativo de um problema.

Diagnóstico inicial:

Se os serviços do NetWorker não iniciarem, verifique o: pcs Status do recurso para ver qual recurso está falhando:

pcs status
Exemplo: 
root@lnx-node1:~# pcs status 
... 
... 
Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs    (ocf::heartbeat:Filesystem):   Started lnx-node1.amer.lan 
    * ip    (ocf::heartbeat:IPaddr):       Started lnx-node1.amer.lan 
    * nws   (ocf::EMC_NetWorker:Server):   Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

 Se uma falha for observada, haverá um erro geral de falha retornado. Os recursos com falha são exibidos como FAILED. 

  • FS (file system): Se o file system estiver em estado de falha, consulte a seção abaixo sobre falhas do file system.
  • IP (IPaddr): Se o IPaddr estiver em um estado de falha, consulte a seção abaixo sobre Falhas de IPaddr.
  • NWS (servidor): Se o servidor do NetWorker estiver em um estado de falha, execute o seguinte:
  1. Analisar as informações do servidor do NetWorker daemon.raw para quaisquer mensagens de falha exibidas durante a inicialização. Os recursos do /nsr_share/nsr/daemon.raw está localizado no caminho de armazenamento compartilhado. O daemon do client de nós físicos está no /nsr.NetWorker.local/logs/daemon.raw. Consulte o artigo da Dell NetWorker: Como usar nsr_render_log
  2. Se o log padrão não for suficiente, habilite a depuração da seguinte maneira:
    1. Tente reiniciar o recurso "Server": 
pcs resource cleanup nws
  1. Use o comando dbgcommand Para habilitar a depuração no nsrd processo:
dbgcommand -n nsrd Debug=#
Defina um nível de depuração usando números de 1 a 9. Monitore o daemon.raw para quaisquer mensagens adicionais que possam direcionar para um problema.
  1. Analise a /var/log/pcsd/pcsd.log para quaisquer erros.
  2. Analise a /var/log/pacemaker/pacemaker.log para quaisquer erros.
  3. Analise a /var/log/messages arquivo para quaisquer erros.
Nota: Ao analisar o pcsd, o pacemaker e os logs de mensagens procuram mensagens que foram registradas durante os mesmos registros de data e hora que os serviços do NetWorker tentaram iniciar. Verifique se há erros ou falhas que coincidam com a falha de inicialização do serviço.

Falhas do file system: 

  1. Analise os recursos do pacemaker:
pcs resource
  1. Analise a configuração do recurso pacemaker para o recurso Filesystem:
pcs resource fs
Exemplo:
 
Anote o caminho do dispositivo, o caminho do diretório e o fstype.
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started lnx-node1.amer.lan
    * ip        (ocf::heartbeat:IPaddr):         Started lnx-node1.amer.lan
    * nws       (ocf::EMC_NetWorker:Server):     Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
  Attributes: fs-instance_attributes
    device=/dev/sdb1
    directory=/nsr_share
    fstype=xfs
  Operations:
    monitor: fs-monitor-interval-20
      interval=20
      timeout=300
    start: fs-start-interval-0s
      interval=0s
      timeout=60s
    stop: fs-stop-interval-0s
      interval=0s
      timeout=60s
  1. Confirme se o dispositivo está montado no FS:
df -h

Exemplo:

root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1                                     94G  1.5G   92G   2% /nsr_share
  1. Confirme se o ponto de montagem está configurado corretamente; Associando o dispositivo ao caminho:
lsblk

Exemplo:

root@lnx-node1:~# lsblk
NAME          MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda             8:0    0   40G  0 disk
├─sda1          8:1    0  600M  0 part /boot/efi
├─sda2          8:2    0    1G  0 part /boot
└─sda3          8:3    0 38.4G  0 part
  ├─rhel-root 253:0    0 34.4G  0 lvm  /
  └─rhel-swap 253:1    0    4G  0 lvm  [SWAP]
sdb             8:16   0  100G  0 disk
└─sdb1          8:17   0 93.1G  0 part /nsr_share
sr0            11:0    1 1024M  0 rom
  1. Confirme se o file system usado pelo dispositivo está correto:
blkid
Exemplo:
root@lnx-node1:~# blkid 
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs" 
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064" 
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162" 
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040" 
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3" 
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"
Se o recurso fs (file system) apresentar falha ao iniciar. Isso indica um problema fora do NetWorker. O administrador do sistema deve analisar a configuração do sistema de arquivos do cluster e confirmar se não há problemas com o armazenamento compartilhado usado pelo Pacemaker. Analise os logs adicionais do sistema em relação a quaisquer falhas no sistema ou em seus dispositivos: 
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

Falhas de IPaddr:

  1. Analise os recursos do pacemaker:
pcs resource
  1. Analise a configuração do recurso pacemaker para o recurso Filesystem:
pcs resource config ip
Exemplo:
 
Anote o endereço IP e a placa de interface de rede (NIC).
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
  Attributes: ip-instance_attributes
    cidr_netmask=24
    ip=192.1xx.9.1x0
    nic=ens192
  Operations:
    monitor: ip-monitor-interval-15
      interval=15
      timeout=120
    start: ip-start-interval-0s
      interval=0s
      timeout=20s stop:
    ip-stop-interval-0s
      interval=0s
      timeout=20s
  1. Confirme se a NIC está disponível no sistema:
ifconfig -a
Exemplo: 
root@lnx-node1:~# ifconfig -a 
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
        inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
        inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
        ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
        RX packets 953865 bytes 349705527 (333.5 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0
        TX packets 1190983 bytes 179749786 (171.4 MiB)
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
        inet 127.0.0.1 netmask 255.0.0.0 
        inet6 ::1 prefixlen 128 scopeid 0x10<host>
        loop txqueuelen 1000 (Local Loopback)
        RX packets 129798 bytes 13274289 (12.6 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0 
        TX packets 129798 bytes 13274289 (12.6 MiB) 
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
O endereço IP mostrado com ifconfig corresponde ao nome do nó físico; no entanto, o IP em cluster poderá ser acessado por meio dessa NIC quando o nó estiver ativo. Certifique-se de que ambos os nós estejam configurados para usar os mesmos nomes de NIC.
  1. O endereço IP é resolvido para o nome de host correto (lógico) usado pelo servidor do NetWorker?
nslookup ip 

nslookup logical_name_FQDN 

nslookup logical_name_short
Exemplo:
root@lnx-node1:~# nslookup 192.1xx.9.1x0 
110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. 

root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0 

root@lnx-node1:~# nslookup lnx-nwcluster 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0

Também é recomendável executar as mesmas etapas com relação ao endereço IP, ao FQDN e ao nome curto do nó físico. Consulte o artigo da Dell NetWorker: Práticas recomendadas para solução de problemas de resolução de nomes.

  1. Você consegue acessar o endereço IP do cluster usando ping?
ping -c 4 ip
Exemplo:
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 
PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 
64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms 

--- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 
4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
Se o recurso IP (IPaddr) estiver falhando ao iniciar. Isso indica um problema fora do NetWorker. O administrador do sistema e o administrador de rede do cluster devem ser acionados para analisar a configuração de rede do cluster e confirmar se nenhum problema foi observado. Analise os logs adicionais do sistema em relação a quaisquer falhas no sistema ou em seus dispositivos:
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

Outros comandos PCS:

Operação Comando
Marca-passo ou pcs version:
pcs --version
Visão geral do Pacemaker
pcs status
Visão geral dos recursos do Pacemaker
pcs resource
Determine a propriedade do caminho em um cluster.
lcmap
Habilite o recurso (iniciar).
pcs resource enable resource_name
Iniciar pcs Recurso com depuração.
pcs resource debug-start resource_name 
Revisar as definições de configuração de recursos dos PCs
pcs resource config resource_name
Desativar (parar) o recurso:
pcs resource disable resource_name  
Recurso com falha na reinicialização.
pcs resource cleanup resource_name
Interrompa o marca-passo no nó.
pcs stop cluster [--force]
Iniciar marcapasso
pcs cluster start [--all]
Coloque o nó em espera.
pcs node standby node_name
Tire o nó do modo de espera. 
pcs node unstandby node_name

Logs e arquivos importantes:

Caminho Objetivo Comandos complementares
/var/log/messages Contém mensagens globais do sistema sobre recursos e serviços do sistema.
grep 'pacemaker.*\(error\|warning\)' /var/log/messages
/var/log/pacemaker/pacemaker.log  Registro de informações padrão do pacemaker para recursos e funções do pacemaker. N/D
/var/log/pcsd/pcsd.log O serviço/daemon padrão do Pacemaker (pcsd) log.  N/D
/var/log/cluster/corosync.log Registro de comunicação padrão do nó do pacemaker.  N/D
/usr/sbin/nw_hae.log NetWorker (nws) log de início do recurso, conforme definido em /usr/lib/ocf/resource.d/EMC_NetWorker/Server N/D
/usr/lib/ocf/resource.d/EMC_NetWorker/Server  Arquivo de configuração do NetWorker Pacemaker. É isso que as operações são realizadas/gerenciadas pelos PCs. N/D

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000218281
Article Type: How To
Last Modified: 22 Oct 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.