NetWorker. Руководство по поиску и устранению неисправностей Red Hat Cluster Service

Summary: В этой статье представлен обзор решения проблем запуска службы NetWorker для серверов NetWorker, развернутых в кластерах Red Hat Pacemaker (ПК). Данная статья предназначена для администраторов резервного копирования NetWorker и службы поддержки NetWorker для устранения этих проблем. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Серверы NetWorker можно развернуть в конфигурации отработки отказа кластера на узлах Red Hat с помощью Pacemaker (pcs) услуг. NetWorker устанавливается на нескольких узлах. Базы данных сервера находятся в общем хранилище, которое передается между узлами на основе активного узла в конфигурации pacemaker. Сервер NetWorker использует общее имя кластера и IP-адрес, что обеспечивает согласованность именования и адресации независимо от узла размещения. Подробные сведения о настройке NetWorker в кластере см. в руководстве по интеграции кластера NetWorker. Данное руководство доступно на странице продукта службы поддержки Dell

Топология кластера:

В этой статье используется пример кластера со следующей конфигурацией:
 
Топология кластера NetWorker

Имя узла
IP-адрес
Функция
lnx-node1.amer.lan
192.168.9.108
Физический узел 1
lnx-node2.amer.lan
192.168.9.109
Физический узел 2
lnx-nwcluster.amer.lan
192.168.9.110
Логическое имя, используемое NetWorker


Файловая система на узлах управляет NetWorker с помощью символьных ссылок.

Активный узел:

Активный узел, на котором запущен сервер NetWorker, символически связывается /nsr В общую папку для хранения данных:
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     14 Oct  5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x.  11 root root    116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x.   3 root root     17 Aug 31 17:23 nsr_share

Пассивный узел:

«Пассивный» узел символически связывает /nsr на /nsr.NetWorker.local.
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     20 Oct  3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x.  11 root root    116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x.   2 root root      6 Aug 31 17:18 nsr_share

Когда узел находится в пассивном состоянии, nsrexecd Программное обеспечение (клиент NetWorker) выполняется с помощью /nsr.NetWorker.local. Каждый физический узел имеет собственный клиентский ресурс, использующий разрешаемое имя и IP-адрес системы доменных имен (DNS) физического узла. Сервер NetWorker работает только с использованием общего хранилища (/nsr_share) и использует общий IP-адрес и имя хоста. Он может быть активен одновременно только на одном узле. 

Следующий кардиостимулятор (pcs) используются для получения обзора конфигурации и состояния Pacemaker:

  • Конфигурация кластера:

pcs status
Пример.
root@lnx-node1:~# pcs status 
Cluster name: rhelclus 
Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) 
Cluster Summary: 
  * Stack: corosync 
  * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum 
  * Last updated: Thu Oct 5 10:59:20 2023 
  * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan 
  * 2 nodes configured 
  * 3 resource instances configured 

Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan 
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan 
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled
По приведенным выше выводам можно определить, сколько узлов находится в кластере, и находятся ли какие-либо из них в автономном режиме или в режиме ожидания. В выходных данных также показано, на каком узле находится общая файловая система (fs), IP-адрес ресурса кластера (ip) и службы NetWorker (nws). Здесь используются имена ресурсов по умолчанию, используемые в руководстве по интеграции кластеров NetWorker; Однако не исключено, что используются разные названия. Если вы используете другие имена, запишите имена ресурсов и при необходимости замените, следуя инструкциям в этой статье.
  • Конфигурация ресурсов Pacemaker:
pcs resource config

Пример.

root@lnx-node1:~# pcs resource config 
Group: NW_group 
  Resource: fs (class=ocf provider=heartbeat type=Filesystem)
    Attributes: fs-instance_attributes 
      device=/dev/sdb1 
      directory=/nsr_share 
      fstype=xfs 
    Operations: 
      monitor: fs-monitor-interval-20 
        interval=20 
        timeout=300 
      start: fs-start-interval-0s 
        interval=0s 
        timeout=60s 
      stop: fs-stop-interval-0s interval=0s timeout=60s 
  Resource: ip (class=ocf provider=heartbeat type=IPaddr) 
    Attributes: ip-instance_attributes 
      cidr_netmask=24 
      ip=192.1xx.9.1x0 
      nic=ens192 
    Operations: 
      monitor: ip-monitor-interval-15 
        interval=15 
        timeout=120 
      start: ip-start-interval-0s 
        interval=0s 
        timeout=20s 
      stop: ip-stop-interval-0s 
        interval=0s 
        timeout=20s 
  Resource: nws (class=ocf provider=EMC_NetWorker type=Server) 
    Meta Attributes: nws-meta_attributes 
      is-managed=true 
    Operations: 
      meta-data: nws-meta-data-interval-0 
        interval=0 
        timeout=10 
      migrate_from: nws-migrate_from-interval-0 
        interval=0 
        timeout=120
      migrate_to: nws-migrate_to-interval-0 
        interval=0 
        timeout=60 
      monitor: nws-monitor-interval-100 
        interval=100 
        timeout=1200 
      start: nws-start-interval-0 
        interval=0 
        timeout=600 
      stop: nws-stop-interval-0 
        interval=0 
        timeout=600 
      validate-all: nws-validate-all-interval-0 
        interval=0 
        timeout=10

 Приведенная выше команда содержит подробные сведения о каждом pcs Конфигурация ресурсов. Важные моменты, на которые следует обратить внимание при первоначальном обзоре:

  • Ресурс файловой системы "device=": Это устройство, используемое в качестве точки подключения для общего хранилища в файловой системе узла. Это устройство должно быть одинаковым на каждом узле. Это описано далее в этой статье базы знаний.
  • Ресурс файловой системы "directory=": Это каталог, используемый общим хранилищем NetWorker. Каталог должен быть связан с точкой монтирования для поля «device=». Это описано далее в этой статье базы знаний.
  • IP-ресурс "ip=": Это IP-адрес, связанный с логическим (общим) именем хоста, используемым сервером NetWorker. Этот IP-адрес размещается на активном узле.
  • Видимость общего адреса и хранилища Pacemaker:
lcmap

Пример.

root@lnx-node1:~# lcmap
type: NSR_CLU_TYPE;
clu_type: NSR_LC_TYPE;
interface version: 1.0;

type: NSR_CLU_VIRTHOST;
hostname: 192.168.9.110;
local: TRUE;
owned paths: /nsr_share;

clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;
ПРИМЕЧАНИЕ. Имя хоста должно возвращать IP-адрес, совпадающий с pcs resource config Поле "ip=". Принадлежащие пути должны совпадать с pcs resource config Поле "directory=". В некоторых случаях, когда наблюдается проблема при запуске, lcmap команда не возвращает поля hostname, local или owned paths; Это указывает на проблему.

Первичная диагностика:

Если службы NetWorker не запускаются, проверьте, pcs состояния ресурса, чтобы узнать, какой ресурс не работает:

pcs status
Пример. 
root@lnx-node1:~# pcs status 
... 
... 
Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs    (ocf::heartbeat:Filesystem):   Started lnx-node1.amer.lan 
    * ip    (ocf::heartbeat:IPaddr):       Started lnx-node1.amer.lan 
    * nws   (ocf::EMC_NetWorker:Server):   Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

 Если наблюдается сбой, возвращается общая ошибка сбоя. Ресурсы, для которых произошел сбой, отображаются с пометкой FAILED. 

  • FS (файловая система): Если файловая система находится в состоянии сбоя, см. раздел о сбоях файловой системы ниже.
  • IP-адрес (IPaddr): Если IPaddr находится в состоянии сбоя, см. раздел о сбоях IPaddr ниже.
  • NWS (сервер): Если сервер NetWorker находится в состоянии сбоя, выполните следующие действия.
  1. Просмотрите daemon.raw При любых сообщениях о сбое, появляющихся во время запуска. Функция /nsr_share/nsr/daemon.raw находится в пути к общему хранилищу. Управляющая программа клиента физических узлов находится в /nsr.NetWorker.local/logs/daemon.raw. См. статью Dell NetWorker. Как использовать nsr_render_log
  2. Если ведения журнала по умолчанию недостаточно, включите отладку следующим образом:
    1. Попытайтесь перезапустить ресурс «Server»: 
pcs resource cleanup nws
  1. Используйте dbgcommand Чтобы включить отладку на nsrd процесс:
dbgcommand -n nsrd Debug=#
Задайте уровень отладки с помощью чисел от 1 до 9. Следите за daemon.raw для любых дополнительных сообщений, которые могут привести к проблеме.
  1. Изучите сведения в /var/log/pcsd/pcsd.log за любые ошибки.
  2. Изучите сведения в /var/log/pacemaker/pacemaker.log за любые ошибки.
  3. Изучите сведения в /var/log/messages на наличие ошибок.
ПРИМЕЧАНИЕ. При рассмотрении pcsd, Pacemaker и журналы сообщений ищут сообщения, которые были зарегистрированы в течение тех же временных меток, когда службы NetWorker пытались запуститься. Проверьте, нет ли ошибок или сбоев, которые совпадают со сбоем при запуске службы.

Сбои файловой системы: 

  1. Ознакомьтесь с ресурсами по кардиостимулятору.
pcs resource
  1. Просмотрите конфигурацию ресурса Pacemaker для ресурса Filesystem:
pcs resource fs
Пример.
 
Запишите путь к устройству, путь к каталогу и fstype.
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started lnx-node1.amer.lan
    * ip        (ocf::heartbeat:IPaddr):         Started lnx-node1.amer.lan
    * nws       (ocf::EMC_NetWorker:Server):     Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
  Attributes: fs-instance_attributes
    device=/dev/sdb1
    directory=/nsr_share
    fstype=xfs
  Operations:
    monitor: fs-monitor-interval-20
      interval=20
      timeout=300
    start: fs-start-interval-0s
      interval=0s
      timeout=60s
    stop: fs-stop-interval-0s
      interval=0s
      timeout=60s
  1. Убедитесь, что устройство установлено на файловой системе:
df -h

Пример.

root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1                                     94G  1.5G   92G   2% /nsr_share
  1. Убедитесь, что точка монтирования настроена правильно. Привязка устройства к пути:
lsblk

Пример.

root@lnx-node1:~# lsblk
NAME          MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda             8:0    0   40G  0 disk
├─sda1          8:1    0  600M  0 part /boot/efi
├─sda2          8:2    0    1G  0 part /boot
└─sda3          8:3    0 38.4G  0 part
  ├─rhel-root 253:0    0 34.4G  0 lvm  /
  └─rhel-swap 253:1    0    4G  0 lvm  [SWAP]
sdb             8:16   0  100G  0 disk
└─sdb1          8:17   0 93.1G  0 part /nsr_share
sr0            11:0    1 1024M  0 rom
  1. Убедитесь в правильности файловой системы, используемой устройством:
blkid
Пример.
root@lnx-node1:~# blkid 
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs" 
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064" 
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162" 
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040" 
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3" 
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"
Если не удается запустить ресурс файловой системы (файловой системы). Это указывает на проблему за пределами NetWorker. Системный администратор должен проверить конфигурацию файловой системы кластера и убедиться в отсутствии проблем с общим хранилищем, используемым Pacemaker. Просмотрите дополнительные системные журналы, касающиеся любых сбоев в системе или ее устройствах: 
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

Сбои IPaddr:

  1. Ознакомьтесь с ресурсами по кардиостимулятору.
pcs resource
  1. Просмотрите конфигурацию ресурса Pacemaker для ресурса Filesystem:
pcs resource config ip
Пример.
 
Запишите IP-адрес и сетевую карту (NIC).
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
  Attributes: ip-instance_attributes
    cidr_netmask=24
    ip=192.1xx.9.1x0
    nic=ens192
  Operations:
    monitor: ip-monitor-interval-15
      interval=15
      timeout=120
    start: ip-start-interval-0s
      interval=0s
      timeout=20s stop:
    ip-stop-interval-0s
      interval=0s
      timeout=20s
  1. Убедитесь, что сетевая плата доступна в системе.
ifconfig -a
Пример. 
root@lnx-node1:~# ifconfig -a 
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
        inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
        inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
        ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
        RX packets 953865 bytes 349705527 (333.5 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0
        TX packets 1190983 bytes 179749786 (171.4 MiB)
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
        inet 127.0.0.1 netmask 255.0.0.0 
        inet6 ::1 prefixlen 128 scopeid 0x10<host>
        loop txqueuelen 1000 (Local Loopback)
        RX packets 129798 bytes 13274289 (12.6 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0 
        TX packets 129798 bytes 13274289 (12.6 MiB) 
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
IP-адрес, отображаемый с помощью ifconfig совпадает с именем физического узла; Однако кластерный IP-адрес доступен через эту сетевую плату, когда узел активен. Убедитесь, что оба узла настроены для использования одних и тех же имен сетевых плат.
  1. Разрешается ли IP-адрес в правильное (логическое) имя хоста, используемое сервером NetWorker?
nslookup ip 

nslookup logical_name_FQDN 

nslookup logical_name_short
Пример.
root@lnx-node1:~# nslookup 192.1xx.9.1x0 
110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. 

root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0 

root@lnx-node1:~# nslookup lnx-nwcluster 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0

Также рекомендуется выполнить те же действия для IP-адреса, FQDN и короткого имени физического узла. См. статью Dell NetWorker. Передовые подходы к поиску и устранению неисправностей при разрешении имен.

  1. Можно ли получить доступ к IP-адресу кластера с помощью ping?
ping -c 4 ip
Пример.
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 
PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 
64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms 

--- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 
4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
Если происходит сбой запуска IP-ресурса (IPaddr). Это указывает на проблему за пределами NetWorker. Необходимо привлечь системного администратора кластера и сетевого администратора, чтобы проверить конфигурацию сети кластера и убедиться в отсутствии проблем. Просмотрите дополнительные системные журналы, касающиеся любых сбоев в системе или ее устройствах:
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

Другие команды PCS:

Операция Команда
Кардиостимулятор или pcs version:
pcs --version
Общие сведения о кардиостимуляторе
pcs status
Обзор ресурсов Pacemaker
pcs resource
Определите владельца пути в кластере.
lcmap
Включение (запуск) ресурса.
pcs resource enable resource_name
Запуск pcs ресурс с отладкой.
pcs resource debug-start resource_name 
Просмотр параметров конфигурации ресурсов ПК
pcs resource config resource_name
Отключение (остановка) ресурса:
pcs resource disable resource_name  
Перезапустите ресурс, завершившийся сбоем.
pcs resource cleanup resource_name
Остановите кардиостимулятор на узле.
pcs stop cluster [--force]
Запуск кардиостимулятора
pcs cluster start [--all]
Переведите узел в режим ожидания.
pcs node standby node_name
Переведите узел из режима ожидания. 
pcs node unstandby node_name

Важные журналы и файлы:

Путь Назначение Дополнительные команды
/var/log/messages Содержит глобальные системные сообщения, касающиеся системных ресурсов и служб.
grep 'pacemaker.*\(error\|warning\)' /var/log/messages
/var/log/pacemaker/pacemaker.log  Ведение журнала информации о кардиостимуляторе по умолчанию для ресурсов и функций кардиостимулятора. -
/var/log/pcsd/pcsd.log Служба/управляющая программа Pacemaker по умолчанию (pcsd) журнала.  -
/var/log/cluster/corosync.log Журнал связи с узлом Pacemaker по умолчанию.  -
/usr/sbin/nw_hae.log NetWorker (nws) журнал запуска ресурса, как определено в /usr/lib/ocf/resource.d/EMC_NetWorker/Server -
/usr/lib/ocf/resource.d/EMC_NetWorker/Server  Файл конфигурации NetWorker Pacemaker. Это операции, которые выполняются или управляются компьютерами. -

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000218281
Article Type: How To
Last Modified: 22 Oct 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.