NetWorker: Посібник з усунення несправностей у разі проблеми зі службою Red Hat Cluster

Summary: У цій статті наведено огляд того, як підійти до проблем запуску служби NetWorker для серверів NetWorker, розгорнутих на кластерах кардіостимуляторів Red Hat (pcs). Ця стаття підходить для адміністраторів резервного копіювання NetWorker і служби підтримки NetWorker, щоб допомогти в усуненні цих проблем. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Сервери NetWorker можуть бути розгорнуті в конфігурації відмови кластера на вузлах Red Hat за допомогою пейсмекера (pcs) послуг. NetWorker встановлюється на декількох вузлах. Бази даних сервера знаходяться на спільному сховищі, передаються між вузлами на основі активного вузла в конфігурації кардіостимулятора. Сервер NetWorker використовує спільне ім'я кластера та IP-адресу, що забезпечує узгоджене іменування та адресацію незалежно від вузла хостингу. Перегляньте Посібник з інтеграції кластера NetWorker для отримання детальної інформації про те, як налаштувати NetWorker у кластері. Цей посібник доступний на сторінці продукту служби підтримки Dell

Топологія кластерів:

У цій статті використовується приклад кластера з наступною конфігурацією:
 
Топологія кластера NetWorker

Ім'я хоста
IP-адреса
Функція
lnx-node1.amer.lan
192.168.9.108
Фізичний вузол 1
lnx-node2.amer.lan
192.168.9.109
Фізичний вузол 2
lnx-nwcluster.amer.lan
192.168.9.110
Логічне ім'я, що використовується NetWorker


Файлова система на вузлах керує NetWorker за допомогою символьних посилань.

Активний вузол:

Активний вузол, на якому запущено сервер NetWorker, символічно посилається /nsr до місця спільного зберігання:
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     14 Oct  5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x.  11 root root    116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x.   3 root root     17 Aug 31 17:23 nsr_share

Пасивний вузол:

«Пасивний» вузол символічно пов'язує /nsr до /nsr.NetWorker.local:
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     20 Oct  3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x.  11 root root    116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x.   2 root root      6 Aug 31 17:18 nsr_share

Коли вузол знаходиться в пасивному стані, то nsrexecd (клієнт NetWorker) програмне забезпечення працює з використанням /nsr.NetWorker.local. Кожен фізичний вузол має свій власний клієнтський ресурс, використовуючи ім'я та IP-адресу системи доменних імен (DNS) фізичного вузла. Сервер NetWorker працює лише з використанням спільного сховища (/nsr_share) і використовує спільну IP-адресу та ім'я хоста. Це може бути активно лише на одному вузлі одночасно. 

Наступний кардіостимулятор (pcs) використовуються для отримання огляду конфігурації та стану кардіостимулятора:

  • Конфігурація кластера:

pcs status
Приклад:
root@lnx-node1:~# pcs status 
Cluster name: rhelclus 
Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) 
Cluster Summary: 
  * Stack: corosync 
  * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum 
  * Last updated: Thu Oct 5 10:59:20 2023 
  * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan 
  * 2 nodes configured 
  * 3 resource instances configured 

Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan 
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan 
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled
З наведеного вище виводу ми можемо визначити, скільки вузлів знаходиться в кластері і чи знаходяться якісь з них в автономному режимі або в режимі очікування. Вихідні дані також показують, на якому вузлі розміщена спільна файлова система (fs), IP-адреса ресурсу кластера (ip), а також сервіси NetWorker (nws). Імена ресурсів, що використовуються тут, є стандартними, що використовуються в Посібнику з інтеграції кластера NetWorker; Однак не виключено, що використовуються різні назви. Якщо ви використовуєте різні назви, запишіть назви ресурсів і замініть їх за потреби, дотримуючись інструкцій у цій статті.
  • Конфігурація ресурсу кардіостимулятора:
pcs resource config

Приклад:

root@lnx-node1:~# pcs resource config 
Group: NW_group 
  Resource: fs (class=ocf provider=heartbeat type=Filesystem)
    Attributes: fs-instance_attributes 
      device=/dev/sdb1 
      directory=/nsr_share 
      fstype=xfs 
    Operations: 
      monitor: fs-monitor-interval-20 
        interval=20 
        timeout=300 
      start: fs-start-interval-0s 
        interval=0s 
        timeout=60s 
      stop: fs-stop-interval-0s interval=0s timeout=60s 
  Resource: ip (class=ocf provider=heartbeat type=IPaddr) 
    Attributes: ip-instance_attributes 
      cidr_netmask=24 
      ip=192.1xx.9.1x0 
      nic=ens192 
    Operations: 
      monitor: ip-monitor-interval-15 
        interval=15 
        timeout=120 
      start: ip-start-interval-0s 
        interval=0s 
        timeout=20s 
      stop: ip-stop-interval-0s 
        interval=0s 
        timeout=20s 
  Resource: nws (class=ocf provider=EMC_NetWorker type=Server) 
    Meta Attributes: nws-meta_attributes 
      is-managed=true 
    Operations: 
      meta-data: nws-meta-data-interval-0 
        interval=0 
        timeout=10 
      migrate_from: nws-migrate_from-interval-0 
        interval=0 
        timeout=120
      migrate_to: nws-migrate_to-interval-0 
        interval=0 
        timeout=60 
      monitor: nws-monitor-interval-100 
        interval=100 
        timeout=1200 
      start: nws-start-interval-0 
        interval=0 
        timeout=600 
      stop: nws-stop-interval-0 
        interval=0 
        timeout=600 
      validate-all: nws-validate-all-interval-0 
        interval=0 
        timeout=10

 Наведена вище команда деталізує кожну pcs конфігурація ресурсів. Важливі моменти, на які слід звернути увагу під час початкового огляду:

  • Ресурс ФС "device=": Це пристрій, який використовується як точка монтування для спільного сховища у файловій системі node. Цей пристрій має бути однаковим на кожному вузлі. Про це йтиметься далі в цьому КБ.
  • Ресурс ФС "directory=": Це директорія, яку використовує спільне сховище NetWorker. Каталог має бути пов'язано як точку монтування для поля "device=". Про це йтиметься далі в цьому КБ.
  • Ресурс IP "ip=": Це IP-адреса, яка пов'язана з логічним (спільним) ім'ям хоста, що використовується сервером NetWorker. Ця IP-адреса розміщується на активному вузлі.
  • Видимість спільної адреси та сховища за допомогою кардіостимулятора:
lcmap

Приклад:

root@lnx-node1:~# lcmap
type: NSR_CLU_TYPE;
clu_type: NSR_LC_TYPE;
interface version: 1.0;

type: NSR_CLU_VIRTHOST;
hostname: 192.168.9.110;
local: TRUE;
owned paths: /nsr_share;

clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;
ПРИМІТКА. Ім'я хоста має повертати IP-адресу, яка збігається з pcs resource config поле "ip=". Власні шляхи повинні відповідати pcs resource config поле "directory=". У деяких випадках, коли спостерігається проблема із запуском, lcmap команда не повертає поля імені хоста, локального або власних шляхів; Це свідчить про проблему.

Первинна діагностика:

Якщо служби NetWorker не запускаються, перевірте pcs Статус ресурсу, щоб побачити, який ресурс не працює:

pcs status
Приклад: 
root@lnx-node1:~# pcs status 
... 
... 
Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs    (ocf::heartbeat:Filesystem):   Started lnx-node1.amer.lan 
    * ip    (ocf::heartbeat:IPaddr):       Started lnx-node1.amer.lan 
    * nws   (ocf::EMC_NetWorker:Server):   Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

 Якщо спостерігається збій, повертається загальна помилка збою. Невдалі ресурси відображаються як FAILED. 

  • ФС (файлова система): Якщо файлова система перебуває у стані помилки, зверніться до розділу нижче про збої файлової системи.
  • IP (IPaddr): Якщо IPaddr перебуває в стані помилки, дивіться розділ нижче про збої IPaddr.
  • NWS (сервер): Якщо сервер NetWorker знаходиться в стані збою, виконайте наступне:
  1. Огляд сервера NetWorker daemon.raw для повідомлень про помилки, які з'являються під час запуску. Сервер /nsr_share/nsr/daemon.raw розташована на шляху спільного сховища. Демон клієнта фізичних вузлів знаходиться в об'єкті /nsr.NetWorker.local/logs/daemon.raw. Дивіться статтю Dell NetWorker: Спосіб застосування nsr_render_log
  2. Якщо ведення журналу за замовчуванням недостатній, увімкніть налагодження за допомогою таких способів:
    1. Спроба перезавантаження ресурсу "Сервер": 
pcs resource cleanup nws
  1. За допомогою кнопки dbgcommand щоб увімкнути діагностику на nsrd процес:
dbgcommand -n nsrd Debug=#
Встановіть рівень налагодження за допомогою цифр від 1 до 9. Слідкуйте за daemon.raw для будь-яких додаткових повідомлень, які можуть спрямовувати на проблему.
  1. Перегляньте /var/log/pcsd/pcsd.log за будь-які помилки.
  2. Перегляньте /var/log/pacemaker/pacemaker.log за будь-які помилки.
  3. Перегляньте /var/log/messages файл для будь-яких помилок.
ПРИМІТКА. При ознайомленні з pcsd, Pacemaker і журнали повідомлень шукають повідомлення, які були записані протягом тих же часових позначок, що і намагалися запустити служби NetWorker. Перевірте наявність будь-яких помилок або збоїв, які збігаються з помилкою запуску служби.

Збої файлової системи: 

  1. Перегляньте ресурси кардіостимулятора:
pcs resource
  1. Перегляньте конфігурацію ресурсу кардіостимулятора для ресурсу файлової системи:
pcs resource fs
Приклад:
 
Запишіть шлях до пристрою, шлях до каталогу та fstype.
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started lnx-node1.amer.lan
    * ip        (ocf::heartbeat:IPaddr):         Started lnx-node1.amer.lan
    * nws       (ocf::EMC_NetWorker:Server):     Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
  Attributes: fs-instance_attributes
    device=/dev/sdb1
    directory=/nsr_share
    fstype=xfs
  Operations:
    monitor: fs-monitor-interval-20
      interval=20
      timeout=300
    start: fs-start-interval-0s
      interval=0s
      timeout=60s
    stop: fs-stop-interval-0s
      interval=0s
      timeout=60s
  1. Перевірте, чи встановлено пристрій на ФС:
df -h

Приклад:

root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1                                     94G  1.5G   92G   2% /nsr_share
  1. Перевірте, чи точку монтування налаштовано правильно; Пов'язуючи пристрій зі шляхом:
lsblk

Приклад:

root@lnx-node1:~# lsblk
NAME          MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda             8:0    0   40G  0 disk
├─sda1          8:1    0  600M  0 part /boot/efi
├─sda2          8:2    0    1G  0 part /boot
└─sda3          8:3    0 38.4G  0 part
  ├─rhel-root 253:0    0 34.4G  0 lvm  /
  └─rhel-swap 253:1    0    4G  0 lvm  [SWAP]
sdb             8:16   0  100G  0 disk
└─sdb1          8:17   0 93.1G  0 part /nsr_share
sr0            11:0    1 1024M  0 rom
  1. Переконайтеся, що файлова система, яка використовується пристроєм, правильна:
blkid
Приклад:
root@lnx-node1:~# blkid 
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs" 
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064" 
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162" 
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040" 
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3" 
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"
Якщо ресурс fs (файлова система) не запускається. Це свідчить про проблему за межами NetWorker. Системний адміністратор повинен переглянути конфігурацію файлової системи кластера та переконатися у відсутності проблем із загальним сховищем, яке використовується кардіостимулятором. Перегляньте додаткові системні журнали щодо будь-яких збоїв у роботі системи або її пристроїв: 
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

Збої в роботі IPaddr:

  1. Перегляньте ресурси кардіостимулятора:
pcs resource
  1. Перегляньте конфігурацію ресурсу кардіостимулятора для ресурсу файлової системи:
pcs resource config ip
Приклад:
 
Запишіть IP-адресу та карту мережевого інтерфейсу (NIC).
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
  Attributes: ip-instance_attributes
    cidr_netmask=24
    ip=192.1xx.9.1x0
    nic=ens192
  Operations:
    monitor: ip-monitor-interval-15
      interval=15
      timeout=120
    start: ip-start-interval-0s
      interval=0s
      timeout=20s stop:
    ip-stop-interval-0s
      interval=0s
      timeout=20s
  1. Підтвердьте, чи доступний NIC у системі:
ifconfig -a
Приклад: 
root@lnx-node1:~# ifconfig -a 
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
        inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
        inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
        ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
        RX packets 953865 bytes 349705527 (333.5 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0
        TX packets 1190983 bytes 179749786 (171.4 MiB)
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
        inet 127.0.0.1 netmask 255.0.0.0 
        inet6 ::1 prefixlen 128 scopeid 0x10<host>
        loop txqueuelen 1000 (Local Loopback)
        RX packets 129798 bytes 13274289 (12.6 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0 
        TX packets 129798 bytes 13274289 (12.6 MiB) 
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
IP-адреса, яка відображається за допомогою ifconfig збігається з фізичним іменем вузла; однак кластеризована IP-адреса доступна через цей NIC, коли вузол активний. Переконайтеся, що обидва вузли налаштовані на використання однакових імен NIC.
  1. Чи відповідає IP-адреса правильному (логічному) імені хоста, яке використовується сервером NetWorker?
nslookup ip 

nslookup logical_name_FQDN 

nslookup logical_name_short
Приклад:
root@lnx-node1:~# nslookup 192.1xx.9.1x0 
110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. 

root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0 

root@lnx-node1:~# nslookup lnx-nwcluster 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0

Також рекомендується виконати ті самі дії з IP-адресою фізичного вузла, FQDN і коротким ім'ям. Дивіться статтю Dell NetWorker: Практичні поради щодо вирішення проблем із розпізнаванням імен.

  1. Чи можете ви дістатися до IP-адреси кластера за допомогою ping?
ping -c 4 ip
Приклад:
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 
PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 
64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms 

--- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 
4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
Якщо ресурс IP (IPaddr) не запускається. Це свідчить про проблему за межами NetWorker. Системний адміністратор і адміністратор мережі повинні бути залучені, щоб переглянути конфігурацію мережі кластера та переконатися, що жодних проблем не спостерігається. Перегляньте додаткові системні журнали щодо будь-яких збоїв у роботі системи або її пристроїв:
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

Інші команди PCS:

Операція Команда
Кардіостимулятор або pcs версія:
pcs --version
Огляд кардіостимулятора
pcs status
Огляд ресурсу кардіостимулятора
pcs resource
Визначте шлях власності в кластері.
lcmap
Включення (запуск) ресурсу.
pcs resource enable resource_name
Почати pcs ресурс з налагодженням.
pcs resource debug-start resource_name 
Перегляд настройок конфігурації ресурсів ПК
pcs resource config resource_name
Відключення (зупинка) ресурсу:
pcs resource disable resource_name  
Перезавантажити ресурс не вдалося.
pcs resource cleanup resource_name
Зупинка кардіостимулятора на вузлі.
pcs stop cluster [--force]
Запустіть кардіостимулятор
pcs cluster start [--all]
Переведіть вузол в режим очікування.
pcs node standby node_name
Виведіть вузол з режиму очікування. 
pcs node unstandby node_name

Важливі журнали та файли:

Шлях Мета Додаткові команди
/var/log/messages Містить глобальні системні повідомлення, що стосуються системних ресурсів і служб.
grep 'pacemaker.*\(error\|warning\)' /var/log/messages
/var/log/pacemaker/pacemaker.log  Журнал інформації про кардіостимулятор за замовчуванням для ресурсів і функцій кардіостимулятора. Н/Д
/var/log/pcsd/pcsd.log Служба кардіостимулятора за замовчуванням (pcsd) журналу.  Н/Д
/var/log/cluster/corosync.log Журнал зв'язку вузла кардіостимулятора за замовчуванням.  Н/Д
/usr/sbin/nw_hae.log NetWorker (nws) журнал запуску ресурсу, як визначено в /usr/lib/ocf/resource.d/EMC_NetWorker/Server Н/Д
/usr/lib/ocf/resource.d/EMC_NetWorker/Server  Файл конфігурації кардіостимулятора NetWorker. Ось які операції виконують/керують pcs. Н/Д

Affected Products

NetWorker

Products

NetWorker Family, NetWorker Series
Article Properties
Article Number: 000218281
Article Type: How To
Last Modified: 22 Oct 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.