NetWorker. Руководство по поиску и устранению неисправностей Red Hat Cluster Service

요약: В этой статье представлен обзор решения проблем запуска службы NetWorker для серверов NetWorker, развернутых в кластерах Red Hat Pacemaker (ПК). Данная статья предназначена для администраторов резервного копирования NetWorker и службы поддержки NetWorker для устранения этих проблем. ...

이 문서는 다음에 적용됩니다. 이 문서는 다음에 적용되지 않습니다. 이 문서는 특정 제품과 관련이 없습니다. 모든 제품 버전이 이 문서에 나와 있는 것은 아닙니다.

지침

Серверы NetWorker можно развернуть в конфигурации отработки отказа кластера на узлах Red Hat с помощью Pacemaker (pcs) услуг. NetWorker устанавливается на нескольких узлах. Базы данных сервера находятся в общем хранилище, которое передается между узлами на основе активного узла в конфигурации pacemaker. Сервер NetWorker использует общее имя кластера и IP-адрес, что обеспечивает согласованность именования и адресации независимо от узла размещения. Подробные сведения о настройке NetWorker в кластере см. в руководстве по интеграции кластера NetWorker. Данное руководство доступно на странице продукта службы поддержки Dell

Топология кластера:

В этой статье используется пример кластера со следующей конфигурацией:
 
Топология кластера NetWorker

Имя узла
IP-адрес
Функция
lnx-node1.amer.lan
192.168.9.108
Физический узел 1
lnx-node2.amer.lan
192.168.9.109
Физический узел 2
lnx-nwcluster.amer.lan
192.168.9.110
Логическое имя, используемое NetWorker


Файловая система на узлах управляет NetWorker с помощью символьных ссылок.

Активный узел:

Активный узел, на котором запущен сервер NetWorker, символически связывается /nsr В общую папку для хранения данных:
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     14 Oct  5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x.  11 root root    116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x.   3 root root     17 Aug 31 17:23 nsr_share

Пассивный узел:

«Пассивный» узел символически связывает /nsr на /nsr.NetWorker.local.
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx.   1 root root     20 Oct  3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x.  11 root root    116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x.   2 root root      6 Aug 31 17:18 nsr_share

Когда узел находится в пассивном состоянии, nsrexecd Программное обеспечение (клиент NetWorker) выполняется с помощью /nsr.NetWorker.local. Каждый физический узел имеет собственный клиентский ресурс, использующий разрешаемое имя и IP-адрес системы доменных имен (DNS) физического узла. Сервер NetWorker работает только с использованием общего хранилища (/nsr_share) и использует общий IP-адрес и имя хоста. Он может быть активен одновременно только на одном узле. 

Следующий кардиостимулятор (pcs) используются для получения обзора конфигурации и состояния Pacemaker:

  • Конфигурация кластера:

pcs status
Пример.
root@lnx-node1:~# pcs status 
Cluster name: rhelclus 
Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) 
Cluster Summary: 
  * Stack: corosync 
  * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum 
  * Last updated: Thu Oct 5 10:59:20 2023 
  * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan 
  * 2 nodes configured 
  * 3 resource instances configured 

Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan 
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan 
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled
По приведенным выше выводам можно определить, сколько узлов находится в кластере, и находятся ли какие-либо из них в автономном режиме или в режиме ожидания. В выходных данных также показано, на каком узле находится общая файловая система (fs), IP-адрес ресурса кластера (ip) и службы NetWorker (nws). Здесь используются имена ресурсов по умолчанию, используемые в руководстве по интеграции кластеров NetWorker; Однако не исключено, что используются разные названия. Если вы используете другие имена, запишите имена ресурсов и при необходимости замените, следуя инструкциям в этой статье.
  • Конфигурация ресурсов Pacemaker:
pcs resource config

Пример.

root@lnx-node1:~# pcs resource config 
Group: NW_group 
  Resource: fs (class=ocf provider=heartbeat type=Filesystem)
    Attributes: fs-instance_attributes 
      device=/dev/sdb1 
      directory=/nsr_share 
      fstype=xfs 
    Operations: 
      monitor: fs-monitor-interval-20 
        interval=20 
        timeout=300 
      start: fs-start-interval-0s 
        interval=0s 
        timeout=60s 
      stop: fs-stop-interval-0s interval=0s timeout=60s 
  Resource: ip (class=ocf provider=heartbeat type=IPaddr) 
    Attributes: ip-instance_attributes 
      cidr_netmask=24 
      ip=192.1xx.9.1x0 
      nic=ens192 
    Operations: 
      monitor: ip-monitor-interval-15 
        interval=15 
        timeout=120 
      start: ip-start-interval-0s 
        interval=0s 
        timeout=20s 
      stop: ip-stop-interval-0s 
        interval=0s 
        timeout=20s 
  Resource: nws (class=ocf provider=EMC_NetWorker type=Server) 
    Meta Attributes: nws-meta_attributes 
      is-managed=true 
    Operations: 
      meta-data: nws-meta-data-interval-0 
        interval=0 
        timeout=10 
      migrate_from: nws-migrate_from-interval-0 
        interval=0 
        timeout=120
      migrate_to: nws-migrate_to-interval-0 
        interval=0 
        timeout=60 
      monitor: nws-monitor-interval-100 
        interval=100 
        timeout=1200 
      start: nws-start-interval-0 
        interval=0 
        timeout=600 
      stop: nws-stop-interval-0 
        interval=0 
        timeout=600 
      validate-all: nws-validate-all-interval-0 
        interval=0 
        timeout=10

 Приведенная выше команда содержит подробные сведения о каждом pcs Конфигурация ресурсов. Важные моменты, на которые следует обратить внимание при первоначальном обзоре:

  • Ресурс файловой системы "device=": Это устройство, используемое в качестве точки подключения для общего хранилища в файловой системе узла. Это устройство должно быть одинаковым на каждом узле. Это описано далее в этой статье базы знаний.
  • Ресурс файловой системы "directory=": Это каталог, используемый общим хранилищем NetWorker. Каталог должен быть связан с точкой монтирования для поля «device=». Это описано далее в этой статье базы знаний.
  • IP-ресурс "ip=": Это IP-адрес, связанный с логическим (общим) именем хоста, используемым сервером NetWorker. Этот IP-адрес размещается на активном узле.
  • Видимость общего адреса и хранилища Pacemaker:
lcmap

Пример.

root@lnx-node1:~# lcmap
type: NSR_CLU_TYPE;
clu_type: NSR_LC_TYPE;
interface version: 1.0;

type: NSR_CLU_VIRTHOST;
hostname: 192.168.9.110;
local: TRUE;
owned paths: /nsr_share;

clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;
ПРИМЕЧАНИЕ. Имя хоста должно возвращать IP-адрес, совпадающий с pcs resource config Поле "ip=". Принадлежащие пути должны совпадать с pcs resource config Поле "directory=". В некоторых случаях, когда наблюдается проблема при запуске, lcmap команда не возвращает поля hostname, local или owned paths; Это указывает на проблему.

Первичная диагностика:

Если службы NetWorker не запускаются, проверьте, pcs состояния ресурса, чтобы узнать, какой ресурс не работает:

pcs status
Пример. 
root@lnx-node1:~# pcs status 
... 
... 
Node List: 
  * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] 

Full List of Resources: 
  * Resource Group: NW_group: 
    * fs    (ocf::heartbeat:Filesystem):   Started lnx-node1.amer.lan 
    * ip    (ocf::heartbeat:IPaddr):       Started lnx-node1.amer.lan 
    * nws   (ocf::EMC_NetWorker:Server):   Started lnx-node1.amer.lan 

Daemon Status: 
  corosync: active/enabled 
  pacemaker: active/enabled 
  pcsd: active/enabled

 Если наблюдается сбой, возвращается общая ошибка сбоя. Ресурсы, для которых произошел сбой, отображаются с пометкой FAILED. 

  • FS (файловая система): Если файловая система находится в состоянии сбоя, см. раздел о сбоях файловой системы ниже.
  • IP-адрес (IPaddr): Если IPaddr находится в состоянии сбоя, см. раздел о сбоях IPaddr ниже.
  • NWS (сервер): Если сервер NetWorker находится в состоянии сбоя, выполните следующие действия.
  1. Просмотрите daemon.raw При любых сообщениях о сбое, появляющихся во время запуска. Функция /nsr_share/nsr/daemon.raw находится в пути к общему хранилищу. Управляющая программа клиента физических узлов находится в /nsr.NetWorker.local/logs/daemon.raw. См. статью Dell NetWorker. Как использовать nsr_render_log
  2. Если ведения журнала по умолчанию недостаточно, включите отладку следующим образом:
    1. Попытайтесь перезапустить ресурс «Server»: 
pcs resource cleanup nws
  1. Используйте dbgcommand Чтобы включить отладку на nsrd процесс:
dbgcommand -n nsrd Debug=#
Задайте уровень отладки с помощью чисел от 1 до 9. Следите за daemon.raw для любых дополнительных сообщений, которые могут привести к проблеме.
  1. Изучите сведения в /var/log/pcsd/pcsd.log за любые ошибки.
  2. Изучите сведения в /var/log/pacemaker/pacemaker.log за любые ошибки.
  3. Изучите сведения в /var/log/messages на наличие ошибок.
ПРИМЕЧАНИЕ. При рассмотрении pcsd, Pacemaker и журналы сообщений ищут сообщения, которые были зарегистрированы в течение тех же временных меток, когда службы NetWorker пытались запуститься. Проверьте, нет ли ошибок или сбоев, которые совпадают со сбоем при запуске службы.

Сбои файловой системы: 

  1. Ознакомьтесь с ресурсами по кардиостимулятору.
pcs resource
  1. Просмотрите конфигурацию ресурса Pacemaker для ресурса Filesystem:
pcs resource fs
Пример.
 
Запишите путь к устройству, путь к каталогу и fstype.
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs        (ocf::heartbeat:Filesystem):     Started lnx-node1.amer.lan
    * ip        (ocf::heartbeat:IPaddr):         Started lnx-node1.amer.lan
    * nws       (ocf::EMC_NetWorker:Server):     Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
  Attributes: fs-instance_attributes
    device=/dev/sdb1
    directory=/nsr_share
    fstype=xfs
  Operations:
    monitor: fs-monitor-interval-20
      interval=20
      timeout=300
    start: fs-start-interval-0s
      interval=0s
      timeout=60s
    stop: fs-stop-interval-0s
      interval=0s
      timeout=60s
  1. Убедитесь, что устройство установлено на файловой системе:
df -h

Пример.

root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1                                     94G  1.5G   92G   2% /nsr_share
  1. Убедитесь, что точка монтирования настроена правильно. Привязка устройства к пути:
lsblk

Пример.

root@lnx-node1:~# lsblk
NAME          MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda             8:0    0   40G  0 disk
├─sda1          8:1    0  600M  0 part /boot/efi
├─sda2          8:2    0    1G  0 part /boot
└─sda3          8:3    0 38.4G  0 part
  ├─rhel-root 253:0    0 34.4G  0 lvm  /
  └─rhel-swap 253:1    0    4G  0 lvm  [SWAP]
sdb             8:16   0  100G  0 disk
└─sdb1          8:17   0 93.1G  0 part /nsr_share
sr0            11:0    1 1024M  0 rom
  1. Убедитесь в правильности файловой системы, используемой устройством:
blkid
Пример.
root@lnx-node1:~# blkid 
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs" 
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064" 
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162" 
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040" 
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3" 
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"
Если не удается запустить ресурс файловой системы (файловой системы). Это указывает на проблему за пределами NetWorker. Системный администратор должен проверить конфигурацию файловой системы кластера и убедиться в отсутствии проблем с общим хранилищем, используемым Pacemaker. Просмотрите дополнительные системные журналы, касающиеся любых сбоев в системе или ее устройствах: 
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

Сбои IPaddr:

  1. Ознакомьтесь с ресурсами по кардиостимулятору.
pcs resource
  1. Просмотрите конфигурацию ресурса Pacemaker для ресурса Filesystem:
pcs resource config ip
Пример.
 
Запишите IP-адрес и сетевую карту (NIC).
root@lnx-node1:~# pcs resource
  * Resource Group: NW_group:
    * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
    * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
    * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
  Attributes: ip-instance_attributes
    cidr_netmask=24
    ip=192.1xx.9.1x0
    nic=ens192
  Operations:
    monitor: ip-monitor-interval-15
      interval=15
      timeout=120
    start: ip-start-interval-0s
      interval=0s
      timeout=20s stop:
    ip-stop-interval-0s
      interval=0s
      timeout=20s
  1. Убедитесь, что сетевая плата доступна в системе.
ifconfig -a
Пример. 
root@lnx-node1:~# ifconfig -a 
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
        inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
        inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
        ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
        RX packets 953865 bytes 349705527 (333.5 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0
        TX packets 1190983 bytes 179749786 (171.4 MiB)
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
        inet 127.0.0.1 netmask 255.0.0.0 
        inet6 ::1 prefixlen 128 scopeid 0x10<host>
        loop txqueuelen 1000 (Local Loopback)
        RX packets 129798 bytes 13274289 (12.6 MiB)
        RX errors 0 dropped 0 overruns 0 frame 0 
        TX packets 129798 bytes 13274289 (12.6 MiB) 
        TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
IP-адрес, отображаемый с помощью ifconfig совпадает с именем физического узла; Однако кластерный IP-адрес доступен через эту сетевую плату, когда узел активен. Убедитесь, что оба узла настроены для использования одних и тех же имен сетевых плат.
  1. Разрешается ли IP-адрес в правильное (логическое) имя хоста, используемое сервером NetWorker?
nslookup ip 

nslookup logical_name_FQDN 

nslookup logical_name_short
Пример.
root@lnx-node1:~# nslookup 192.1xx.9.1x0 
110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. 

root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0 

root@lnx-node1:~# nslookup lnx-nwcluster 
Server: 192.1xx.9.1x0 
Address: 192.1xx.9.100#53 

Name: lnx-nwcluster.amer.lan 
Address: 192.1xx.9.1x0

Также рекомендуется выполнить те же действия для IP-адреса, FQDN и короткого имени физического узла. См. статью Dell NetWorker. Передовые подходы к поиску и устранению неисправностей при разрешении имен.

  1. Можно ли получить доступ к IP-адресу кластера с помощью ping?
ping -c 4 ip
Пример.
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 
PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 
64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 
64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms 

--- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 
4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
Если происходит сбой запуска IP-ресурса (IPaddr). Это указывает на проблему за пределами NetWorker. Необходимо привлечь системного администратора кластера и сетевого администратора, чтобы проверить конфигурацию сети кластера и убедиться в отсутствии проблем. Просмотрите дополнительные системные журналы, касающиеся любых сбоев в системе или ее устройствах:
  • /var/log/pcsd/pcsd.log 
  • /var/log/pacemaker/pacemaker.log
  • /var/log/messages

Другие команды PCS:

Операция Команда
Кардиостимулятор или pcs version:
pcs --version
Общие сведения о кардиостимуляторе
pcs status
Обзор ресурсов Pacemaker
pcs resource
Определите владельца пути в кластере.
lcmap
Включение (запуск) ресурса.
pcs resource enable resource_name
Запуск pcs ресурс с отладкой.
pcs resource debug-start resource_name 
Просмотр параметров конфигурации ресурсов ПК
pcs resource config resource_name
Отключение (остановка) ресурса:
pcs resource disable resource_name  
Перезапустите ресурс, завершившийся сбоем.
pcs resource cleanup resource_name
Остановите кардиостимулятор на узле.
pcs stop cluster [--force]
Запуск кардиостимулятора
pcs cluster start [--all]
Переведите узел в режим ожидания.
pcs node standby node_name
Переведите узел из режима ожидания. 
pcs node unstandby node_name

Важные журналы и файлы:

Путь Назначение Дополнительные команды
/var/log/messages Содержит глобальные системные сообщения, касающиеся системных ресурсов и служб.
grep 'pacemaker.*\(error\|warning\)' /var/log/messages
/var/log/pacemaker/pacemaker.log  Ведение журнала информации о кардиостимуляторе по умолчанию для ресурсов и функций кардиостимулятора. -
/var/log/pcsd/pcsd.log Служба/управляющая программа Pacemaker по умолчанию (pcsd) журнала.  -
/var/log/cluster/corosync.log Журнал связи с узлом Pacemaker по умолчанию.  -
/usr/sbin/nw_hae.log NetWorker (nws) журнал запуска ресурса, как определено в /usr/lib/ocf/resource.d/EMC_NetWorker/Server -
/usr/lib/ocf/resource.d/EMC_NetWorker/Server  Файл конфигурации NetWorker Pacemaker. Это операции, которые выполняются или управляются компьютерами. -

해당 제품

NetWorker

제품

NetWorker Family, NetWorker Series
문서 속성
문서 번호: 000218281
문서 유형: How To
마지막 수정 시간: 22 10월 2025
버전:  6
다른 Dell 사용자에게 질문에 대한 답변 찾기
지원 서비스
디바이스에 지원 서비스가 적용되는지 확인하십시오.