NetWorker: Посібник з усунення несправностей у разі проблеми зі службою Red Hat Cluster
Summary: У цій статті наведено огляд того, як підійти до проблем запуску служби NetWorker для серверів NetWorker, розгорнутих на кластерах кардіостимуляторів Red Hat (pcs). Ця стаття підходить для адміністраторів резервного копіювання NetWorker і служби підтримки NetWorker, щоб допомогти в усуненні цих проблем. ...
Instructions
Сервери NetWorker можуть бути розгорнуті в конфігурації відмови кластера на вузлах Red Hat за допомогою пейсмекера (pcs) послуг. NetWorker встановлюється на декількох вузлах. Бази даних сервера знаходяться на спільному сховищі, передаються між вузлами на основі активного вузла в конфігурації кардіостимулятора. Сервер NetWorker використовує спільне ім'я кластера та IP-адресу, що забезпечує узгоджене іменування та адресацію незалежно від вузла хостингу. Перегляньте Посібник з інтеграції кластера NetWorker для отримання детальної інформації про те, як налаштувати NetWorker у кластері. Цей посібник доступний на сторінці продукту служби підтримки Dell.
Топологія кластерів:
У цій статті використовується приклад кластера з наступною конфігурацією:
Топологія кластера NetWorker
|
Ім'я хоста
|
IP-адреса
|
Функція
|
|
lnx-node1.amer.lan
|
192.168.9.108
|
Фізичний вузол 1
|
|
lnx-node2.amer.lan
|
192.168.9.109
|
Фізичний вузол 2
|
|
lnx-nwcluster.amer.lan
|
192.168.9.110
|
Логічне ім'я, що використовується NetWorker
|
Файлова система на вузлах керує NetWorker за допомогою символьних посилань.
Активний вузол:
/nsr до місця спільного зберігання:
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx. 1 root root 14 Oct 5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x. 11 root root 116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x. 3 root root 17 Aug 31 17:23 nsr_share
Пасивний вузол:
/nsr до /nsr.NetWorker.local:
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx. 1 root root 20 Oct 3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x. 11 root root 116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x. 2 root root 6 Aug 31 17:18 nsr_share
Коли вузол знаходиться в пасивному стані, то nsrexecd (клієнт NetWorker) програмне забезпечення працює з використанням /nsr.NetWorker.local. Кожен фізичний вузол має свій власний клієнтський ресурс, використовуючи ім'я та IP-адресу системи доменних імен (DNS) фізичного вузла. Сервер NetWorker працює лише з використанням спільного сховища (/nsr_share) і використовує спільну IP-адресу та ім'я хоста. Це може бути активно лише на одному вузлі одночасно.
Наступний кардіостимулятор (pcs) використовуються для отримання огляду конфігурації та стану кардіостимулятора:
-
Конфігурація кластера:
pcs status
root@lnx-node1:~# pcs status Cluster name: rhelclus Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) Cluster Summary: * Stack: corosync * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum * Last updated: Thu Oct 5 10:59:20 2023 * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan * 2 nodes configured * 3 resource instances configured Node List: * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] Full List of Resources: * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan Daemon Status: corosync: active/enabled pacemaker: active/enabled pcsd: active/enabled
fs), IP-адреса ресурсу кластера (ip), а також сервіси NetWorker (nws). Імена ресурсів, що використовуються тут, є стандартними, що використовуються в Посібнику з інтеграції кластера NetWorker; Однак не виключено, що використовуються різні назви. Якщо ви використовуєте різні назви, запишіть назви ресурсів і замініть їх за потреби, дотримуючись інструкцій у цій статті.
- Конфігурація ресурсу кардіостимулятора:
pcs resource config
Приклад:
root@lnx-node1:~# pcs resource config Group: NW_group Resource: fs (class=ocf provider=heartbeat type=Filesystem) Attributes: fs-instance_attributes device=/dev/sdb1 directory=/nsr_share fstype=xfs Operations: monitor: fs-monitor-interval-20 interval=20 timeout=300 start: fs-start-interval-0s interval=0s timeout=60s stop: fs-stop-interval-0s interval=0s timeout=60s Resource: ip (class=ocf provider=heartbeat type=IPaddr) Attributes: ip-instance_attributes cidr_netmask=24 ip=192.1xx.9.1x0 nic=ens192 Operations: monitor: ip-monitor-interval-15 interval=15 timeout=120 start: ip-start-interval-0s interval=0s timeout=20s stop: ip-stop-interval-0s interval=0s timeout=20s Resource: nws (class=ocf provider=EMC_NetWorker type=Server) Meta Attributes: nws-meta_attributes is-managed=true Operations: meta-data: nws-meta-data-interval-0 interval=0 timeout=10 migrate_from: nws-migrate_from-interval-0 interval=0 timeout=120 migrate_to: nws-migrate_to-interval-0 interval=0 timeout=60 monitor: nws-monitor-interval-100 interval=100 timeout=1200 start: nws-start-interval-0 interval=0 timeout=600 stop: nws-stop-interval-0 interval=0 timeout=600 validate-all: nws-validate-all-interval-0 interval=0 timeout=10
Наведена вище команда деталізує кожну pcs конфігурація ресурсів. Важливі моменти, на які слід звернути увагу під час початкового огляду:
- Ресурс ФС "device=": Це пристрій, який використовується як точка монтування для спільного сховища у файловій системі node. Цей пристрій має бути однаковим на кожному вузлі. Про це йтиметься далі в цьому КБ.
- Ресурс ФС "directory=": Це директорія, яку використовує спільне сховище NetWorker. Каталог має бути пов'язано як точку монтування для поля "device=". Про це йтиметься далі в цьому КБ.
- Ресурс IP "ip=": Це IP-адреса, яка пов'язана з логічним (спільним) ім'ям хоста, що використовується сервером NetWorker. Ця IP-адреса розміщується на активному вузлі.
- Видимість спільної адреси та сховища за допомогою кардіостимулятора:
lcmap
Приклад:
root@lnx-node1:~# lcmap type: NSR_CLU_TYPE; clu_type: NSR_LC_TYPE; interface version: 1.0; type: NSR_CLU_VIRTHOST; hostname: 192.168.9.110; local: TRUE; owned paths: /nsr_share; clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;
pcs resource config поле "ip=". Власні шляхи повинні відповідати pcs resource config поле "directory=". У деяких випадках, коли спостерігається проблема із запуском, lcmap команда не повертає поля імені хоста, локального або власних шляхів; Це свідчить про проблему.
Первинна діагностика:
Якщо служби NetWorker не запускаються, перевірте pcs Статус ресурсу, щоб побачити, який ресурс не працює:
pcs status
root@lnx-node1:~# pcs status ... ... Node List: * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] Full List of Resources: * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan Daemon Status: corosync: active/enabled pacemaker: active/enabled pcsd: active/enabled
Якщо спостерігається збій, повертається загальна помилка збою. Невдалі ресурси відображаються як FAILED.
- ФС (файлова система): Якщо файлова система перебуває у стані помилки, зверніться до розділу нижче про збої файлової системи.
- IP (IPaddr): Якщо IPaddr перебуває в стані помилки, дивіться розділ нижче про збої IPaddr.
- NWS (сервер): Якщо сервер NetWorker знаходиться в стані збою, виконайте наступне:
- Огляд сервера NetWorker
daemon.rawдля повідомлень про помилки, які з'являються під час запуску. Сервер/nsr_share/nsr/daemon.rawрозташована на шляху спільного сховища. Демон клієнта фізичних вузлів знаходиться в об'єкті/nsr.NetWorker.local/logs/daemon.raw. Дивіться статтю Dell NetWorker: Спосіб застосування nsr_render_log - Якщо ведення журналу за замовчуванням недостатній, увімкніть налагодження за допомогою таких способів:
- Спроба перезавантаження ресурсу "Сервер":
pcs resource cleanup nws
- За допомогою кнопки
dbgcommandщоб увімкнути діагностику наnsrdпроцес:
dbgcommand -n nsrd Debug=#
daemon.raw для будь-яких додаткових повідомлень, які можуть спрямовувати на проблему.
- Перегляньте
/var/log/pcsd/pcsd.logза будь-які помилки. - Перегляньте
/var/log/pacemaker/pacemaker.logза будь-які помилки. - Перегляньте
/var/log/messagesфайл для будь-яких помилок.
pcsd, Pacemaker і журнали повідомлень шукають повідомлення, які були записані протягом тих же часових позначок, що і намагалися запустити служби NetWorker. Перевірте наявність будь-яких помилок або збоїв, які збігаються з помилкою запуску служби.
Збої файлової системи:
- Перегляньте ресурси кардіостимулятора:
pcs resource
- Перегляньте конфігурацію ресурсу кардіостимулятора для ресурсу файлової системи:
pcs resource fs
root@lnx-node1:~# pcs resource
* Resource Group: NW_group:
* fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
* ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
* nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
Attributes: fs-instance_attributes
device=/dev/sdb1
directory=/nsr_share
fstype=xfs
Operations:
monitor: fs-monitor-interval-20
interval=20
timeout=300
start: fs-start-interval-0s
interval=0s
timeout=60s
stop: fs-stop-interval-0s
interval=0s
timeout=60s
- Перевірте, чи встановлено пристрій на ФС:
df -h
Приклад:
root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1 94G 1.5G 92G 2% /nsr_share
- Перевірте, чи точку монтування налаштовано правильно; Пов'язуючи пристрій зі шляхом:
lsblk
Приклад:
root@lnx-node1:~# lsblk
NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
sda 8:0 0 40G 0 disk
├─sda1 8:1 0 600M 0 part /boot/efi
├─sda2 8:2 0 1G 0 part /boot
└─sda3 8:3 0 38.4G 0 part
├─rhel-root 253:0 0 34.4G 0 lvm /
└─rhel-swap 253:1 0 4G 0 lvm [SWAP]
sdb 8:16 0 100G 0 disk
└─sdb1 8:17 0 93.1G 0 part /nsr_share
sr0 11:0 1 1024M 0 rom
- Переконайтеся, що файлова система, яка використовується пристроєм, правильна:
blkid
root@lnx-node1:~# blkid
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs"
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064"
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162"
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040"
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3"
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"
/var/log/pcsd/pcsd.log/var/log/pacemaker/pacemaker.log/var/log/messages
Збої в роботі IPaddr:
- Перегляньте ресурси кардіостимулятора:
pcs resource
- Перегляньте конфігурацію ресурсу кардіостимулятора для ресурсу файлової системи:
pcs resource config ip
root@lnx-node1:~# pcs resource
* Resource Group: NW_group:
* fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
* ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
* nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
Attributes: ip-instance_attributes
cidr_netmask=24
ip=192.1xx.9.1x0
nic=ens192
Operations:
monitor: ip-monitor-interval-15
interval=15
timeout=120
start: ip-start-interval-0s
interval=0s
timeout=20s stop:
ip-stop-interval-0s
interval=0s
timeout=20s
- Підтвердьте, чи доступний NIC у системі:
ifconfig -a
root@lnx-node1:~# ifconfig -a
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
RX packets 953865 bytes 349705527 (333.5 MiB)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 1190983 bytes 179749786 (171.4 MiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
inet 127.0.0.1 netmask 255.0.0.0
inet6 ::1 prefixlen 128 scopeid 0x10<host>
loop txqueuelen 1000 (Local Loopback)
RX packets 129798 bytes 13274289 (12.6 MiB)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 129798 bytes 13274289 (12.6 MiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
IP-адреса, яка відображається за допомогою ifconfig збігається з фізичним іменем вузла; однак кластеризована IP-адреса доступна через цей NIC, коли вузол активний. Переконайтеся, що обидва вузли налаштовані на використання однакових імен NIC.
- Чи відповідає IP-адреса правильному (логічному) імені хоста, яке використовується сервером NetWorker?
nslookup ip nslookup logical_name_FQDN nslookup logical_name_short
root@lnx-node1:~# nslookup 192.1xx.9.1x0 110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. Server: 192.1xx.9.1x0 Address: 192.1xx.9.100#53 Name: lnx-nwcluster.amer.lan Address: 192.1xx.9.1x0 root@lnx-node1:~# nslookup lnx-nwcluster Server: 192.1xx.9.1x0 Address: 192.1xx.9.100#53 Name: lnx-nwcluster.amer.lan Address: 192.1xx.9.1x0
Також рекомендується виконати ті самі дії з IP-адресою фізичного вузла, FQDN і коротким ім'ям. Дивіться статтю Dell NetWorker: Практичні поради щодо вирішення проблем із розпізнаванням імен.
- Чи можете ви дістатися до IP-адреси кластера за допомогою
ping?
ping -c 4 ip
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms --- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
/var/log/pcsd/pcsd.log/var/log/pacemaker/pacemaker.log/var/log/messages
Інші команди PCS:
| Операція | Команда |
Кардіостимулятор або pcs версія: |
|
| Огляд кардіостимулятора |
|
| Огляд ресурсу кардіостимулятора |
|
| Визначте шлях власності в кластері. |
|
| Включення (запуск) ресурсу. |
|
Почати pcs ресурс з налагодженням. |
|
| Перегляд настройок конфігурації ресурсів ПК |
|
| Відключення (зупинка) ресурсу: |
|
| Перезавантажити ресурс не вдалося. |
|
| Зупинка кардіостимулятора на вузлі. |
|
| Запустіть кардіостимулятор |
|
| Переведіть вузол в режим очікування. |
|
| Виведіть вузол з режиму очікування. |
|
Важливі журнали та файли:
| Шлях | Мета | Додаткові команди |
/var/log/messages |
Містить глобальні системні повідомлення, що стосуються системних ресурсів і служб. |
|
/var/log/pacemaker/pacemaker.log |
Журнал інформації про кардіостимулятор за замовчуванням для ресурсів і функцій кардіостимулятора. | Н/Д |
/var/log/pcsd/pcsd.log |
Служба кардіостимулятора за замовчуванням (pcsd) журналу. |
Н/Д |
/var/log/cluster/corosync.log |
Журнал зв'язку вузла кардіостимулятора за замовчуванням. | Н/Д |
/usr/sbin/nw_hae.log |
NetWorker (nws) журнал запуску ресурсу, як визначено в /usr/lib/ocf/resource.d/EMC_NetWorker/Server |
Н/Д |
/usr/lib/ocf/resource.d/EMC_NetWorker/Server |
Файл конфігурації кардіостимулятора NetWorker. Ось які операції виконують/керують pcs. | Н/Д |