NetWorker: Guida alla risoluzione dei problemi di Red Hat Cluster Service
Summary: Questo articolo fornisce una panoramica su come risolvere i problemi di avvio del servizio NetWorker per i server NetWorker implementati sui cluster Red Hat pacemaker (pcs). Questo articolo è adatto ai Backup Administrator di NetWorker e al supporto di NetWorker e fornisce assistenza nella risoluzione di questi problemi. ...
Instructions
I server NetWorker possono essere implementati in una configurazione di failover del cluster sui nodi Red Hat utilizzando pacemaker (pcs), servizi di pubblica utilità. NetWorker è installato su più nodi. I database del server si trovano su storage condiviso, passati tra i nodi in base al nodo attivo nella configurazione pacemaker. Il server NetWorker utilizza un nome cluster e un indirizzo IP condivisi, garantendo denominazione e indirizzamento coerenti indipendentemente dal nodo di hosting. Consultare la NetWorker Cluster Integration Guide per informazioni dettagliate su come configurare NetWorker in un cluster. Questa guida è disponibile nella pagina del prodotto del supporto Dell.
Topologia cluster:
Questo articolo utilizza un cluster di esempio con la seguente configurazione:
Topologia del cluster NetWorker
|
Nome host
|
Indirizzo IP
|
Funzione
|
|
lnx-node1.amer.lan
|
192.168.9.108
|
Nodo fisico 1
|
|
lnx-node2.amer.lan
|
192.168.9.109
|
Nodo fisico 2
|
|
lnx-nwcluster.amer.lan
|
192.168.9.110
|
Nome logico utilizzato da NetWorker
|
Il file system sui nodi gestisce NetWorker utilizzando link simbolici.
Nodo attivo:
/nsr Alla posizione di archiviazione condivisa:
root@lnx-node1:~# ls -l / | grep nsr
lrwxrwxrwx. 1 root root 14 Oct 5 10:49 nsr -> /nsr_share/nsr
drwxr-xr-x. 11 root root 116 Aug 31 17:20 nsr.NetWorker.local
drwxr-xr-x. 3 root root 17 Aug 31 17:23 nsr_share
Nodo passivo:
/nsr su /nsr.NetWorker.local:
root@lnx-node2:~# ls -l / | grep nsr
lrwxrwxrwx. 1 root root 20 Oct 3 17:08 nsr -> /nsr.NetWorker.local
drwxr-xr-x. 11 root root 116 Aug 31 17:19 nsr.NetWorker.local
drwxr-xr-x. 2 root root 6 Aug 31 17:18 nsr_share
Quando un nodo è in uno stato passivo, il nsrexecd Il software (client NetWorker) è in esecuzione tramite /nsr.NetWorker.local. Ogni nodo fisico ha la propria risorsa client che utilizza il nome risolvibile e l'indirizzo IP del DNS (Domain Name System) del nodo fisico. Il server NetWorker viene eseguito solo utilizzando lo storage condiviso (/nsr_share) e utilizza l'indirizzo IP e il nome host condivisi. Può essere attivo solo su un nodo alla volta.
Il seguente pacemaker (pcs) I comandi vengono utilizzati per ottenere una panoramica della configurazione e dello stato del pacemaker:
-
Configurazione del cluster:
pcs status
root@lnx-node1:~# pcs status Cluster name: rhelclus Status of pacemakerd: 'Pacemaker is running' (last updated 2023-10-05 10:59:19 -04:00) Cluster Summary: * Stack: corosync * Current DC: lnx-node1.amer.lan (version 2.1.5-9.3.el8_8-a3f44794f94) - partition with quorum * Last updated: Thu Oct 5 10:59:20 2023 * Last change: Thu Oct 5 10:59:13 2023 by root via cibadmin on lnx-node1.amer.lan * 2 nodes configured * 3 resource instances configured Node List: * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] Full List of Resources: * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan Daemon Status: corosync: active/enabled pacemaker: active/enabled pcsd: active/enabled
fs), l'indirizzo IP della risorsa cluster (ip) e i servizi NetWorker (nws). I nomi delle risorse qui utilizzati sono quelli predefiniti utilizzati in NetWorker Cluster Integration Guide. Tuttavia, è possibile che vengano utilizzati nomi diversi. Se si utilizzano nomi diversi, prendere nota dei nomi delle risorse e sostituirli in base alle esigenze seguendo le istruzioni riportate in questo articolo.
- Configurazione delle risorse Pacemaker:
pcs resource config
Esempio:
root@lnx-node1:~# pcs resource config Group: NW_group Resource: fs (class=ocf provider=heartbeat type=Filesystem) Attributes: fs-instance_attributes device=/dev/sdb1 directory=/nsr_share fstype=xfs Operations: monitor: fs-monitor-interval-20 interval=20 timeout=300 start: fs-start-interval-0s interval=0s timeout=60s stop: fs-stop-interval-0s interval=0s timeout=60s Resource: ip (class=ocf provider=heartbeat type=IPaddr) Attributes: ip-instance_attributes cidr_netmask=24 ip=192.1xx.9.1x0 nic=ens192 Operations: monitor: ip-monitor-interval-15 interval=15 timeout=120 start: ip-start-interval-0s interval=0s timeout=20s stop: ip-stop-interval-0s interval=0s timeout=20s Resource: nws (class=ocf provider=EMC_NetWorker type=Server) Meta Attributes: nws-meta_attributes is-managed=true Operations: meta-data: nws-meta-data-interval-0 interval=0 timeout=10 migrate_from: nws-migrate_from-interval-0 interval=0 timeout=120 migrate_to: nws-migrate_to-interval-0 interval=0 timeout=60 monitor: nws-monitor-interval-100 interval=100 timeout=1200 start: nws-start-interval-0 interval=0 timeout=600 stop: nws-stop-interval-0 interval=0 timeout=600 validate-all: nws-validate-all-interval-0 interval=0 timeout=10
Il comando precedente descrive in dettaglio ogni pcs configurazione delle risorse. Aspetti importanti da ricordare durante la panoramica iniziale:
- Risorsa FS "device=": Si tratta del dispositivo utilizzato come mount point per lo storage condiviso sul file system del nodo. Questo dispositivo deve essere lo stesso su ogni nodo. Questo argomento viene descritto più avanti in questo articolo della KB.
- Risorsa FS "directory=": Si tratta della directory utilizzata dallo storage NetWorker condiviso. La directory deve essere associata come mount point per il campo "device=". Questo argomento viene descritto più avanti in questo articolo della KB.
- Risorsa IP "ip=": Si tratta dell'indirizzo IP associato al nome host logico (condiviso) utilizzato dal server NetWorker. Questo indirizzo IP è in hosting sul nodo attivo.
- Pacemaker Visibilità dell'indirizzo condiviso e dello storage:
lcmap
Esempio:
root@lnx-node1:~# lcmap type: NSR_CLU_TYPE; clu_type: NSR_LC_TYPE; interface version: 1.0; type: NSR_CLU_VIRTHOST; hostname: 192.168.9.110; local: TRUE; owned paths: /nsr_share; clu_nodes: lnx-node1.amer.lan lnx-node2.amer.lan;
pcs resource config Campo "ip=". I percorsi di proprietà devono corrispondere al pcs resource config Campo "directory=". In alcuni casi, quando si verifica un problema di avvio, il lcmap non restituisce i campi hostname, local o owned paths; Questo è indicativo di un problema.
Diagnosi iniziale:
Se i servizi NetWorker non si avviano, controllare il pcs Lo stato della risorsa per verificare quale risorsa ha esito negativo:
pcs status
root@lnx-node1:~# pcs status ... ... Node List: * Online: [ lnx-node1.amer.lan lnx-node2.amer.lan ] Full List of Resources: * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan * ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan * nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan Daemon Status: corosync: active/enabled pacemaker: active/enabled pcsd: active/enabled
Se si osserva un errore, viene restituito un errore generale. Le risorse non riuscite vengono visualizzate come FAILED.
- FS (file system): Se il file system si trova in uno stato di errore, consultare la sezione sottostante sugli errori del file system.
- IP (IPaddr): Se IPaddr è in uno stato di errore, vedere la sezione seguente sugli errori di IPaddr.
- NWS (server): Se il server NetWorker si trova in uno stato di errore, effettuare le seguenti operazioni:
- Esaminare la finestra di dialogo del server NetWorker
daemon.rawper eventuali messaggi di errore visualizzati durante l'avvio. La directory del server/nsr_share/nsr/daemon.rawsi trova nel percorso di storage condiviso. Il daemon del client dei nodi fisici si trova in/nsr.NetWorker.local/logs/daemon.raw. Consultare l'articolo Dell NetWorker: Come utilizzare nsr_render_log (in inglese) - Se la registrazione predefinita non è sufficiente, abilitare il debug nel modo seguente:
- Tentare di riavviare la risorsa "Server":
pcs resource cleanup nws
- Utilizzare il comando
dbgcommandPer abilitare debug sunsrdprocesso:
dbgcommand -n nsrd Debug=#
daemon.raw per eventuali messaggi aggiuntivi che potrebbero indirizzare a un problema.
- Esaminare
/var/log/pcsd/pcsd.logper eventuali errori. - Esaminare
/var/log/pacemaker/pacemaker.logper eventuali errori. - Esaminare
/var/log/messagesfile per eventuali errori.
pcsd, i registri pacemaker e messaggi cercano i messaggi registrati negli stessi timestamp dei tentativi di avvio dei servizi NetWorker. Verificare la presenza di eventuali errori o guasti che coincidono con l'errore di avvio del servizio.
Errori del file system:
- Esaminare le risorse per pacemaker:
pcs resource
- Esaminare la configurazione della risorsa pacemaker per la risorsa Filesystem:
pcs resource fs
root@lnx-node1:~# pcs resource
* Resource Group: NW_group:
* fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
* ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
* nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config fs
Resource: fs (class=ocf provider=heartbeat type=Filesystem)
Attributes: fs-instance_attributes
device=/dev/sdb1
directory=/nsr_share
fstype=xfs
Operations:
monitor: fs-monitor-interval-20
interval=20
timeout=300
start: fs-start-interval-0s
interval=0s
timeout=60s
stop: fs-stop-interval-0s
interval=0s
timeout=60s
- Verificare se il dispositivo è montato sull FS:
df -h
Esempio:
root@lnx-node1:~# df -h | grep /nsr_share /dev/sdb1 94G 1.5G 92G 2% /nsr_share
- Verificare se il mount point è configurato correttamente; Associazione del dispositivo al percorso:
lsblk
Esempio:
root@lnx-node1:~# lsblk
NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
sda 8:0 0 40G 0 disk
├─sda1 8:1 0 600M 0 part /boot/efi
├─sda2 8:2 0 1G 0 part /boot
└─sda3 8:3 0 38.4G 0 part
├─rhel-root 253:0 0 34.4G 0 lvm /
└─rhel-swap 253:1 0 4G 0 lvm [SWAP]
sdb 8:16 0 100G 0 disk
└─sdb1 8:17 0 93.1G 0 part /nsr_share
sr0 11:0 1 1024M 0 rom
- Verificare che il file system utilizzato dal dispositivo sia corretto:
blkid
root@lnx-node1:~# blkid
/dev/mapper/rhel-root: UUID="7cf2f957-18d8-45b8-bf8f-6361aadc3517" BLOCK_SIZE="512" TYPE="xfs"
/dev/sda3: UUID="QpZ2hK-OuE2-igN0-Ryba-EwMN-uxq1-LE48hD" TYPE="LVM2_member" PARTUUID="1193db91-4b63-4b33-a4d4-03a22317e064"
/dev/sda1: UUID="F243-AD41" BLOCK_SIZE="512" TYPE="vfat" PARTLABEL="EFI System Partition" PARTUUID="6c81bd63-0249-4bdf-afdb-cdde72034162"
/dev/sda2: UUID="7677ad6b-8191-4a45-8a8a-16cf7d00d72c" BLOCK_SIZE="512" TYPE="xfs" PARTUUID="57481b7a-83ec-4cd8-bf2d-bca09ac27040"
/dev/sdb1: UUID="600bca60-dd5d-4162-bf77-0537daa3b1e5" BLOCK_SIZE="512" TYPE="xfs" PARTLABEL="networker" PARTUUID="769aaac2-764b-431d-be21-3b5753d6a5d3"
/dev/mapper/rhel-swap: UUID="537962b6-07d4-4a40-9687-deab2e488936" TYPE="swap"
/var/log/pcsd/pcsd.log/var/log/pacemaker/pacemaker.log/var/log/messages
Errori IPaddr:
- Esaminare le risorse per pacemaker:
pcs resource
- Esaminare la configurazione della risorsa pacemaker per la risorsa Filesystem:
pcs resource config ip
root@lnx-node1:~# pcs resource
* Resource Group: NW_group:
* fs (ocf::heartbeat:Filesystem): Started lnx-node1.amer.lan
* ip (ocf::heartbeat:IPaddr): Started lnx-node1.amer.lan
* nws (ocf::EMC_NetWorker:Server): Started lnx-node1.amer.lan
root@lnx-node1:~# pcs resource config ip
Resource: ip (class=ocf provider=heartbeat type=IPaddr)
Attributes: ip-instance_attributes
cidr_netmask=24
ip=192.1xx.9.1x0
nic=ens192
Operations:
monitor: ip-monitor-interval-15
interval=15
timeout=120
start: ip-start-interval-0s
interval=0s
timeout=20s stop:
ip-stop-interval-0s
interval=0s
timeout=20s
- Verificare se la scheda di rete è disponibile sul sistema:
ifconfig -a
root@lnx-node1:~# ifconfig -a
ens192: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
inet 192.1xx.9.1x8 netmask 255.255.255.0 broadcast 192.1xx.9.255
inet6 fe80::250:56ff:fea5:48e1 prefixlen 64 scopeid 0x20<link>
ether 00:50:56:a5:48:e1 txqueuelen 1000 (Ethernet)
RX packets 953865 bytes 349705527 (333.5 MiB)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 1190983 bytes 179749786 (171.4 MiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
inet 127.0.0.1 netmask 255.0.0.0
inet6 ::1 prefixlen 128 scopeid 0x10<host>
loop txqueuelen 1000 (Local Loopback)
RX packets 129798 bytes 13274289 (12.6 MiB)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 129798 bytes 13274289 (12.6 MiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
L'indirizzo IP mostrato con ifconfig corrisponde al nome del nodo fisico; tuttavia, l'IP del cluster è raggiungibile tramite questa scheda di rete quando il nodo è attivo. Accertarsi che entrambi i nodi siano configurati per utilizzare gli stessi nomi delle schede di rete.
- L'indirizzo IP viene risolto nel nome host (logico) corretto utilizzato dal server NetWorker?
nslookup ip nslookup logical_name_FQDN nslookup logical_name_short
root@lnx-node1:~# nslookup 192.1xx.9.1x0 110.9.1xx.1x2.in-addr.arpa name = lnx-nwcluster.amer.lan. root@lnx-node1:~# nslookup lnx-nwcluster.amer.lan. Server: 192.1xx.9.1x0 Address: 192.1xx.9.100#53 Name: lnx-nwcluster.amer.lan Address: 192.1xx.9.1x0 root@lnx-node1:~# nslookup lnx-nwcluster Server: 192.1xx.9.1x0 Address: 192.1xx.9.100#53 Name: lnx-nwcluster.amer.lan Address: 192.1xx.9.1x0
Si consiglia inoltre di eseguire la stessa procedura per l'indirizzo IP, l FQDN e il nome breve del nodo fisico. Consultare l'articolo Dell NetWorker: Best practice per la risoluzione dei problemi di risoluzione dei nomi.
- È possibile raggiungere l'indirizzo IP del cluster utilizzando
ping? giallo
ping -c 4 ip
root@lnx-node1:~# ping -c 4 192.1xx8.9.1x0 PING 192.1xx8.9.1x0 (192.1xx.9.1x0) 56(84) bytes of data. 64 bytes from 192.1xx.9.1x0: icmp_seq=1 ttl=64 time=0.051 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=2 ttl=64 time=0.043 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=3 ttl=64 time=0.033 ms 64 bytes from 192.1xx.9.1x0: icmp_seq=4 ttl=64 time=0.034 ms --- 192.1xx.9.1x0 ping statistics --- 4 packets transmitted, 4 received, 0% packet loss, time 3108ms rtt min/avg/max/mdev = 0.033/0.040/0.051/0.008 ms
/var/log/pcsd/pcsd.log/var/log/pacemaker/pacemaker.log/var/log/messages
Altri comandi PCS:
| Operazione | Comando |
Pacemaker o pcs version: |
|
| Panoramica di Pacemaker |
|
| Panoramica delle risorse Pacemaker |
|
| Determinare la proprietà del percorso in un cluster. |
|
| Abilitare (avviare) la risorsa. |
|
Start pcs risorsa con debug. |
|
| Esame delle impostazioni di configurazione delle risorse PC |
|
| Disabilitare (arrestare) la risorsa: |
|
| Riavviare la risorsa non riuscita. |
|
| Arresto del pacemaker sul nodo. |
|
| Avviare il pacemaker |
|
| Mettere il nodo in standby. |
|
| Mettere il nodo fuori dalla modalità standby. |
|
Registri e file importanti:
| Sentiero | Scopo | Comandi supplementari |
/var/log/messages |
Contiene messaggi di sistema globali relativi alle risorse e ai servizi di sistema. |
|
/var/log/pacemaker/pacemaker.log |
Registrazione predefinita delle informazioni sul pacemaker per le risorse e le funzioni del pacemaker. | N/D |
/var/log/pcsd/pcsd.log |
Servizio/daemon pacemaker predefinito (pcsd) registro. |
N/D |
/var/log/cluster/corosync.log |
Registro predefinito delle comunicazioni del nodo pacemaker. | N/D |
/usr/sbin/nw_hae.log |
NetWorker (nws) Registro iniziale della risorsa come definito in /usr/lib/ocf/resource.d/EMC_NetWorker/Server |
N/D |
/usr/lib/ocf/resource.d/EMC_NetWorker/Server |
File di configurazione del pacemaker NetWorker. Queste sono le operazioni che vengono eseguite/gestite dai pc. | N/D |