Controllo integrità per gli appliance DDHA (Data Domain HA)
Summary: Questo articolo fornisce indicazioni per eseguire un controllo integrità di base del sistema HA dopo un evento di assistenza. Le configurazioni DDHA (Data Domain Highly Available) variano a seconda dei modelli Data Domain utilizzati. ...
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
I sistemi DDHA (Data Domain Highly Available) sono progettati per eseguire il failover tra i nodi. Solo il nodo attivo è in produzione, mentre il nodo in standby è in attesa di un evento di errore per subentrare al nodo attivo (ACTIVE - PASSIVE).
È fondamentale verificare che entrambi i nodi DDHA siano funzionanti e che completino un failover qualora si verificasse un errore.
I comandi della CLI descritti in questo articolo consentono di individuare i possibili problemi che potrebbero impedire la corretta esecuzione del failover.
Questa guida è suddivisa nelle aree chiave da controllare.
# net show settings
Le impostazioni delle porte di rete sono diverse, a seconda del nodo su cui viene eseguito il comando #net show settings. Le porte configurate sui sistemi DDHA sono di tipo "floating" o "fixed". Eseguire
Nodo attivo:
Verificare la connettività di rete.
Esaminare gli IP elencati su ciascun nodo e assicurarsi che ogni indirizzo IP configurato sul nodo attivo e sui nodi in standby possa eseguire il ping del relativo gateway configurato.
Nota: alcuni clienti hanno il ping (ICMP) disabilitato nel proprio ambiente. In questo caso, interagire con il cliente per confermare la connettività.
(active:1)# net route show gateway detailed
Eseguire il ping dell'indirizzo IP del gateway con ciascun ethxx configurato.
# net troubleshooting duplicate-ip
Da entrambi i nodi verificare l'eventuale presenza di IP duplicati
Test fibre channel
Verificare che queste funzioni siano concesse in licenza, quindi testarle per verificare che siano pienamente funzionanti (ad esempio: eseguire operazioni di backup di test sulla VTL).
Test di supporto automatico e degli avvisi dal nodo attivo e in standby
Nel caso in cui si utilizzi CONNECTEMC (Secure Remote Services) per inoltrare gli ASUP a Data Domain, utilizzare il seguente comando per verificare la connettività su entrambi i nodi.
Il timestamp indica quando è stata stabilita l'ultima connessione.
Risoluzione dei problemi del file system HA
# filesys status
Verificare che il file system sia abilitato e in esecuzione. Potrebbe anche essere visualizzato lo stato della pulizia.
(active:1)# (standby:0)# system upgrade status
Da entrambi i nodi, verificare che tutti gli aggiornamenti siano stati completati.
(active:1)# (standby:0)#Date
Assicurarsi che la data e l'ora corrispondano su entrambi i nodi entro 10 secondi.
Dal nodo Active, verificare con il cliente che la replica DD (se configurata) funzioni come previsto.
È fondamentale verificare che entrambi i nodi DDHA siano funzionanti e che completino un failover qualora si verificasse un errore.
I comandi della CLI descritti in questo articolo consentono di individuare i possibili problemi che potrebbero impedire la corretta esecuzione del failover.
Questa guida è suddivisa nelle aree chiave da controllare.
- Hardware e configurazione HA
- Rete
- Filesystem
# net show settings
Le impostazioni delle porte di rete sono diverse, a seconda del nodo su cui viene eseguito il comando #net show settings. Le porte configurate sui sistemi DDHA sono di tipo "floating" o "fixed". Eseguire
"net show settings"su entrambi i nodi e confrontare gli output.
- Interfacce "floating": verificare che ogni porta di scheda di rete (NIC), alias o veth, configurata che mostra uno stato abilitato e in esecuzione sul nodo attivo abbia lo stesso stato abilitato e in esecuzione sul nodo in standby. Si prevede che qualsiasi porta NIC, alias o Veth, configurata e impostata sul tipo floating abbia un indirizzo IP visualizzato sul nodo attivo e un corrispondente N/A sul nodo in standby.
- Interfacce "fixed": verificare che ogni porta di scheda di rete, alias o veth, configurata e contrassegnata come "fixed" mostri uno stato abilitato e in esecuzione. Le interfacce "fixed" non hanno configurazioni identiche tra i nodi.
- Verificare che sia visualizzata l'interconnessione HA (veth99) e che tutte le porte richieste siano abilitate e in esecuzione. Nota: il numero di connessioni delle porte richieste e la posizione degli slot per l'interconnessione HA (veth99) sono specifici del modello DD.
Nodo attivo:
# net show settings port enabled state DHCP IP address netmask type additional setting ------ ------- ------- ---- ------------------------------------ -------------- ------------ ----------------------------------------------- ethMa yes running no 10.25.18.50 255.255.255.0 fixed 2620:0:170:1608:260:16ff:fe5c:92bc** /64 fe80::260:16ff:fe5c:92bc** /64 ethMb no down ipv4 n/a n/a fixed ethMc no down ipv4 n/a n/a fixed ethMd no down ipv4 n/a n/a fixed eth4a yes running no 10.25.18.63 255.255.255.0 floating 2620:0:170:1608:260:16ff:fe51:8c60** /64 fe80::260:16ff:fe51:8c60** /64 eth4b no down no n/a n/a fixed eth4c no down no n/a n/a fixed eth4d no down no n/a n/a fixed eth5a no down no n/a n/a fixed eth5b yes running no 10.25.18.60 255.255.255.0 floating 2620:0:170:1608:260:16ff:fe52:2951** /64 fe80::260:16ff:fe52:2951** /64 eth5c no down no n/a n/a fixed eth5d no down no n/a n/a fixed eth11a yes running n/a n/a n/a interconnect bonded to veth99 eth11b yes running n/a n/a n/a interconnect bonded to veth99 eth11c yes running n/a n/a n/a interconnect bonded to veth99 eth11d yes running n/a n/a n/a interconnect bonded to veth99 veth99 yes running no d:d:d:d:d:0060:1652:0ecc /80 interconnect lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d fe80::260:16ff:fe52:ecc** /64 ------ ------- ------- ---- ------------------------------------ -------------- ------------ -----------------------------------------------Nodo in standby:
# net show settings port enabled state DHCP IP address netmask type additional setting ------ ------- ------- ---- ------------------------------------ -------------- ------------ ----------------------------------------------- ethMa yes running no 10.25.18.49 255.255.255.0 fixed 2620:0:170:14567:260:16ff:fe5c:dr3** /64 fe80::260:16ff:fe5c3457c** /64 ethMb no down ipv4 n/a n/a fixed ethMc no down ipv4 n/a n/a fixed ethMd no down ipv4 n/a n/a fixed eth4a yes running no n/a 255.255.255.0 floating 2620:0:170:1608:260:1ght6:fe51:4570** /64 fe80::260:16ff:fe51:7890** /64 eth4b no down no n/a n/a fixed eth4c no down no n/a n/a fixed eth4d no down no n/a n/a fixed eth5a no down no n/a n/a fixed eth5b yes running no n/a 255.255.255.0 floating 2620:0:170:160:456:16ff:fe5234561** /64 fe80::260:16ff:fe52:3456** /64 eth5c no down no n/a n/a fixed eth5d no down no n/a n/a fixed eth11a yes running n/a n/a n/a interconnect bonded to veth99 eth11b yes running n/a n/a n/a interconnect bonded to veth99 eth11c yes running n/a n/a n/a interconnect bonded to veth99 eth11d yes running n/a n/a n/a interconnect bonded to veth99 veth99 yes running no d:d:d:d:d:0e456:1652:dft4c /80 interconnect lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d fe80::264:16ff:fec2:ecb** /64 ------ ------- ------- ---- ------------------------------------ -------------- ------------ -----------------------------------------------
Verificare la connettività di rete.
Esaminare gli IP elencati su ciascun nodo e assicurarsi che ogni indirizzo IP configurato sul nodo attivo e sui nodi in standby possa eseguire il ping del relativo gateway configurato.
Nota: alcuni clienti hanno il ping (ICMP) disabilitato nel proprio ambiente. In questo caso, interagire con il cliente per confermare la connettività.
(active:1)# net route show gateway detailed
IPv4 Default Gateways gateway IP source tables interface address owner ---------- ------ ------ ----------------- ----- 10.25.18.1 static tethMa 10.25.18.50/24 none 10.25.18.1 static teth4a 10.25.18.63/24 none 10.25.18.1 static teth5b 10.25.18.60/24 none ---------- ------ ------ ----------------- -----
Eseguire il ping dell'indirizzo IP del gateway con ciascun ethxx configurato.
#(active:1)# ping 10.25.18.1 interface ethMa PING 10.25.18.1 (10.25.18.1) from 10.25.18.50 ethMa: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=0.697 ms (active:1)# ping 10.25.18.1 interface eth4a PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms (active:1)# ping 10.25.18.1 interface eth5b PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
# net troubleshooting duplicate-ip
Da entrambi i nodi verificare l'eventuale presenza di IP duplicati
No duplicate IP addresses detected
Test fibre channel
Verificare che queste funzioni siano concesse in licenza, quindi testarle per verificare che siano pienamente funzionanti (ad esempio: eseguire operazioni di backup di test sulla VTL).
# license show or # elicense show ## License Key Feature -- ------------------- ---------------------------------------- 1 WTXV-TSWX-HWDR-RHDX VTL 2 EZXW-SZZF-BGCS-VRZX Block services (Vdisk) 3 .... HA
Test di supporto automatico e degli avvisi dal nodo attivo e in standby
(active:1)## autosupport test alert-summary OK: Message sent. (active:1)## autosupport test support-notify OK: Message sent. (standby:0)# autosupport test alert-summary OK: Message sent. (standby:0)# autosupport test support-notify OK: Message sent.
Nel caso in cui si utilizzi CONNECTEMC (Secure Remote Services) per inoltrare gli ASUP a Data Domain, utilizzare il seguente comando per verificare la connettività su entrambi i nodi.
Il timestamp indica quando è stata stabilita l'ultima connessione.
sysadmin@hostname# support connectemc show history File Time Transport Result --------------------------------------- --------------------- --------- -------- RSC_CKM00XXX601153_120315_092804166.xml "2015-12-03 09:28:07" HTTP Success RSC_CKM00XXX601153_120315_101257767.xml "2015-12-03 10:13:00" HTTP Success RSC_CKM00XXX601153_120315_111649065.xml "2015-12-03 11:16:53" HTTP Success --------------------------------------- --------------------- --------- -------- Note: It says HTTP above, but it is HTTPS
Risoluzione dei problemi del file system HA
# filesys status
Verificare che il file system sia abilitato e in esecuzione. Potrebbe anche essere visualizzato lo stato della pulizia.
The filesystem is enabled and running. Cleaning started at 2016/08/20 14:12:16: phase 1 of 12 (pre-merge) 0.7% complete, 95911 GiB free; time: phase 0:00:09, total 0:00:09
(active:1)# (standby:0)# system upgrade status
Da entrambi i nodi, verificare che tutti gli aggiornamenti siano stati completati.
Current Upgrade Status: DD OS upgrade Succeeded End time: 2016.08.20:13:27
(active:1)# (standby:0)#Date
Assicurarsi che la data e l'ora corrispondano su entrambi i nodi entro 10 secondi.
-p1(active:1)# date Sat Aug 20 14:34:29 EDT 2016 -p0(standby:0)# date Sat Aug 20 14:34:17 EDT 2016
Dal nodo Active, verificare con il cliente che la replica DD (se configurata) funzioni come previsto.
# replication status CTX Destination Enabled Connection Sync'ed-as-of-time --- --------------------------------------------------------- ------- ---------------- ------------------ 3 mtree://ddxxx.com/data/col1/eric.dest no idle Fri Nov 6 15:16 4 mtree://ddxxx.com/data/col1/thy-repl yes idle Fri Jul 22 15:38 5 dir://ddxxxx.com/backup/replicate-rtp yes disconnected Fri Jul 22 14:55 6 mtree://ddxxxx.com/data/col1/theman_test yes idle Sat Aug 20 22:11 7 dir://ddxxx.com/backup/lakeland/sym yes Sat Aug 20 13:15 Fri Aug 19 15:09 --- --------------------------------------------------------- ------- ---------------- ----------------
Cause
Hardware e configurazione HA
Sia sul nodo attivo che sul nodo in standby, verificare l'eventuale presenza di un avviso attivo che segnala un potenziale problema. Poiché gli avvisi non sono sempre condivisi tra i nodi, controllare entrambi i nodi. Se si verifica un problema imprevisto, inviare una richiesta di assistenza. Generare sempre un pacchetto di supporto da entrambi i nodi.
Nota. La maggior parte degli avvisi viene visualizzata su uno solo dei nodi. Non tutti gli avvisi vengono condivisi tra i nodi.
Se lo stato è "high available", il failover è abilitato.
Se lo stato è "degraded" o se uno dei nodi non presenta lo stato "online", il failover tra i nodi è disabilitato.
# ha status detailed
È possibile utilizzare il comando #ha status detailed solo sul nodo attivo per informazioni più dettagliate sullo stato HA.
Se per uno degli output seguenti è indicato "not ok" nella sezione Mirroring Status, significa che è presente un componente non funzionante e per HA System Status viene indicato "degraded".
Uno stato "degraded" impedisce il failover tra i nodi.
Nota: questo comando non è disponibile sul nodo in standby.
# enclosure show io-cards
Verificare che entrambi i nodi abbiano configurazioni supportate identiche.
# enclosure show misconfiguration
Eseguire un test di configurazione errata dal nodo attivo e dai nodi in standby per verificare l'eventuale presenza di problemi con la configurazione hardware.
Articolo di riferimento della Knowledge Base https://www.dell.com/support/kbdoc/en-us/463399
Esempi:
# enclosure show topology
Controllare la topologia da entrambi i nodi.
Cercare eventuali errori tra i punti di connessione e assicurarsi che la numerazione di tutti gli alloggiamenti sia corretta.
# enclosure test topology all duration 1
Sia dal nodo attivo che in standby, eseguire un test di diagnostica di 1 minuto per tutte le porte HBA SAS con storage esterno collegato.
Non eseguire i test della topologia contemporaneamente su entrambi i nodi.
Il risultato previsto è "no error detected" per ogni porta con storage collegato.
Se viene rilevato un problema, il test può interrompersi con un messaggio di errore che indica la connessione SAS in errore oppure può essere visualizzato un errore (? , ! ) in corrispondenza di un determinato collegamento.
Nota: durante il test della topologia, le singole porte hanno un output separato che ne indica lo stato. Cercare gli errori (? , ! ) per individuare la connessione problematica. Non viene visualizzato alcun output della CLI fino al completamento di ciascun test delle porte.
# system show nvram
Sia sul nodo attivo e che in standby, assicurarsi che le batterie Nvram siano cariche o in carica e che tutti i contatori degli errori nvram mostrino un valore pari a zero.
# alerts show current
Sia sul nodo attivo che sul nodo in standby, verificare l'eventuale presenza di un avviso attivo che segnala un potenziale problema. Poiché gli avvisi non sono sempre condivisi tra i nodi, controllare entrambi i nodi. Se si verifica un problema imprevisto, inviare una richiesta di assistenza. Generare sempre un pacchetto di supporto da entrambi i nodi.
Nota. La maggior parte degli avvisi viene visualizzata su uno solo dei nodi. Non tutti gli avvisi vengono condivisi tra i nodi.
Esempi di avvisi:
Severity Class Object Message -------- --------------- ------ ---------------------------------------------- CRITICAL HardwareFailure EVT-ENVIRONMENT-00049: The system detected an invalid hardware configuration. -- ------------------------ -------- --------------- ------ ---------------------------------------------- CRITICAL HardwareFailure EVT-ENVIRONMENT-00048: Filesystem can't be enabled due to an invalid hardware configuration. -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HardwareFailure Enclosure=1:Slot=5 EVT-ENVIRONMENT-00047: PCI communication speed is degraded -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HA EVT-HA-00003: Standby node time is off by 15 second(s). -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HardwareFailure Port Index=1 EVT-MPATH-00003: Missing disk connection from system port 6a. -- ------------------------ -------- --------------- ------ ----------------------------------------------
# ha status
Per determinare lo stato HA corrente, è possibile utilizzare il comando #ha status sul nodo attivo e sul nodo in standby.Se lo stato è "high available", il failover è abilitato.
Se lo stato è "degraded" o se uno dei nodi non presenta lo stato "online", il failover tra i nodi è disabilitato.
SE@hostname-p0(active:0)## ha status HA System name:hostname-n1.chaos.local HA System status: highly available Node Name Node id Role HA State ------------------------------- ------- ------- -------- hostname-p0.chaos.local 0 active online hostname-p1.chaos.local 1 standby online ------------------------------- ------- ------- --------
# ha status detailed
È possibile utilizzare il comando #ha status detailed solo sul nodo attivo per informazioni più dettagliate sullo stato HA.
Se per uno degli output seguenti è indicato "not ok" nella sezione Mirroring Status, significa che è presente un componente non funzionante e per HA System Status viene indicato "degraded".
Uno stato "degraded" impedisce il failover tra i nodi.
Nota: questo comando non è disponibile sul nodo in standby.
SEhostname-p0(active:0)## ha status detailed HA System name: hostname.chaos.local HA System Status: highly available Interconnect Status: ok Primary Heartbeat Status: ok External LAN Heartbeat Status: not ok Hardware compatibility check: ok Software Version Check: ok Node hostname-p0.chaos.local: Role: active HA State: online Node Health: ok Node hostname-p1.chaos.local: Role: standby HA State: online Node Health: ok Mirroring Status: Component Name Status -------------- ------ nvram ok registry ok sms ok ddboost ok cifs ok -------------- ------
# enclosure show io-cards
Verificare che entrambi i nodi abbiano configurazioni supportate identiche.
# enclosure show misconfiguration
Eseguire un test di configurazione errata dal nodo attivo e dai nodi in standby per verificare l'eventuale presenza di problemi con la configurazione hardware.
Articolo di riferimento della Knowledge Base https://www.dell.com/support/kbdoc/en-us/463399
Esempi:
Memory DIMMs: Locator Bank Locator Size(GiB) Status ------- ------------ --------- ---------- CHCD1 7 0 missing CHDD1 7 0 missing CHAD0 4 8 wrong size CHBD0 4 8 wrong size IO Cards: Slot Device Status ---- ---------- --------- 10 Hera NVRAM extra 10 Hera NVRAM misplaced ---- ---------- --------- CPUs: No misconfiguration found. Disks: Slot Size(GiB) Type Media Status ---- --------- ---- ----- ------- 2 186 SATA SSD missing ---- --------- ---- ----- -----
# enclosure show topology
Controllare la topologia da entrambi i nodi.
Cercare eventuali errori tra i punti di connessione e assicurarsi che la numerazione di tutti gli alloggiamenti sia corretta.
- Gli errori e i guasti sono indicati con "?", "!" o "!!".
Nota: gli output della topologia per ogni nodo devono essere invertiti (immagine speculare) l'uno rispetto all'altro.
(Stdby:0)## enclosure show topology
Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port
---- - ------------- - ------------- - ------------- - -------------
2a
2b
2c
2d > 5.A.E: 5.A.H ? 4.A.E: 4.A.H > 3.A.E: 3.A.H > 2.A.E: 2.A.H
3a
3b
3c
3d
6a !! 2.B.E: 2.B.H > 3.B.E: 3.B.H > 5.B.E: 5.B.H > ?.B.E: ?.B.H
6b
6c
6d
---- - ------------- - ------------- - ------------- - -------------
(active:1)## enclosure show topology
Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port
---- - ------------- - ------------- - ------------- - -------------
2a
2b
2c
2d > 2.A.H: 2.A.E > 3.A.H: 3.A.E > 4.A.H: 4.A.E > 5.A.H: 5.A.E
3a
3b
3c
3d
6a > 5.B.H: 5.B.E > 4.B.H: 4.B.E > 3.B.H: 3.B.E > 2.B.H: 2.B.E
6b
6c
6d
---- - ------------- - ------------- - ------------- - -------------
# enclosure test topology all duration 1
Sia dal nodo attivo che in standby, eseguire un test di diagnostica di 1 minuto per tutte le porte HBA SAS con storage esterno collegato.
Non eseguire i test della topologia contemporaneamente su entrambi i nodi.
Il risultato previsto è "no error detected" per ogni porta con storage collegato.
Se viene rilevato un problema, il test può interrompersi con un messaggio di errore che indica la connessione SAS in errore oppure può essere visualizzato un errore (? , ! ) in corrispondenza di un determinato collegamento.
Nota: durante il test della topologia, le singole porte hanno un output separato che ne indica lo stato. Cercare gli errori (? , ! ) per individuare la connessione problematica. Non viene visualizzato alcun output della CLI fino al completamento di ciascun test delle porte.
# enclosure test topology Started: 1471719316 Ended: 1471719498 Duration: 182 Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port ---- - --------------- - --------------- - --------------- - --------------- 2d > 5.A.H:5.A.E > 4.A.H:4.A.E > 3.A.H:3.A.E > 2.A.H:2.A.E ---- - --------------- - --------------- - --------------- - --------------- Error message: ----------------- No error detected -----------------
# system show nvram
Sia sul nodo attivo e che in standby, assicurarsi che le batterie Nvram siano cariche o in carica e che tutti i contatori degli errori nvram mostrino un valore pari a zero.
# system show nvram NVRAM Cards: Card Component Value ---- ----------------------- ---------------------------------------------------------------------- 1 Slot 0 Firmware version 0.0.80 Memory size 7.93 GiB Errors 0 memory (0 uncorrectable), 0 PCI, 0 controller Flash controller Errors 0 Cfg Err, 0 PANIC, 0 Bus Hang, 0 Bad Blk Warn, 0 Bkup Err, 0 Rstr Err Board temperature 37 C CPU temperature 47 C Number of batteries 1 ---- ----------------------- ---------------------------------------------------------------------- NVRAM Batteries: Card Battery Status Charge Charging Time To Temperature Voltage Status Full Charge ---- ------- ------ ------ -------- ----------- ----------- ------- 1 1 ok 94 % enabled 0 mins 34 C 4.016 V ---- ------- ------ ------ -------- ----------- ----------- -------
Resolution
Se è necessaria ulteriore assistenza, contattare il fornitore di servizi con cui è stato sottoscritto un contratto.
Additional Information
.
Affected Products
Data DomainProducts
Data Domain, DD OS 6.0Article Properties
Article Number: 000017861
Article Type: Solution
Last Modified: 05 Jul 2024
Version: 3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.