Controllo integrità per gli appliance DDHA (Data Domain HA)

Summary: Questo articolo fornisce indicazioni per eseguire un controllo integrità di base del sistema HA dopo un evento di assistenza. Le configurazioni DDHA (Data Domain Highly Available) variano a seconda dei modelli Data Domain utilizzati. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

I sistemi DDHA (Data Domain Highly Available) sono progettati per eseguire il failover tra i nodi.  Solo il nodo attivo è in produzione, mentre il nodo in standby è in attesa di un evento di errore per subentrare al nodo attivo (ACTIVE - PASSIVE). 
È fondamentale verificare che entrambi i nodi DDHA siano funzionanti e che completino un failover qualora si verificasse un errore. 
I comandi della CLI descritti in questo articolo consentono di individuare i possibili problemi che potrebbero impedire la corretta esecuzione del failover. 
Questa guida è suddivisa nelle aree chiave da controllare.
  • Hardware e configurazione HA
  • Rete
  • Filesystem
Risoluzione dei problemi delle rete HA
 
# net show settings  
Le impostazioni delle porte di rete sono diverse, a seconda del nodo su cui viene eseguito il comando #net show settings. Le porte configurate sui sistemi DDHA sono di tipo "floating" o "fixed".  Eseguire
 "net show settings"
su entrambi i nodi e confrontare gli output.
  1. Interfacce "floating":  verificare che ogni porta di scheda di rete (NIC), alias o veth, configurata che mostra uno stato abilitato e in esecuzione sul nodo attivo abbia lo stesso stato abilitato e in esecuzione sul nodo in standby.  Si prevede che qualsiasi porta NIC, alias o Veth, configurata e impostata sul tipo floating abbia un indirizzo IP visualizzato sul nodo attivo e un corrispondente N/A sul nodo in standby. 
  2. Interfacce "fixed": verificare che ogni porta di scheda di rete, alias o veth, configurata e contrassegnata come "fixed" mostri uno stato abilitato e in esecuzione. Le interfacce "fixed" non hanno configurazioni identiche tra i nodi.
  3. Verificare che sia visualizzata l'interconnessione HA (veth99) e che tutte le porte richieste siano abilitate e in esecuzione. Nota:  il numero di connessioni delle porte richieste e la posizione degli slot per l'interconnessione HA (veth99) sono specifici del modello DD.

Nodo attivo:
# net show settings
port     enabled   state     DHCP   IP address                             netmask          type           additional setting
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
ethMa    yes       running   no     10.25.18.50                            255.255.255.0       fixed
                                           2620:0:170:1608:260:16ff:fe5c:92bc**   /64
                                                fe80::260:16ff:fe5c:92bc**        /64
ethMb    no        down      ipv4   n/a                                           n/a          fixed
ethMc    no        down      ipv4   n/a                                           n/a          fixed
ethMd    no        down      ipv4   n/a                                           n/a          fixed
eth4a    yes       running   no     10.25.18.63                            255.255.255.0       floating
                                           2620:0:170:1608:260:16ff:fe51:8c60**   /64
                                               fe80::260:16ff:fe51:8c60**         /64
eth4b    no        down       no     n/a                                          n/a          fixed
eth4c    no        down       no     n/a                                          n/a          fixed
eth4d    no        down       no     n/a                                          n/a          fixed
eth5a    no        down       no     n/a                                          n/a          fixed
eth5b    yes       running   no     10.25.18.60                            255.255.255.0       floating
                                           2620:0:170:1608:260:16ff:fe52:2951**   /64
                                                fe80::260:16ff:fe52:2951**        /64
eth5c    no        down       no     n/a                                          n/a          fixed
eth5d    no        down       no     n/a                                          n/a          fixed
eth11a   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11b   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11c   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11d   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
veth99   yes       running   no     d:d:d:d:d:0060:1652:0ecc                 /80               interconnect   lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d
                                                 fe80::260:16ff:fe52:ecc**   /64
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
Nodo in standby:
# net show settings
port     enabled   state     DHCP   IP address                             netmask          type           additional setting
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
ethMa    yes       running   no     10.25.18.49                            255.255.255.0    fixed
                                     2620:0:170:14567:260:16ff:fe5c:dr3**  /64
                                               fe80::260:16ff:fe5c3457c**  /64
ethMb    no        down      ipv4   n/a                                    n/a              fixed
ethMc    no        down      ipv4   n/a                                    n/a              fixed
ethMd    no        down      ipv4   n/a                                    n/a              fixed
eth4a    yes       running   no     n/a                                    255.255.255.0    floating
                                    2620:0:170:1608:260:1ght6:fe51:4570**  /64
                                               fe80::260:16ff:fe51:7890**  /64
eth4b    no        down       no     n/a                                   n/a              fixed
eth4c    no        down       no     n/a                                   n/a              fixed
eth4d    no        down       no     n/a                                   n/a              fixed
eth5a    no        down       no     n/a                                   n/a              fixed
eth5b    yes       running    no     n/a                                   255.255.255.0    floating
                                     2620:0:170:160:456:16ff:fe5234561**   /64
                                              fe80::260:16ff:fe52:3456**   /64
eth5c    no        down       no     n/a                                   n/a              fixed
eth5d    no        down       no     n/a                                   n/a              fixed
eth11a   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11b   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11c   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11d   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
veth99   yes       running    no     d:d:d:d:d:0e456:1652:dft4c            /80              interconnect   lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d
                                                 fe80::264:16ff:fec2:ecb** /64
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
 
Verificare la connettività di rete.
Esaminare gli IP elencati su ciascun nodo e assicurarsi che ogni indirizzo IP configurato sul nodo attivo e sui nodi in standby possa eseguire il ping del relativo gateway configurato. 
Nota: alcuni clienti hanno il ping (ICMP) disabilitato nel proprio ambiente.  In questo caso, interagire con il cliente per confermare la connettività.

 
(active:1)# net route show gateway detailed 
IPv4 Default Gateways
gateway IP   source   tables   interface address   owner
----------   ------   ------   -----------------   -----
10.25.18.1   static   tethMa   10.25.18.50/24      none
10.25.18.1   static   teth4a   10.25.18.63/24      none
10.25.18.1   static   teth5b   10.25.18.60/24      none
----------   ------   ------   -----------------   -----

Eseguire il ping dell'indirizzo IP del gateway con ciascun ethxx configurato.
 
#(active:1)# ping 10.25.18.1 interface ethMa
                                                           PING 10.25.18.1 (10.25.18.1) from 10.25.18.50 ethMa: 56(84) bytes of data.
                                                           64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=0.697 ms
(active:1)# ping 10.25.18.1 interface eth4a
                                                           PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data.
                                                           64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
(active:1)# ping 10.25.18.1 interface eth5b
                                                          PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data.
                                                          64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
 
# net troubleshooting duplicate-ip
Da entrambi i nodi verificare l'eventuale presenza di IP duplicati
No duplicate IP addresses detected

Test fibre channel
Verificare che queste funzioni siano concesse in licenza, quindi testarle per verificare che siano pienamente funzionanti (ad esempio: eseguire operazioni di backup di test sulla VTL).
# license show  or # elicense show

##   License Key           Feature
--   -------------------   ----------------------------------------
1    WTXV-TSWX-HWDR-RHDX  VTL
2    EZXW-SZZF-BGCS-VRZX   Block services (Vdisk)
3 .... HA

Test di supporto automatico e degli avvisi dal nodo attivo e in standby
 
 (active:1)## autosupport test alert-summary
                              OK: Message sent.
 (active:1)## autosupport test support-notify
                              OK: Message sent.
 
 (standby:0)# autosupport test alert-summary
                              OK: Message sent.
 (standby:0)# autosupport test support-notify
                              OK: Message sent.


Nel caso in cui si utilizzi CONNECTEMC (Secure Remote Services) per inoltrare gli ASUP a Data Domain, utilizzare il seguente comando per verificare la connettività su entrambi i nodi.
Il timestamp indica quando è stata stabilita l'ultima connessione.
sysadmin@hostname# support connectemc show history
File Time Transport Result
--------------------------------------- --------------------- --------- --------
RSC_CKM00XXX601153_120315_092804166.xml "2015-12-03 09:28:07" HTTP Success
RSC_CKM00XXX601153_120315_101257767.xml "2015-12-03 10:13:00" HTTP Success
RSC_CKM00XXX601153_120315_111649065.xml "2015-12-03 11:16:53" HTTP Success
--------------------------------------- --------------------- --------- --------
Note: It says HTTP above, but it is HTTPS

Risoluzione dei problemi del file system HA
 
# filesys status
Verificare che il file system sia abilitato e in esecuzione. Potrebbe anche essere visualizzato lo stato della pulizia.
The filesystem is enabled and running.
Cleaning started at 2016/08/20 14:12:16: phase 1 of 12 (pre-merge)
  0.7% complete, 95911 GiB free; time: phase  0:00:09, total  0:00:09

 
(active:1)# (standby:0)# system upgrade status
Da entrambi i nodi, verificare che tutti gli aggiornamenti siano stati completati.
Current Upgrade Status: DD OS upgrade Succeeded
End time: 2016.08.20:13:27
 
(active:1)# (standby:0)#Date
Assicurarsi che la data e l'ora corrispondano su entrambi i nodi entro 10 secondi.
-p1(active:1)# date
Sat Aug 20 14:34:29 EDT 2016
-p0(standby:0)# date
Sat Aug 20 14:34:17 EDT 2016

Dal nodo Active, verificare con il cliente che la replica DD (se configurata) funzioni come previsto.
# replication status
CTX   Destination                                                 Enabled   Connection         Sync'ed-as-of-time
---   ---------------------------------------------------------   -------   ----------------   ------------------
3     mtree://ddxxx.com/data/col1/eric.dest                        no        idle               Fri Nov  6 15:16
4     mtree://ddxxx.com/data/col1/thy-repl                         yes       idle               Fri Jul 22 15:38
5     dir://ddxxxx.com/backup/replicate-rtp                        yes       disconnected       Fri Jul 22 14:55
6     mtree://ddxxxx.com/data/col1/theman_test                     yes       idle               Sat Aug 20 22:11
7     dir://ddxxx.com/backup/lakeland/sym                          yes       Sat Aug 20 13:15   Fri Aug 19 15:09
---   ---------------------------------------------------------   -------   ----------------   ----------------

Cause

Hardware e configurazione HA
 
# alerts show current

Sia sul nodo attivo che sul nodo in standby, verificare l'eventuale presenza di un avviso attivo che segnala un potenziale problema. Poiché gli avvisi non sono sempre condivisi tra i nodi, controllare entrambi i nodi.  Se si verifica un problema imprevisto, inviare una richiesta di assistenza. Generare sempre un pacchetto di supporto da entrambi i nodi.
Nota.  La maggior parte degli avvisi viene visualizzata su uno solo dei nodi. Non tutti gli avvisi vengono condivisi tra i nodi.
 

Esempi di avvisi:

Severity   Class             Object   Message
   --------   ---------------   ------   ----------------------------------------------
CRITICAL      HardwareFailure            EVT-ENVIRONMENT-00049: The system detected an invalid hardware configuration.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
CRITICAL      HardwareFailure            EVT-ENVIRONMENT-00048: Filesystem can't be enabled due to an invalid hardware configuration.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING       HardwareFailure            Enclosure=1:Slot=5   EVT-ENVIRONMENT-00047: PCI communication speed is degraded
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING             HA                   EVT-HA-00003: Standby node time is off by 15 second(s).
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING    HardwareFailure   Port Index=1   EVT-MPATH-00003: Missing disk connection from system port 6a.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------

 

# ha status

Per determinare lo stato HA corrente, è possibile utilizzare il comando #ha status sul nodo attivo e sul nodo in standby.
Se lo stato è "high available", il failover è abilitato. 
Se lo stato è "degraded" o se uno dei nodi non presenta lo stato "online", il failover tra i nodi è disabilitato.

 
SE@hostname-p0(active:0)## ha status
HA System name:hostname-n1.chaos.local
HA System status: highly available
 
Node Name                         Node id   Role      HA State
-------------------------------   -------   -------   --------
hostname-p0.chaos.local   0         active    online
hostname-p1.chaos.local   1         standby   online
-------------------------------   -------   -------   --------

# ha status detailed
È possibile utilizzare il comando #ha status detailed solo sul nodo attivo per informazioni più dettagliate sullo stato HA.
Se per uno degli output seguenti è indicato "not ok" nella sezione Mirroring Status, significa che è presente un componente non funzionante e per HA System Status viene indicato "degraded". 
Uno stato "degraded" impedisce il failover tra i nodi.

Nota: questo comando non è disponibile sul nodo in standby.
 
SEhostname-p0(active:0)## ha status detailed
HA System name: hostname.chaos.local
HA System Status: highly available
Interconnect Status: ok
Primary Heartbeat Status:  ok
External LAN Heartbeat Status: not ok
Hardware compatibility check: ok
Software Version Check:   ok
 
Node hostname-p0.chaos.local:
        Role:      active
        HA State:  online
        Node Health: ok
 
Node hostname-p1.chaos.local:
        Role:     standby
        HA State: online
        Node Health: ok
 
Mirroring Status:
Component Name   Status
--------------   ------
nvram            ok
registry         ok
sms              ok
ddboost          ok
cifs             ok
--------------   ------


# enclosure show io-cards
Verificare che entrambi i nodi abbiano configurazioni supportate identiche.


# enclosure show misconfiguration
Eseguire un test di configurazione errata dal nodo attivo e dai nodi in standby per verificare l'eventuale presenza di problemi con la configurazione hardware. 
Articolo di riferimento della Knowledge Base
https://www.dell.com/support/kbdoc/en-us/463399

 
Esempi:
Memory DIMMs:
Locator Bank Locator Size(GiB) Status
------- ------------ --------- ----------
CHCD1     7     0     missing
CHDD1     7     0     missing
CHAD0     4     8     wrong size
CHBD0     4     8     wrong size
IO Cards:
Slot   Device       Status
----   ----------   ---------
10     Hera NVRAM   extra
10     Hera NVRAM   misplaced
----   ----------   ---------
CPUs:
    No misconfiguration found.
Disks:
Slot   Size(GiB)   Type   Media   Status
----   ---------   ----   -----   -------
2      186         SATA   SSD     missing
----   ---------   ----   -----   -----
 
# enclosure show topology
Controllare la topologia da entrambi i nodi. 
Cercare eventuali errori tra i punti di connessione e
assicurarsi che la numerazione di tutti gli alloggiamenti sia corretta.
- Gli errori e i guasti sono indicati con "?", "!" o "!!".
Nota: gli output della topologia per ogni nodo devono essere invertiti (immagine speculare) l'uno rispetto all'altro.
 
(Stdby:0)## enclosure show topology
Port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----   -   -------------   -   -------------   -   -------------   -   -------------
2a
2b
2c
2d     >    5.A.E: 5.A.H   ?   4.A.E: 4.A.H   >    3.A.E: 3.A.H   >    2.A.E: 2.A.H
3a
3b
3c
3d
6a     !!    2.B.E: 2.B.H   >    3.B.E: 3.B.H   >    5.B.E: 5.B.H   >    ?.B.E: ?.B.H
6b
6c
6d
----   -   -------------   -   -------------   -   -------------   -   -------------
 
(active:1)## enclosure show topology
Port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----   -   -------------   -   -------------   -   -------------   -   -------------
2a
2b
2c
2d   >    2.A.H: 2.A.E   >    3.A.H: 3.A.E   >    4.A.H: 4.A.E   >    5.A.H: 5.A.E
3a
3b
3c
3d
6a    >    5.B.H: 5.B.E   >    4.B.H: 4.B.E   >    3.B.H: 3.B.E   >    2.B.H: 2.B.E
6b
6c
6d
----   -   -------------   -   -------------   -   -------------   -   -------------
 
# enclosure test topology all duration 1
Sia dal nodo attivo che in standby, eseguire un test di diagnostica di 1 minuto per tutte le porte HBA SAS con storage esterno collegato.
Non eseguire i test della topologia contemporaneamente su entrambi i nodi. 
Il risultato previsto è "no error detected" per ogni porta con storage collegato. 
Se viene rilevato un problema, il test può interrompersi con un messaggio di errore che indica la connessione SAS in errore oppure può essere visualizzato un errore (? , ! ) in corrispondenza di un determinato collegamento
.

 
Nota: durante il test della topologia, le singole porte hanno un output separato che ne indica lo stato. Cercare gli errori (? , ! ) per individuare la connessione problematicaNon viene visualizzato alcun output della CLI fino al completamento di ciascun test delle porte. 
 
# enclosure test topology  
Started: 1471719316
Ended: 1471719498
Duration: 182
Port      enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----  -  ---------------  -  ---------------  -  ---------------  -  ---------------
2d    >    5.A.H:5.A.E    >    4.A.H:4.A.E    >    3.A.H:3.A.E    >    2.A.H:2.A.E
----  -  ---------------  -  ---------------  -  ---------------  -  ---------------
Error message:
-----------------
No error detected
-----------------

# system show nvram
Sia sul nodo attivo e che in standby, assicurarsi che le batterie Nvram siano cariche o in carica e che tutti i contatori degli errori nvram mostrino un valore pari a zero.
 
# system show nvram
NVRAM Cards:
        Card   Component                 Value
        ----   -----------------------   ----------------------------------------------------------------------
        1      Slot                      0
               Firmware version          0.0.80
               Memory size               7.93 GiB
               Errors                    0 memory (0 uncorrectable), 0 PCI, 0 controller
               Flash controller Errors   0 Cfg Err, 0 PANIC, 0 Bus Hang, 0 Bad Blk Warn, 0 Bkup Err, 0 Rstr Err
               Board temperature         37 C
               CPU temperature           47 C
               Number of batteries       1
        ----   -----------------------   ----------------------------------------------------------------------
NVRAM Batteries:
        Card   Battery   Status   Charge   Charging   Time To       Temperature   Voltage
                                           Status     Full Charge
        ----   -------   ------   ------   --------   -----------   -----------   -------
        1      1         ok       94 %     enabled    0 mins        34 C          4.016 V
        ----   -------   ------   ------   --------   -----------   -----------   -------

Resolution

Se è necessaria ulteriore assistenza, contattare il fornitore di servizi con cui è stato sottoscritto un contratto.

Additional Information

.

Affected Products

Data Domain

Products

Data Domain, DD OS 6.0
Article Properties
Article Number: 000017861
Article Type: Solution
Last Modified: 05 Jul 2024
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.