Verificação de integridade de equipamentos Data Domain HA (DDHA)

Summary: Este artigo tem como objetivo fornecer orientações para executar uma verificação básica de integridade do sistema HA após um evento de serviço. As configurações do Data Domain Highly Available (DDHA) variam de acordo com os modelos do Data Domain usados. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Os sistemas Data Domain Highly Available (DDHA) foram desenvolvidos para fazer failover entre os nós.  Somente o nó ativo está em produção enquanto o nó em espera aguarda um evento de falha para tomar o lugar do nó ativo (ATIVO - PASSIVO). 
É imprescindível verificar se ambos os nós do DDHA estão funcionando de forma correta e podem concluir um failover, caso ocorra uma falha. 
Os comandos da CLI detalhados neste artigo ajudam a descobrir possíveis problemas que podem impedir um failover bem-sucedido. 
Este guia está dividido por áreas importantes que devem ser verificadas.
  • Hardware e configuração de HA
  • Rede
  • Filesystem
Solução de problemas de rede de HA
 
# net show settings  
As configurações de porta de rede variam de acordo com o nó em que o comando #net show settings está sendo executado. As portas configuradas nos sistemas DDHA têm o tipo "floating" ou "fixed".  Execute
 "net show settings"
nos dois nós e compare as saídas.
  1. Interfaces "floating":  Verifique se qualquer porta de Placa de Rede (NIC) configurada, alias ou veth, que exibe um estado "enabled" e "running" no nó ativo, tem um estado "enabled" e "running" idêntico no nó em espera.  Qualquer porta NIC configurada, alias ou veth, que esteja definida com o tipo "floating", deve ter um endereço IP exibido no nó ativo e um N/A correspondente no nó em espera. 
  2. Interfaces "fixed": Verifique se alguma porta NIC configurada, alias ou veth, que esteja marcada como "fixed", exibe um estado "enabled" e "running". As configurações das interfaces "fixed" não são iguais nos dois nós
  3. Verifique se a interconexão de HA (veth99) é exibida e se todas as portas necessárias estão ativadas e em execução. Nota:  O número de conexões de porta necessárias e a localização do slot para a interconexão de HA (veth99) são específicos do modelo DD

Nó ativo:
# net show settings
port     enabled   state     DHCP   IP address                             netmask          type           additional setting
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
ethMa    yes       running   no     10.25.18.50                            255.255.255.0       fixed
                                           2620:0:170:1608:260:16ff:fe5c:92bc**   /64
                                                fe80::260:16ff:fe5c:92bc**        /64
ethMb    no        down      ipv4   n/a                                           n/a          fixed
ethMc    no        down      ipv4   n/a                                           n/a          fixed
ethMd    no        down      ipv4   n/a                                           n/a          fixed
eth4a    yes       running   no     10.25.18.63                            255.255.255.0       floating
                                           2620:0:170:1608:260:16ff:fe51:8c60**   /64
                                               fe80::260:16ff:fe51:8c60**         /64
eth4b    no        down       no     n/a                                          n/a          fixed
eth4c    no        down       no     n/a                                          n/a          fixed
eth4d    no        down       no     n/a                                          n/a          fixed
eth5a    no        down       no     n/a                                          n/a          fixed
eth5b    yes       running   no     10.25.18.60                            255.255.255.0       floating
                                           2620:0:170:1608:260:16ff:fe52:2951**   /64
                                                fe80::260:16ff:fe52:2951**        /64
eth5c    no        down       no     n/a                                          n/a          fixed
eth5d    no        down       no     n/a                                          n/a          fixed
eth11a   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11b   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11c   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11d   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
veth99   yes       running   no     d:d:d:d:d:0060:1652:0ecc                 /80               interconnect   lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d
                                                 fe80::260:16ff:fe52:ecc**   /64
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
em espera:
# net show settings
port     enabled   state     DHCP   IP address                             netmask          type           additional setting
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
ethMa    yes       running   no     10.25.18.49                            255.255.255.0    fixed
                                     2620:0:170:14567:260:16ff:fe5c:dr3**  /64
                                               fe80::260:16ff:fe5c3457c**  /64
ethMb    no        down      ipv4   n/a                                    n/a              fixed
ethMc    no        down      ipv4   n/a                                    n/a              fixed
ethMd    no        down      ipv4   n/a                                    n/a              fixed
eth4a    yes       running   no     n/a                                    255.255.255.0    floating
                                    2620:0:170:1608:260:1ght6:fe51:4570**  /64
                                               fe80::260:16ff:fe51:7890**  /64
eth4b    no        down       no     n/a                                   n/a              fixed
eth4c    no        down       no     n/a                                   n/a              fixed
eth4d    no        down       no     n/a                                   n/a              fixed
eth5a    no        down       no     n/a                                   n/a              fixed
eth5b    yes       running    no     n/a                                   255.255.255.0    floating
                                     2620:0:170:160:456:16ff:fe5234561**   /64
                                              fe80::260:16ff:fe52:3456**   /64
eth5c    no        down       no     n/a                                   n/a              fixed
eth5d    no        down       no     n/a                                   n/a              fixed
eth11a   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11b   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11c   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11d   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
veth99   yes       running    no     d:d:d:d:d:0e456:1652:dft4c            /80              interconnect   lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d
                                                 fe80::264:16ff:fec2:ecb** /64
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
 
Verifique a conectividade de rede.
Analise os IPs listados em cada nó e certifique-se de que cada endereço IP configurado no nó ativo e nos nós em espera possa fazer ping no próprio gateway configurado. 
Nota: O ping no ambiente de alguns clientes (ICMP) está desativado.  Nesse caso, peça para o cliente confirmar a conectividade.

 
(active:1)# net route show gateway detailed 
IPv4 Default Gateways
gateway IP   source   tables   interface address   owner
----------   ------   ------   -----------------   -----
10.25.18.1   static   tethMa   10.25.18.50/24      none
10.25.18.1   static   teth4a   10.25.18.63/24      none
10.25.18.1   static   teth5b   10.25.18.60/24      none
----------   ------   ------   -----------------   -----

Faça ping no endereço IP do gateway com cada porta ethxx configurada.
 
#(active:1)# ping 10.25.18.1 interface ethMa
                                                           PING 10.25.18.1 (10.25.18.1) from 10.25.18.50 ethMa: 56(84) bytes of data.
                                                           64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=0.697 ms
(active:1)# ping 10.25.18.1 interface eth4a
                                                           PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data.
                                                           64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
(active:1)# ping 10.25.18.1 interface eth5b
                                                          PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data.
                                                          64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
 
# net troubleshooting duplicate-ip
Verifique se há IPs duplicados nos dois nós
No duplicate IP addresses detected

Testes de fibre channel
Verifique se esses recursos estão licenciados e, em seguida, verifique se eles estão funcionando totalmente (por exemplo: Executar um teste de operações de backup na VTL)
# license show  or # elicense show

##   License Key           Feature
--   -------------------   ----------------------------------------
1    WTXV-TSWX-HWDR-RHDX  VTL
2    EZXW-SZZF-BGCS-VRZX   Block services (Vdisk)
3 .... HA

Suporte automático e testes de alerta no nó ativo e no nó em espera
 
 (active:1)## autosupport test alert-summary
                              OK: Message sent.
 (active:1)## autosupport test support-notify
                              OK: Message sent.
 
 (standby:0)# autosupport test alert-summary
                              OK: Message sent.
 (standby:0)# autosupport test support-notify
                              OK: Message sent.


Caso CONNECTEMC (Secure Remote Services) esteja sendo usado para encaminhar o ASUPS ao Data Domain, execute o comando a seguir para verificar a conectividade nos dois nós.
O carimbo de data e hora indica quando a última conexão foi estabelecida.
sysadmin@hostname# support connectemc show history
File Time Transport Result
--------------------------------------- --------------------- --------- --------
RSC_CKM00XXX601153_120315_092804166.xml "2015-12-03 09:28:07" HTTP Success
RSC_CKM00XXX601153_120315_101257767.xml "2015-12-03 10:13:00" HTTP Success
RSC_CKM00XXX601153_120315_111649065.xml "2015-12-03 11:16:53" HTTP Success
--------------------------------------- --------------------- --------- --------
Note: It says HTTP above, but it is HTTPS

Solução de problemas do Filesystem do HA
 
# filesys status
Verifique se o FS está ativado e em execução. O status de limpeza também pode ser exibido.
The filesystem is enabled and running.
Cleaning started at 2016/08/20 14:12:16: phase 1 of 12 (pre-merge)
  0.7% complete, 95911 GiB free; time: phase  0:00:09, total  0:00:09

 
(active:1)# (standby:0)# system upgrade status
Verifique se todos os upgrades foram concluídos nos dois nós.
Current Upgrade Status: DD OS upgrade Succeeded
End time: 2016.08.20:13:27
 
(active:1)# (standby:0)#Date
Certifique-se de que a hora e a data correspondam nos dois nós. Uma diferença de até 10 segundos é permitida
-p1(active:1)# date
Sat Aug 20 14:34:29 EDT 2016
-p0(standby:0)# date
Sat Aug 20 14:34:17 EDT 2016

No nó ativo, verifique com o cliente se a replicação do DD (se configurada) está funcionando conforme o esperado.
# replication status
CTX   Destination                                                 Enabled   Connection         Sync'ed-as-of-time
---   ---------------------------------------------------------   -------   ----------------   ------------------
3     mtree://ddxxx.com/data/col1/eric.dest                        no        idle               Fri Nov  6 15:16
4     mtree://ddxxx.com/data/col1/thy-repl                         yes       idle               Fri Jul 22 15:38
5     dir://ddxxxx.com/backup/replicate-rtp                        yes       disconnected       Fri Jul 22 14:55
6     mtree://ddxxxx.com/data/col1/theman_test                     yes       idle               Sat Aug 20 22:11
7     dir://ddxxx.com/backup/lakeland/sym                          yes       Sat Aug 20 13:15   Fri Aug 19 15:09
---   ---------------------------------------------------------   -------   ----------------   ----------------

Cause

Hardware e configuração de HA
 
# alerts show current

No nó ativo e no nó em espera, verifique se há um alerta presente apontando para um possível problema. Os alertas nem sempre são compartilhados entre os nós, portanto, verifique os dois nós.  Se um problema inesperado for identificado, registre um caso de suporte. Sempre gere um pacote de suporte de ambos os nós.
Nota.  A maioria dos alertas são exibidos em apenas um dos nós. Nem todos os alertas aparecem nos dois nós.
 

Exemplos de alertas:

Severity   Class             Object   Message
   --------   ---------------   ------   ----------------------------------------------
CRITICAL      HardwareFailure            EVT-ENVIRONMENT-00049: The system detected an invalid hardware configuration.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
CRITICAL      HardwareFailure            EVT-ENVIRONMENT-00048: Filesystem can't be enabled due to an invalid hardware configuration.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING       HardwareFailure            Enclosure=1:Slot=5   EVT-ENVIRONMENT-00047: PCI communication speed is degraded
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING             HA                   EVT-HA-00003: Standby node time is off by 15 second(s).
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING    HardwareFailure   Port Index=1   EVT-MPATH-00003: Missing disk connection from system port 6a.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------

 

# ha status

O comando #ha status no nó ativo e no nó em espera pode ser usado para determinar o status atual de HA.
Se o status for "highly available", o failover será habilitado. 
Se o status for "degraded" ou se um dos nós não estiver mostrando o estado "online", o failover entre os nós será desativado.

 
SE@hostname-p0(active:0)## ha status
HA System name:hostname-n1.chaos.local
HA System status: highly available
 
Node Name                         Node id   Role      HA State
-------------------------------   -------   -------   --------
hostname-p0.chaos.local   0         active    online
hostname-p1.chaos.local   1         standby   online
-------------------------------   -------   -------   --------

# ha status detailed
O comando #ha status detailed no nó ativo pode ser usado apenas para obter informações mais detalhadas sobre o status de HA.
Qualquer uma das saídas abaixo que mostram "not ok" na seção "Mirroring Status" indica um componente que não funciona, e "HA System Status" exibe "degraded". 
Qualquer estado "degraded" impede o failover entre os nós.

Nota: Esse comando não está disponível no nó em espera.
 
SEhostname-p0(active:0)## ha status detailed
HA System name: hostname.chaos.local
HA System Status: highly available
Interconnect Status: ok
Primary Heartbeat Status:  ok
External LAN Heartbeat Status: not ok
Hardware compatibility check: ok
Software Version Check:   ok
 
Node hostname-p0.chaos.local:
        Role:      active
        HA State:  online
        Node Health: ok
 
Node hostname-p1.chaos.local:
        Role:     standby
        HA State: online
        Node Health: ok
 
Mirroring Status:
Component Name   Status
--------------   ------
nvram            ok
registry         ok
sms              ok
ddboost          ok
cifs             ok
--------------   ------


# enclosure show io-cards
Verifique se os dois nós têm configurações idênticas e compatíveis.


# enclosure show misconfiguration
Realize um teste de configuração incorreta no nó ativo e nos nós em espera para verificar se há algum problema com a configuração de hardware. 
Consulte o artigo da KB
https://www.dell.com/support/kbdoc/en-us/463399

 
Exemplos:
Memory DIMMs:
Locator Bank Locator Size(GiB) Status
------- ------------ --------- ----------
CHCD1     7     0     missing
CHDD1     7     0     missing
CHAD0     4     8     wrong size
CHBD0     4     8     wrong size
IO Cards:
Slot   Device       Status
----   ----------   ---------
10     Hera NVRAM   extra
10     Hera NVRAM   misplaced
----   ----------   ---------
CPUs:
    No misconfiguration found.
Disks:
Slot   Size(GiB)   Type   Media   Status
----   ---------   ----   -----   -------
2      186         SATA   SSD     missing
----   ---------   ----   -----   -----
 
# enclosure show topology
Verifique a topologia dos dois nós. 
Procure erros entre os pontos de conexão e
 certifique-se de que toda a numeração da gaveta esteja correta.
- Erros e falhas apresentam os símbolos "?", "!" Ou "!!"
Nota: As saídas de topologia para cada nó devem estar invertidas (imagem espelhada).
 
(Stdby:0)## enclosure show topology
Port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----   -   -------------   -   -------------   -   -------------   -   -------------
2a
2b
2c
2d     >    5.A.E: 5.A.H   ?   4.A.E: 4.A.H   >    3.A.E: 3.A.H   >    2.A.E: 2.A.H
3a
3b
3c
3d
6a     !!    2.B.E: 2.B.H   >    3.B.E: 3.B.H   >    5.B.E: 5.B.H   >    ?.B.E: ?.B.H
6b
6c
6d
----   -   -------------   -   -------------   -   -------------   -   -------------
 
(active:1)## enclosure show topology
Port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----   -   -------------   -   -------------   -   -------------   -   -------------
2a
2b
2c
2d   >    2.A.H: 2.A.E   >    3.A.H: 3.A.E   >    4.A.H: 4.A.E   >    5.A.H: 5.A.E
3a
3b
3c
3d
6a    >    5.B.H: 5.B.E   >    4.B.H: 4.B.E   >    3.B.H: 3.B.E   >    2.B.H: 2.B.E
6b
6c
6d
----   -   -------------   -   -------------   -   -------------   -   -------------
 
# enclosure test topology all duration 1
Nos nós ativos e em espera, realize um teste de diagnóstico de 1 minuto para todas as portas HBA SAS com armazenamento externo vinculado.
Não realize testes de topologia nos dois nós ao mesmo tempo. 
O resultado esperado é que nenhum erro seja detectado nas portas com armazenamento vinculado. 
Se um problema for encontrado, o teste poderá ser interrompido com uma mensagem de falha indicando a conexão SAS com falha ou pode mostrar um erro (? , ! ) em uma conexão específica
.

 
Nota: Durante o teste de topologia, portas individuais têm uma saída separada indicando o estado. Procure por erros (? , ! ) para identificar a conexão com problemaNenhuma saída da CLI é mostrada até que cada teste de porta seja concluído. 
 
# enclosure test topology  
Started: 1471719316
Ended: 1471719498
Duration: 182
Port      enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----  -  ---------------  -  ---------------  -  ---------------  -  ---------------
2d    >    5.A.H:5.A.E    >    4.A.H:4.A.E    >    3.A.H:3.A.E    >    2.A.H:2.A.E
----  -  ---------------  -  ---------------  -  ---------------  -  ---------------
Error message:
-----------------
No error detected
-----------------

# system show nvram
Nos nós ativos e em espera, verifique se as baterias da NVRAM estão carregadas ou sendo carregadas e se todos os contadores de erro da NVRAM mostram um valor zero.
 
# system show nvram
NVRAM Cards:
        Card   Component                 Value
        ----   -----------------------   ----------------------------------------------------------------------
        1      Slot                      0
               Firmware version          0.0.80
               Memory size               7.93 GiB
               Errors                    0 memory (0 uncorrectable), 0 PCI, 0 controller
               Flash controller Errors   0 Cfg Err, 0 PANIC, 0 Bus Hang, 0 Bad Blk Warn, 0 Bkup Err, 0 Rstr Err
               Board temperature         37 C
               CPU temperature           47 C
               Number of batteries       1
        ----   -----------------------   ----------------------------------------------------------------------
NVRAM Batteries:
        Card   Battery   Status   Charge   Charging   Time To       Temperature   Voltage
                                           Status     Full Charge
        ----   -------   ------   ------   --------   -----------   -----------   -------
        1      1         ok       94 %     enabled    0 mins        34 C          4.016 V
        ----   -------   ------   ------   --------   -----------   -----------   -------

Resolution

Se precisar de mais assistência, entre em contato com o provedor de serviços contratado.

Additional Information

.

Affected Products

Data Domain

Products

Data Domain, DD OS 6.0
Article Properties
Article Number: 000017861
Article Type: Solution
Last Modified: 05 Jul 2024
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.