Evaluación del estado de los dispositivos Data Domain HA (DDHA)

Table of Contents

Detailed Article

Symptoms

Cause

Resolution

Additional Info

Affected Products

Provide Feedback

Summary: El objetivo de este artículo es proporcionar orientación para realizar una evaluación básica del estado del sistema de HA después de un evento de servicio. La configuración de DDHA (Data Domain Highly Available) varía según los modelos de Data Domain utilizados. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Symptoms

Los sistemas Data Domain Highly Available (DDHA) están diseñados para realizar una conmutación por error entre nodos. Solo el nodo activo está en producción mientras el nodo en espera se encuentra a la espera de un evento de falla que ocupe el lugar del nodo activo (ACTIVO - PASIVO).
Es fundamental revisar que ambos nodos de DDHA funcionen bien y, si se produce una falla, realizar una conmutación por error.
Los comandos de la CLI detallados en este artículo ayudan a detectar posibles problemas que podrían impedir una conmutación por error correcta.
Esta guía se divide en áreas clave que se deben revisar.

Hardware y configuración de HA
Network
Filesystem

Solución de problemas de red de HA

# net show settings
La configuración del puerto de red es diferente, según el nodo en el que se ejecute el comando #net show settings. Los puertos configurados en los sistemas DDHA son de tipo "floating" o "fixed". Ejecutar

 "net show settings"

en ambos nodos y compare los resultados.

Interfaces "flotantes": Verifique que todo puerto, alias o veth de tarjeta de red (NIC) configurado que muestre un estado habilitado y en ejecución en el nodo activo tenga un estado idéntico en el nodo en espera. Se espera que todo puerto, alias o veth NIC configurado en tipo flotante tenga una dirección IP que se muestre en el nodo activo y un estado N/A correspondiente en el nodo en espera.
Interfaces "fijas": Verifique que todo puerto, alias o veth NIC configurado y etiquetado como "fixed" muestre un "estado habilitado y en ejecución". Las interfaces "fijas" no tienen una configuración idéntica entre nodos
Verifique que se muestre la interconexión de HA (veth99) y que todos los puertos necesarios estén habilitados y en ejecución. Nota: La cantidad de conexiones de puerto necesarias y la ubicación de las ranuras para la interconexión de HA (veth99) son específicas del modelo de DD.

Nodo activo:

# net show settings
port     enabled   state     DHCP   IP address                             netmask          type           additional setting
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
ethMa    yes       running   no     10.25.18.50                            255.255.255.0       fixed
                                           2620:0:170:1608:260:16ff:fe5c:92bc**   /64
                                                fe80::260:16ff:fe5c:92bc**        /64
ethMb    no        down      ipv4   n/a                                           n/a          fixed
ethMc    no        down      ipv4   n/a                                           n/a          fixed
ethMd    no        down      ipv4   n/a                                           n/a          fixed
eth4a    yes       running   no     10.25.18.63                            255.255.255.0       floating
                                           2620:0:170:1608:260:16ff:fe51:8c60**   /64
                                               fe80::260:16ff:fe51:8c60**         /64
eth4b    no        down       no     n/a                                          n/a          fixed
eth4c    no        down       no     n/a                                          n/a          fixed
eth4d    no        down       no     n/a                                          n/a          fixed
eth5a    no        down       no     n/a                                          n/a          fixed
eth5b    yes       running   no     10.25.18.60                            255.255.255.0       floating
                                           2620:0:170:1608:260:16ff:fe52:2951**   /64
                                                fe80::260:16ff:fe52:2951**        /64
eth5c    no        down       no     n/a                                          n/a          fixed
eth5d    no        down       no     n/a                                          n/a          fixed
eth11a   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11b   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11c   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11d   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
veth99   yes       running   no     d:d:d:d:d:0060:1652:0ecc                 /80               interconnect   lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d
                                                 fe80::260:16ff:fe52:ecc**   /64
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------

Nodo en espera:

# net show settings
port     enabled   state     DHCP   IP address                             netmask          type           additional setting
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
ethMa    yes       running   no     10.25.18.49                            255.255.255.0    fixed
                                     2620:0:170:14567:260:16ff:fe5c:dr3**  /64
                                               fe80::260:16ff:fe5c3457c**  /64
ethMb    no        down      ipv4   n/a                                    n/a              fixed
ethMc    no        down      ipv4   n/a                                    n/a              fixed
ethMd    no        down      ipv4   n/a                                    n/a              fixed
eth4a    yes       running   no     n/a                                    255.255.255.0    floating
                                    2620:0:170:1608:260:1ght6:fe51:4570**  /64
                                               fe80::260:16ff:fe51:7890**  /64
eth4b    no        down       no     n/a                                   n/a              fixed
eth4c    no        down       no     n/a                                   n/a              fixed
eth4d    no        down       no     n/a                                   n/a              fixed
eth5a    no        down       no     n/a                                   n/a              fixed
eth5b    yes       running    no     n/a                                   255.255.255.0    floating
                                     2620:0:170:160:456:16ff:fe5234561**   /64
                                              fe80::260:16ff:fe52:3456**   /64
eth5c    no        down       no     n/a                                   n/a              fixed
eth5d    no        down       no     n/a                                   n/a              fixed
eth11a   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11b   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11c   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11d   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
veth99   yes       running    no     d:d:d:d:d:0e456:1652:dft4c            /80              interconnect   lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d
                                                 fe80::264:16ff:fec2:ecb** /64
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------

Verifique la conectividad de red.
Revise las direcciones IP que aparecen en cada nodo y asegúrese de que cada dirección IP configurada en el nodo activo y los nodos en espera pueda hacer ping a su gateway configurada.
Nota: Algunos clientes tienen el ping (ICMP) deshabilitado en su entorno. En este caso, comuníquese con el cliente para confirmar la conectividad.

(active:1)# net route show gateway detailed

IPv4 Default Gateways
gateway IP   source   tables   interface address   owner
----------   ------   ------   -----------------   -----
10.25.18.1   static   tethMa   10.25.18.50/24      none
10.25.18.1   static   teth4a   10.25.18.63/24      none
10.25.18.1   static   teth5b   10.25.18.60/24      none
----------   ------   ------   -----------------   -----

Haga ping a la dirección IP de la gateway con cada ethxx configurado.

#(active:1)# ping 10.25.18.1 interface ethMa
                                                           PING 10.25.18.1 (10.25.18.1) from 10.25.18.50 ethMa: 56(84) bytes of data.
                                                           64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=0.697 ms
(active:1)# ping 10.25.18.1 interface eth4a
                                                           PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data.
                                                           64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
(active:1)# ping 10.25.18.1 interface eth5b
                                                          PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data.
                                                          64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms

# net troubleshooting duplicate-ip
En ambos nodos, revise si hay direcciones IP duplicadas

No duplicate IP addresses detected

Pruebas de Fibre Channel
Verifique que estas funciones tengan licencia y, a continuación, póngalas a prueba para verificar que sean completamente funcionales (por ejemplo: ejecute las operaciones de respaldo de prueba en la VTL)

# license show  or # elicense show

##   License Key           Feature
--   -------------------   ----------------------------------------
1    WTXV-TSWX-HWDR-RHDX  VTL
2    EZXW-SZZF-BGCS-VRZX   Block services (Vdisk)
3 .... HA

Pruebas de alertas y soporte automático tanto activas como en espera

 (active:1)## autosupport test alert-summary
                              OK: Message sent.
 (active:1)## autosupport test support-notify
                              OK: Message sent.
 
 (standby:0)# autosupport test alert-summary
                              OK: Message sent.
 (standby:0)# autosupport test support-notify
                              OK: Message sent.

En caso de que se utilice CONNECTEMC (Secure Remote Services) para reenviar ASUPS a Data Domain, utilice el siguiente comando con el fin de verificar la conectividad en ambos nodos.
La marca de tiempo indica cuándo se estableció la conexión más reciente.

sysadmin@hostname# support connectemc show history
File Time Transport Result
--------------------------------------- --------------------- --------- --------
RSC_CKM00XXX601153_120315_092804166.xml "2015-12-03 09:28:07" HTTP Success
RSC_CKM00XXX601153_120315_101257767.xml "2015-12-03 10:13:00" HTTP Success
RSC_CKM00XXX601153_120315_111649065.xml "2015-12-03 11:16:53" HTTP Success
--------------------------------------- --------------------- --------- --------
Note: It says HTTP above, but it is HTTPS

Solución de problemas del sistema de archivos de HA

# filesys status
Verifique que el FS esté habilitado y en ejecución. También es posible que aparezca el estado de limpieza.

The filesystem is enabled and running.
Cleaning started at 2016/08/20 14:12:16: phase 1 of 12 (pre-merge)
  0.7% complete, 95911 GiB free; time: phase  0:00:09, total  0:00:09

(active:1)#(standby:0)# system upgrade status
En ambos nodos, verifique que se hayan completado todas las actualizaciones.

Current Upgrade Status: DD OS upgrade Succeeded
End time: 2016.08.20:13:27

(active:1)#(standby:0)#Date
Asegúrese de que la fecha y la hora coincidan en ambos nodos en un plazo de 10 s

-p1(active:1)# date
Sat Aug 20 14:34:29 EDT 2016
-p0(standby:0)# date
Sat Aug 20 14:34:17 EDT 2016

En Active node, verifique con el cliente que la replicación de DD (si está configurada) funcione según lo previsto.

# replication status
CTX   Destination                                                 Enabled   Connection         Sync'ed-as-of-time
---   ---------------------------------------------------------   -------   ----------------   ------------------
3     mtree://ddxxx.com/data/col1/eric.dest                        no        idle               Fri Nov  6 15:16
4     mtree://ddxxx.com/data/col1/thy-repl                         yes       idle               Fri Jul 22 15:38
5     dir://ddxxxx.com/backup/replicate-rtp                        yes       disconnected       Fri Jul 22 14:55
6     mtree://ddxxxx.com/data/col1/theman_test                     yes       idle               Sat Aug 20 22:11
7     dir://ddxxx.com/backup/lakeland/sym                          yes       Sat Aug 20 13:15   Fri Aug 19 15:09
---   ---------------------------------------------------------   -------   ----------------   ----------------

Cause

Hardware y configuración de HA

# alerts show current

Tanto en el nodo activo como en el nodo en espera, revise si hay una alerta activa que indique un posible problema. Las alertas no siempre se comparten entre nodos, por lo tanto, revise ambos nodos. Si se encuentra un problema inesperado, presente un caso de soporte. Genere siempre un paquete de soporte de ambos nodos.
Nota. La mayoría de las alertas se ven solo en uno de los nodos. No todas las alertas se comparten entre nodos.

Ejemplos de alertas:

Severity   Class             Object   Message
   --------   ---------------   ------   ----------------------------------------------
CRITICAL      HardwareFailure            EVT-ENVIRONMENT-00049: The system detected an invalid hardware configuration.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
CRITICAL      HardwareFailure            EVT-ENVIRONMENT-00048: Filesystem can't be enabled due to an invalid hardware configuration.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING       HardwareFailure            Enclosure=1:Slot=5   EVT-ENVIRONMENT-00047: PCI communication speed is degraded
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING             HA                   EVT-HA-00003: Standby node time is off by 15 second(s).
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING    HardwareFailure   Port Index=1   EVT-MPATH-00003: Missing disk connection from system port 6a.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------

# ha status

El comando #ha status en el nodo activo y el nodo en espera se puede utilizar para determinar el estado actual de HA.
Si el estado es "highly available", se habilita la conmutación por error.
Si el estado es "degraded" o uno de los nodos no muestra el estado "online", la conmutación por error entre nodos está deshabilitada.

SE@hostname-p0(active:0)## ha status
HA System name:hostname-n1.chaos.local
HA System status: highly available
 
Node Name                         Node id   Role      HA State
-------------------------------   -------   -------   --------
hostname-p0.chaos.local   0         active    online
hostname-p1.chaos.local   1         standby   online
-------------------------------   -------   -------   --------

# ha status
El comando #ha status detallado en el nodo activo solo se puede utilizar para obtener información más detallada sobre el estado de HA.
Cualquiera de los siguientes resultados que indican "no ok" en la sección Mirroring Status indica que un componente no funciona y HA System Status aparece como "degraded".
Cualquier estado degradado impide la conmutación por error entre nodos.
Nota: Este comando no está disponible en el nodo en espera.

SEhostname-p0(active:0)## ha status detailed
HA System name: hostname.chaos.local
HA System Status: highly available
Interconnect Status: ok
Primary Heartbeat Status:  ok
External LAN Heartbeat Status: not ok
Hardware compatibility check: ok
Software Version Check:   ok
 
Node hostname-p0.chaos.local:
        Role:      active
        HA State:  online
        Node Health: ok
 
Node hostname-p1.chaos.local:
        Role:     standby
        HA State: online
        Node Health: ok
 
Mirroring Status:
Component Name   Status
--------------   ------
nvram            ok
registry         ok
sms              ok
ddboost          ok
cifs             ok
--------------   ------

# enclosure show io-cards
Verifique que ambos nodos tengan ajustes idénticos y soportados.

# enclosure show misconfiguration
Realice una prueba de configuración incorrecta en los nodos activo y en espera para comprobar si hay algún problema con la configuración del hardware.
Consulte el artículo de la base de conocimientos https://www.dell.com/support/kbdoc/en-us/463399

Ejemplos:

Memory DIMMs:
Locator Bank Locator Size(GiB) Status
------- ------------ --------- ----------
CHCD1     7     0     missing
CHDD1     7     0     missing
CHAD0     4     8     wrong size
CHBD0     4     8     wrong size
IO Cards:
Slot   Device       Status
----   ----------   ---------
10     Hera NVRAM   extra
10     Hera NVRAM   misplaced
----   ----------   ---------
CPUs:
    No misconfiguration found.
Disks:
Slot   Size(GiB)   Type   Media   Status
----   ---------   ----   -----   -------
2      186         SATA   SSD     missing
----   ---------   ----   -----   -----

# enclosure show topology
Consulte la topología de ambos nodos.
Busque cualquier error entre los puntos de conexión y asegúrese de que la numeración de todas las bandejas sea la correcta.

- Los errores y los fallos se simbolizan con “?”, “!” O “!!”

Nota: Esos resultados de topología de cada nodo deben invertirse (imagen reflejada) entre sí.

(Stdby:0)## enclosure show topology

Port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----   -   -------------   -   -------------   -   -------------   -   -------------
2a
2b
2c
2d     >    5.A.E: 5.A.H   ?   4.A.E: 4.A.H   >    3.A.E: 3.A.H   >    2.A.E: 2.A.H
3a
3b
3c
3d
6a     !!    2.B.E: 2.B.H   >    3.B.E: 3.B.H   >    5.B.E: 5.B.H   >    ?.B.E: ?.B.H
6b
6c
6d
----   -   -------------   -   -------------   -   -------------   -   -------------

(active:1)## enclosure show topology

Port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----   -   -------------   -   -------------   -   -------------   -   -------------
2a
2b
2c
2d   >    2.A.H: 2.A.E   >    3.A.H: 3.A.E   >    4.A.H: 4.A.E   >    5.A.H: 5.A.E
3a
3b
3c
3d
6a    >    5.B.H: 5.B.E   >    4.B.H: 4.B.E   >    3.B.H: 3.B.E   >    2.B.H: 2.B.E
6b
6c
6d
----   -   -------------   -   -------------   -   -------------   -   -------------

# enclosure test topology all duration 1
En los nodos activo y en espera, realice una prueba de diagnóstico de 1 minuto en todos los puertos HBA SAS con almacenamiento externo conectado.
No ejecute pruebas de topología en ambos nodos simultáneamente.
El resultado esperado es que no se detecte ningún error en los puertos con almacenamiento conectado.
Si se encuentra un problema, la prueba puede detenerse con un mensaje de falla en que se indique que la conexión SAS tiene una falla o es posible que muestre un error (? , ! ) en una conexión determinada.

Nota: Durante la prueba de topología, los puertos individuales tienen un resultado independiente en que se indica el estado. Busque errores (? , ! ) para detectar la conexión con problemas. No se muestra ningún resultado de la CLI hasta que se completa cada prueba de puerto.

# enclosure test topology  
Started: 1471719316
Ended: 1471719498
Duration: 182
Port      enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----  -  ---------------  -  ---------------  -  ---------------  -  ---------------
2d    >    5.A.H:5.A.E    >    4.A.H:4.A.E    >    3.A.H:3.A.E    >    2.A.H:2.A.E
----  -  ---------------  -  ---------------  -  ---------------  -  ---------------
Error message:
-----------------
No error detected
-----------------

# system show nvram
En los nodos activo y en espera, asegúrese de que las baterías NVRAM estén cargadas o en proceso de carga, y de que todos los contadores de errores de NVRAM muestren un valor de cero.

# system show nvram
NVRAM Cards:
        Card   Component                 Value
        ----   -----------------------   ----------------------------------------------------------------------
        1      Slot                      0
               Firmware version          0.0.80
               Memory size               7.93 GiB
               Errors                    0 memory (0 uncorrectable), 0 PCI, 0 controller
               Flash controller Errors   0 Cfg Err, 0 PANIC, 0 Bus Hang, 0 Bad Blk Warn, 0 Bkup Err, 0 Rstr Err
               Board temperature         37 C
               CPU temperature           47 C
               Number of batteries       1
        ----   -----------------------   ----------------------------------------------------------------------
NVRAM Batteries:
        Card   Battery   Status   Charge   Charging   Time To       Temperature   Voltage
                                           Status     Full Charge
        ----   -------   ------   ------   --------   -----------   -----------   -------
        1      1         ok       94 %     enabled    0 mins        34 C          4.016 V
        ----   -------   ------   ------   --------   -----------   -----------   -------

Resolution

Si necesita asistencia adicional, comuníquese con el proveedor de servicio contratado.

Additional Information

Affected Products

Data Domain

Products

Data Domain, DD OS 6.0

Article Number: 000017861

Article Type: Solution

Last Modified: 05 Jul 2024

Version: 3

Check if your device is covered by Support Services.

Evaluación del estado de los dispositivos Data Domain HA (DDHA)

Summary: El objetivo de este artículo es proporcionar orientación para realizar una evaluación básica del estado del sistema de HA después de un evento de servicio. La configuración de DDHA (Data Domain Highly Available) varía según los modelos de Data Domain utilizados. ...

Symptoms

Cause

Resolution

Additional Information

Affected Products

Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services