Evaluación del estado de los dispositivos Data Domain HA (DDHA)
Summary: El objetivo de este artículo es proporcionar orientación para realizar una evaluación básica del estado del sistema de HA después de un evento de servicio. La configuración de DDHA (Data Domain Highly Available) varía según los modelos de Data Domain utilizados. ...
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
Los sistemas Data Domain Highly Available (DDHA) están diseñados para realizar una conmutación por error entre nodos. Solo el nodo activo está en producción mientras el nodo en espera se encuentra a la espera de un evento de falla que ocupe el lugar del nodo activo (ACTIVO - PASIVO).
Es fundamental revisar que ambos nodos de DDHA funcionen bien y, si se produce una falla, realizar una conmutación por error.
Los comandos de la CLI detallados en este artículo ayudan a detectar posibles problemas que podrían impedir una conmutación por error correcta.
Esta guía se divide en áreas clave que se deben revisar.
# net show settings
La configuración del puerto de red es diferente, según el nodo en el que se ejecute el comando #net show settings. Los puertos configurados en los sistemas DDHA son de tipo "floating" o "fixed". Ejecutar
Nodo activo:
Verifique la conectividad de red.
Revise las direcciones IP que aparecen en cada nodo y asegúrese de que cada dirección IP configurada en el nodo activo y los nodos en espera pueda hacer ping a su gateway configurada.
Nota: Algunos clientes tienen el ping (ICMP) deshabilitado en su entorno. En este caso, comuníquese con el cliente para confirmar la conectividad.
(active:1)# net route show gateway detailed
Haga ping a la dirección IP de la gateway con cada ethxx configurado.
# net troubleshooting duplicate-ip
En ambos nodos, revise si hay direcciones IP duplicadas
Pruebas de Fibre Channel
Verifique que estas funciones tengan licencia y, a continuación, póngalas a prueba para verificar que sean completamente funcionales (por ejemplo: ejecute las operaciones de respaldo de prueba en la VTL)
Pruebas de alertas y soporte automático tanto activas como en espera
En caso de que se utilice CONNECTEMC (Secure Remote Services) para reenviar ASUPS a Data Domain, utilice el siguiente comando con el fin de verificar la conectividad en ambos nodos.
La marca de tiempo indica cuándo se estableció la conexión más reciente.
Solución de problemas del sistema de archivos de HA
# filesys status
Verifique que el FS esté habilitado y en ejecución. También es posible que aparezca el estado de limpieza.
(active:1)#(standby:0)# system upgrade status
En ambos nodos, verifique que se hayan completado todas las actualizaciones.
(active:1)#(standby:0)#Date
Asegúrese de que la fecha y la hora coincidan en ambos nodos en un plazo de 10 s
En Active node, verifique con el cliente que la replicación de DD (si está configurada) funcione según lo previsto.
Es fundamental revisar que ambos nodos de DDHA funcionen bien y, si se produce una falla, realizar una conmutación por error.
Los comandos de la CLI detallados en este artículo ayudan a detectar posibles problemas que podrían impedir una conmutación por error correcta.
Esta guía se divide en áreas clave que se deben revisar.
- Hardware y configuración de HA
- Network
- Filesystem
# net show settings
La configuración del puerto de red es diferente, según el nodo en el que se ejecute el comando #net show settings. Los puertos configurados en los sistemas DDHA son de tipo "floating" o "fixed". Ejecutar
"net show settings"en ambos nodos y compare los resultados.
- Interfaces "flotantes": Verifique que todo puerto, alias o veth de tarjeta de red (NIC) configurado que muestre un estado habilitado y en ejecución en el nodo activo tenga un estado idéntico en el nodo en espera. Se espera que todo puerto, alias o veth NIC configurado en tipo flotante tenga una dirección IP que se muestre en el nodo activo y un estado N/A correspondiente en el nodo en espera.
- Interfaces "fijas": Verifique que todo puerto, alias o veth NIC configurado y etiquetado como "fixed" muestre un "estado habilitado y en ejecución". Las interfaces "fijas" no tienen una configuración idéntica entre nodos
- Verifique que se muestre la interconexión de HA (veth99) y que todos los puertos necesarios estén habilitados y en ejecución. Nota: La cantidad de conexiones de puerto necesarias y la ubicación de las ranuras para la interconexión de HA (veth99) son específicas del modelo de DD.
Nodo activo:
# net show settings port enabled state DHCP IP address netmask type additional setting ------ ------- ------- ---- ------------------------------------ -------------- ------------ ----------------------------------------------- ethMa yes running no 10.25.18.50 255.255.255.0 fixed 2620:0:170:1608:260:16ff:fe5c:92bc** /64 fe80::260:16ff:fe5c:92bc** /64 ethMb no down ipv4 n/a n/a fixed ethMc no down ipv4 n/a n/a fixed ethMd no down ipv4 n/a n/a fixed eth4a yes running no 10.25.18.63 255.255.255.0 floating 2620:0:170:1608:260:16ff:fe51:8c60** /64 fe80::260:16ff:fe51:8c60** /64 eth4b no down no n/a n/a fixed eth4c no down no n/a n/a fixed eth4d no down no n/a n/a fixed eth5a no down no n/a n/a fixed eth5b yes running no 10.25.18.60 255.255.255.0 floating 2620:0:170:1608:260:16ff:fe52:2951** /64 fe80::260:16ff:fe52:2951** /64 eth5c no down no n/a n/a fixed eth5d no down no n/a n/a fixed eth11a yes running n/a n/a n/a interconnect bonded to veth99 eth11b yes running n/a n/a n/a interconnect bonded to veth99 eth11c yes running n/a n/a n/a interconnect bonded to veth99 eth11d yes running n/a n/a n/a interconnect bonded to veth99 veth99 yes running no d:d:d:d:d:0060:1652:0ecc /80 interconnect lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d fe80::260:16ff:fe52:ecc** /64 ------ ------- ------- ---- ------------------------------------ -------------- ------------ -----------------------------------------------Nodo en espera:
# net show settings port enabled state DHCP IP address netmask type additional setting ------ ------- ------- ---- ------------------------------------ -------------- ------------ ----------------------------------------------- ethMa yes running no 10.25.18.49 255.255.255.0 fixed 2620:0:170:14567:260:16ff:fe5c:dr3** /64 fe80::260:16ff:fe5c3457c** /64 ethMb no down ipv4 n/a n/a fixed ethMc no down ipv4 n/a n/a fixed ethMd no down ipv4 n/a n/a fixed eth4a yes running no n/a 255.255.255.0 floating 2620:0:170:1608:260:1ght6:fe51:4570** /64 fe80::260:16ff:fe51:7890** /64 eth4b no down no n/a n/a fixed eth4c no down no n/a n/a fixed eth4d no down no n/a n/a fixed eth5a no down no n/a n/a fixed eth5b yes running no n/a 255.255.255.0 floating 2620:0:170:160:456:16ff:fe5234561** /64 fe80::260:16ff:fe52:3456** /64 eth5c no down no n/a n/a fixed eth5d no down no n/a n/a fixed eth11a yes running n/a n/a n/a interconnect bonded to veth99 eth11b yes running n/a n/a n/a interconnect bonded to veth99 eth11c yes running n/a n/a n/a interconnect bonded to veth99 eth11d yes running n/a n/a n/a interconnect bonded to veth99 veth99 yes running no d:d:d:d:d:0e456:1652:dft4c /80 interconnect lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d fe80::264:16ff:fec2:ecb** /64 ------ ------- ------- ---- ------------------------------------ -------------- ------------ -----------------------------------------------
Verifique la conectividad de red.
Revise las direcciones IP que aparecen en cada nodo y asegúrese de que cada dirección IP configurada en el nodo activo y los nodos en espera pueda hacer ping a su gateway configurada.
Nota: Algunos clientes tienen el ping (ICMP) deshabilitado en su entorno. En este caso, comuníquese con el cliente para confirmar la conectividad.
(active:1)# net route show gateway detailed
IPv4 Default Gateways gateway IP source tables interface address owner ---------- ------ ------ ----------------- ----- 10.25.18.1 static tethMa 10.25.18.50/24 none 10.25.18.1 static teth4a 10.25.18.63/24 none 10.25.18.1 static teth5b 10.25.18.60/24 none ---------- ------ ------ ----------------- -----
Haga ping a la dirección IP de la gateway con cada ethxx configurado.
#(active:1)# ping 10.25.18.1 interface ethMa PING 10.25.18.1 (10.25.18.1) from 10.25.18.50 ethMa: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=0.697 ms (active:1)# ping 10.25.18.1 interface eth4a PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms (active:1)# ping 10.25.18.1 interface eth5b PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
# net troubleshooting duplicate-ip
En ambos nodos, revise si hay direcciones IP duplicadas
No duplicate IP addresses detected
Pruebas de Fibre Channel
Verifique que estas funciones tengan licencia y, a continuación, póngalas a prueba para verificar que sean completamente funcionales (por ejemplo: ejecute las operaciones de respaldo de prueba en la VTL)
# license show or # elicense show ## License Key Feature -- ------------------- ---------------------------------------- 1 WTXV-TSWX-HWDR-RHDX VTL 2 EZXW-SZZF-BGCS-VRZX Block services (Vdisk) 3 .... HA
Pruebas de alertas y soporte automático tanto activas como en espera
(active:1)## autosupport test alert-summary OK: Message sent. (active:1)## autosupport test support-notify OK: Message sent. (standby:0)# autosupport test alert-summary OK: Message sent. (standby:0)# autosupport test support-notify OK: Message sent.
En caso de que se utilice CONNECTEMC (Secure Remote Services) para reenviar ASUPS a Data Domain, utilice el siguiente comando con el fin de verificar la conectividad en ambos nodos.
La marca de tiempo indica cuándo se estableció la conexión más reciente.
sysadmin@hostname# support connectemc show history File Time Transport Result --------------------------------------- --------------------- --------- -------- RSC_CKM00XXX601153_120315_092804166.xml "2015-12-03 09:28:07" HTTP Success RSC_CKM00XXX601153_120315_101257767.xml "2015-12-03 10:13:00" HTTP Success RSC_CKM00XXX601153_120315_111649065.xml "2015-12-03 11:16:53" HTTP Success --------------------------------------- --------------------- --------- -------- Note: It says HTTP above, but it is HTTPS
Solución de problemas del sistema de archivos de HA
# filesys status
Verifique que el FS esté habilitado y en ejecución. También es posible que aparezca el estado de limpieza.
The filesystem is enabled and running. Cleaning started at 2016/08/20 14:12:16: phase 1 of 12 (pre-merge) 0.7% complete, 95911 GiB free; time: phase 0:00:09, total 0:00:09
(active:1)#(standby:0)# system upgrade status
En ambos nodos, verifique que se hayan completado todas las actualizaciones.
Current Upgrade Status: DD OS upgrade Succeeded End time: 2016.08.20:13:27
(active:1)#(standby:0)#Date
Asegúrese de que la fecha y la hora coincidan en ambos nodos en un plazo de 10 s
-p1(active:1)# date Sat Aug 20 14:34:29 EDT 2016 -p0(standby:0)# date Sat Aug 20 14:34:17 EDT 2016
En Active node, verifique con el cliente que la replicación de DD (si está configurada) funcione según lo previsto.
# replication status CTX Destination Enabled Connection Sync'ed-as-of-time --- --------------------------------------------------------- ------- ---------------- ------------------ 3 mtree://ddxxx.com/data/col1/eric.dest no idle Fri Nov 6 15:16 4 mtree://ddxxx.com/data/col1/thy-repl yes idle Fri Jul 22 15:38 5 dir://ddxxxx.com/backup/replicate-rtp yes disconnected Fri Jul 22 14:55 6 mtree://ddxxxx.com/data/col1/theman_test yes idle Sat Aug 20 22:11 7 dir://ddxxx.com/backup/lakeland/sym yes Sat Aug 20 13:15 Fri Aug 19 15:09 --- --------------------------------------------------------- ------- ---------------- ----------------
Cause
Hardware y configuración de HA
Tanto en el nodo activo como en el nodo en espera, revise si hay una alerta activa que indique un posible problema. Las alertas no siempre se comparten entre nodos, por lo tanto, revise ambos nodos. Si se encuentra un problema inesperado, presente un caso de soporte. Genere siempre un paquete de soporte de ambos nodos.
Nota. La mayoría de las alertas se ven solo en uno de los nodos. No todas las alertas se comparten entre nodos.
Si el estado es "highly available", se habilita la conmutación por error.
Si el estado es "degraded" o uno de los nodos no muestra el estado "online", la conmutación por error entre nodos está deshabilitada.
# ha status
El comando #ha status detallado en el nodo activo solo se puede utilizar para obtener información más detallada sobre el estado de HA.
Cualquiera de los siguientes resultados que indican "no ok" en la sección Mirroring Status indica que un componente no funciona y HA System Status aparece como "degraded".
Cualquier estado degradado impide la conmutación por error entre nodos.
Nota: Este comando no está disponible en el nodo en espera.
# enclosure show io-cards
Verifique que ambos nodos tengan ajustes idénticos y soportados.
# enclosure show misconfiguration
Realice una prueba de configuración incorrecta en los nodos activo y en espera para comprobar si hay algún problema con la configuración del hardware.
Consulte el artículo de la base de conocimientos https://www.dell.com/support/kbdoc/en-us/463399
Ejemplos:
# enclosure show topology
Consulte la topología de ambos nodos.
Busque cualquier error entre los puntos de conexión y asegúrese de que la numeración de todas las bandejas sea la correcta.
# enclosure test topology all duration 1
En los nodos activo y en espera, realice una prueba de diagnóstico de 1 minuto en todos los puertos HBA SAS con almacenamiento externo conectado.
No ejecute pruebas de topología en ambos nodos simultáneamente.
El resultado esperado es que no se detecte ningún error en los puertos con almacenamiento conectado.
Si se encuentra un problema, la prueba puede detenerse con un mensaje de falla en que se indique que la conexión SAS tiene una falla o es posible que muestre un error (? , ! ) en una conexión determinada.
Nota: Durante la prueba de topología, los puertos individuales tienen un resultado independiente en que se indica el estado. Busque errores (? , ! ) para detectar la conexión con problemas. No se muestra ningún resultado de la CLI hasta que se completa cada prueba de puerto.
# system show nvram
En los nodos activo y en espera, asegúrese de que las baterías NVRAM estén cargadas o en proceso de carga, y de que todos los contadores de errores de NVRAM muestren un valor de cero.
# alerts show current
Tanto en el nodo activo como en el nodo en espera, revise si hay una alerta activa que indique un posible problema. Las alertas no siempre se comparten entre nodos, por lo tanto, revise ambos nodos. Si se encuentra un problema inesperado, presente un caso de soporte. Genere siempre un paquete de soporte de ambos nodos.
Nota. La mayoría de las alertas se ven solo en uno de los nodos. No todas las alertas se comparten entre nodos.
Ejemplos de alertas:
Severity Class Object Message -------- --------------- ------ ---------------------------------------------- CRITICAL HardwareFailure EVT-ENVIRONMENT-00049: The system detected an invalid hardware configuration. -- ------------------------ -------- --------------- ------ ---------------------------------------------- CRITICAL HardwareFailure EVT-ENVIRONMENT-00048: Filesystem can't be enabled due to an invalid hardware configuration. -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HardwareFailure Enclosure=1:Slot=5 EVT-ENVIRONMENT-00047: PCI communication speed is degraded -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HA EVT-HA-00003: Standby node time is off by 15 second(s). -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HardwareFailure Port Index=1 EVT-MPATH-00003: Missing disk connection from system port 6a. -- ------------------------ -------- --------------- ------ ----------------------------------------------
# ha status
El comando #ha status en el nodo activo y el nodo en espera se puede utilizar para determinar el estado actual de HA.Si el estado es "highly available", se habilita la conmutación por error.
Si el estado es "degraded" o uno de los nodos no muestra el estado "online", la conmutación por error entre nodos está deshabilitada.
SE@hostname-p0(active:0)## ha status HA System name:hostname-n1.chaos.local HA System status: highly available Node Name Node id Role HA State ------------------------------- ------- ------- -------- hostname-p0.chaos.local 0 active online hostname-p1.chaos.local 1 standby online ------------------------------- ------- ------- --------
# ha status
El comando #ha status detallado en el nodo activo solo se puede utilizar para obtener información más detallada sobre el estado de HA.
Cualquiera de los siguientes resultados que indican "no ok" en la sección Mirroring Status indica que un componente no funciona y HA System Status aparece como "degraded".
Cualquier estado degradado impide la conmutación por error entre nodos.
Nota: Este comando no está disponible en el nodo en espera.
SEhostname-p0(active:0)## ha status detailed HA System name: hostname.chaos.local HA System Status: highly available Interconnect Status: ok Primary Heartbeat Status: ok External LAN Heartbeat Status: not ok Hardware compatibility check: ok Software Version Check: ok Node hostname-p0.chaos.local: Role: active HA State: online Node Health: ok Node hostname-p1.chaos.local: Role: standby HA State: online Node Health: ok Mirroring Status: Component Name Status -------------- ------ nvram ok registry ok sms ok ddboost ok cifs ok -------------- ------
# enclosure show io-cards
Verifique que ambos nodos tengan ajustes idénticos y soportados.
# enclosure show misconfiguration
Realice una prueba de configuración incorrecta en los nodos activo y en espera para comprobar si hay algún problema con la configuración del hardware.
Consulte el artículo de la base de conocimientos https://www.dell.com/support/kbdoc/en-us/463399
Ejemplos:
Memory DIMMs: Locator Bank Locator Size(GiB) Status ------- ------------ --------- ---------- CHCD1 7 0 missing CHDD1 7 0 missing CHAD0 4 8 wrong size CHBD0 4 8 wrong size IO Cards: Slot Device Status ---- ---------- --------- 10 Hera NVRAM extra 10 Hera NVRAM misplaced ---- ---------- --------- CPUs: No misconfiguration found. Disks: Slot Size(GiB) Type Media Status ---- --------- ---- ----- ------- 2 186 SATA SSD missing ---- --------- ---- ----- -----
# enclosure show topology
Consulte la topología de ambos nodos.
Busque cualquier error entre los puntos de conexión y asegúrese de que la numeración de todas las bandejas sea la correcta.
- Los errores y los fallos se simbolizan con “?”, “!” O “!!”
Nota: Esos resultados de topología de cada nodo deben invertirse (imagen reflejada) entre sí.
(Stdby:0)## enclosure show topology
Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port
---- - ------------- - ------------- - ------------- - -------------
2a
2b
2c
2d > 5.A.E: 5.A.H ? 4.A.E: 4.A.H > 3.A.E: 3.A.H > 2.A.E: 2.A.H
3a
3b
3c
3d
6a !! 2.B.E: 2.B.H > 3.B.E: 3.B.H > 5.B.E: 5.B.H > ?.B.E: ?.B.H
6b
6c
6d
---- - ------------- - ------------- - ------------- - -------------
(active:1)## enclosure show topology
Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port
---- - ------------- - ------------- - ------------- - -------------
2a
2b
2c
2d > 2.A.H: 2.A.E > 3.A.H: 3.A.E > 4.A.H: 4.A.E > 5.A.H: 5.A.E
3a
3b
3c
3d
6a > 5.B.H: 5.B.E > 4.B.H: 4.B.E > 3.B.H: 3.B.E > 2.B.H: 2.B.E
6b
6c
6d
---- - ------------- - ------------- - ------------- - -------------
# enclosure test topology all duration 1
En los nodos activo y en espera, realice una prueba de diagnóstico de 1 minuto en todos los puertos HBA SAS con almacenamiento externo conectado.
No ejecute pruebas de topología en ambos nodos simultáneamente.
El resultado esperado es que no se detecte ningún error en los puertos con almacenamiento conectado.
Si se encuentra un problema, la prueba puede detenerse con un mensaje de falla en que se indique que la conexión SAS tiene una falla o es posible que muestre un error (? , ! ) en una conexión determinada.
Nota: Durante la prueba de topología, los puertos individuales tienen un resultado independiente en que se indica el estado. Busque errores (? , ! ) para detectar la conexión con problemas. No se muestra ningún resultado de la CLI hasta que se completa cada prueba de puerto.
# enclosure test topology Started: 1471719316 Ended: 1471719498 Duration: 182 Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port ---- - --------------- - --------------- - --------------- - --------------- 2d > 5.A.H:5.A.E > 4.A.H:4.A.E > 3.A.H:3.A.E > 2.A.H:2.A.E ---- - --------------- - --------------- - --------------- - --------------- Error message: ----------------- No error detected -----------------
# system show nvram
En los nodos activo y en espera, asegúrese de que las baterías NVRAM estén cargadas o en proceso de carga, y de que todos los contadores de errores de NVRAM muestren un valor de cero.
# system show nvram NVRAM Cards: Card Component Value ---- ----------------------- ---------------------------------------------------------------------- 1 Slot 0 Firmware version 0.0.80 Memory size 7.93 GiB Errors 0 memory (0 uncorrectable), 0 PCI, 0 controller Flash controller Errors 0 Cfg Err, 0 PANIC, 0 Bus Hang, 0 Bad Blk Warn, 0 Bkup Err, 0 Rstr Err Board temperature 37 C CPU temperature 47 C Number of batteries 1 ---- ----------------------- ---------------------------------------------------------------------- NVRAM Batteries: Card Battery Status Charge Charging Time To Temperature Voltage Status Full Charge ---- ------- ------ ------ -------- ----------- ----------- ------- 1 1 ok 94 % enabled 0 mins 34 C 4.016 V ---- ------- ------ ------ -------- ----------- ----------- -------
Resolution
Si necesita asistencia adicional, comuníquese con el proveedor de servicio contratado.
Additional Information
.
Affected Products
Data DomainProducts
Data Domain, DD OS 6.0Article Properties
Article Number: 000017861
Article Type: Solution
Last Modified: 05 Jul 2024
Version: 3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.