Contrôle d’intégrité des appliances Data Domain HA (DDHA)

Summary: Cet article est destiné à fournir des conseils pour effectuer un contrôle d’intégrité de base du système HA après un événement de maintenance. Les configurations DDHA (Data Domain Highly Available) varient en fonction des modèles de Data Domain utilisés. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Les systèmes DDHA (Data Domain Highly Available) sont conçus pour basculer entre les nœuds.  Seul le nœud actif est en production alors que le nœud de secours attend un événement de défaillance pour remplacer le nœud actif (ACTIF - PASSIF). 
Il est essentiel de vérifier que les deux nœuds DDHA sont en état de fonctionnement et de mettre en place un basculement en cas de défaillance. 
Les commandes CLI détaillées dans cet article vous aident à identifier les problèmes susceptibles d’empêcher un basculement. 
Ce guide est divisé en zones clés à vérifier.
  • Matériel et configuration HA
  • Réseau
  • Filesystem
Dépannage du réseau HA

# net show settings
Les paramètres du port réseau sont différents, selon le nœud sur lequel la commande #net show settings est exécutée. Les ports configurés sur les systèmes DDHA sont de type « flottant » ou « fixe ».  Exécuter
 "net show settings"
sur les deux nœuds et comparez les sorties.
  1. Interfaces « flottantes » :  vérifiez que tout port, alias ou veth de carte réseau (NIC) configuré qui affiche un état « enabled and running » sur le nœud actif possède un état « enabled and running » identique sur le nœud de secours.  Pour tout port, alias ou veth de carte réseau configuré pour sur type flottant, une adresse IP doit normalement s’afficher sur le nœud actif et l’indication N/A correspondante doit s’afficher sur le nœud de secours. 
  2. Interfaces « fixes » : vérifiez que tout port, alias ou veth de carte réseau configuré et marqué comme « fixed » affiche un état « enabled and running ». Les interfaces « fixes » n’ont pas des configurations identiques entre les nœuds.
  3. Vérifiez que l’interconnexion HA (veth99) s’affiche et que tous les ports requis sont activés et en cours d’exécution. Remarque :  le nombre de connexions de port et l’emplacement de logement requis pour l’interconnexion HA (veth99) dépendent du modèle DD.

Nœud actif :
# net show settings
port     enabled   state     DHCP   IP address                             netmask          type           additional setting
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
ethMa    yes       running   no     10.25.18.50                            255.255.255.0       fixed
                                           2620:0:170:1608:260:16ff:fe5c:92bc**   /64
                                                fe80::260:16ff:fe5c:92bc**        /64
ethMb    no        down      ipv4   n/a                                           n/a          fixed
ethMc    no        down      ipv4   n/a                                           n/a          fixed
ethMd    no        down      ipv4   n/a                                           n/a          fixed
eth4a    yes       running   no     10.25.18.63                            255.255.255.0       floating
                                           2620:0:170:1608:260:16ff:fe51:8c60**   /64
                                               fe80::260:16ff:fe51:8c60**         /64
eth4b    no        down       no     n/a                                          n/a          fixed
eth4c    no        down       no     n/a                                          n/a          fixed
eth4d    no        down       no     n/a                                          n/a          fixed
eth5a    no        down       no     n/a                                          n/a          fixed
eth5b    yes       running   no     10.25.18.60                            255.255.255.0       floating
                                           2620:0:170:1608:260:16ff:fe52:2951**   /64
                                                fe80::260:16ff:fe52:2951**        /64
eth5c    no        down       no     n/a                                          n/a          fixed
eth5d    no        down       no     n/a                                          n/a          fixed
eth11a   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11b   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11c   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11d   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
veth99   yes       running   no     d:d:d:d:d:0060:1652:0ecc                 /80               interconnect   lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d
                                                 fe80::260:16ff:fe52:ecc**   /64
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
Nœud de secours :
# net show settings
port     enabled   state     DHCP   IP address                             netmask          type           additional setting
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
ethMa    yes       running   no     10.25.18.49                            255.255.255.0    fixed
                                     2620:0:170:14567:260:16ff:fe5c:dr3**  /64
                                               fe80::260:16ff:fe5c3457c**  /64
ethMb    no        down      ipv4   n/a                                    n/a              fixed
ethMc    no        down      ipv4   n/a                                    n/a              fixed
ethMd    no        down      ipv4   n/a                                    n/a              fixed
eth4a    yes       running   no     n/a                                    255.255.255.0    floating
                                    2620:0:170:1608:260:1ght6:fe51:4570**  /64
                                               fe80::260:16ff:fe51:7890**  /64
eth4b    no        down       no     n/a                                   n/a              fixed
eth4c    no        down       no     n/a                                   n/a              fixed
eth4d    no        down       no     n/a                                   n/a              fixed
eth5a    no        down       no     n/a                                   n/a              fixed
eth5b    yes       running    no     n/a                                   255.255.255.0    floating
                                     2620:0:170:160:456:16ff:fe5234561**   /64
                                              fe80::260:16ff:fe52:3456**   /64
eth5c    no        down       no     n/a                                   n/a              fixed
eth5d    no        down       no     n/a                                   n/a              fixed
eth11a   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11b   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11c   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11d   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
veth99   yes       running    no     d:d:d:d:d:0e456:1652:dft4c            /80              interconnect   lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d
                                                 fe80::264:16ff:fec2:ecb** /64
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
 
Vérifiez la connectivité réseau.
Vérifiez les adresses IP répertoriées sur chaque nœud et assurez-vous que chaque adresse IP configurée sur le nœud actif et le nœud de secours peut envoyer une commande ping à sa passerelle configurée. 
Remarque : la commande ping (ICMP) est désactivée dans l’environnement de certains clients.  Dans ce cas, demandez au client de confirmer la connectivité.

 
(active:1)# net route show gateway detailed 
IPv4 Default Gateways
gateway IP   source   tables   interface address   owner
----------   ------   ------   -----------------   -----
10.25.18.1   static   tethMa   10.25.18.50/24      none
10.25.18.1   static   teth4a   10.25.18.63/24      none
10.25.18.1   static   teth5b   10.25.18.60/24      none
----------   ------   ------   -----------------   -----

Exécutez une commande ping sur l’adresse IP de la passerelle avec chaque ethxx configuré.
 
#(active:1)# ping 10.25.18.1 interface ethMa
                                                           PING 10.25.18.1 (10.25.18.1) from 10.25.18.50 ethMa: 56(84) bytes of data.
                                                           64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=0.697 ms
(active:1)# ping 10.25.18.1 interface eth4a
                                                           PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data.
                                                           64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
(active:1)# ping 10.25.18.1 interface eth5b
                                                          PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data.
                                                          64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
 
# net troubleshooting duplicate-ip
Sur les deux nœuds, recherchez les IP en double.
No duplicate IP addresses detected

Test Fibre Channel
Vérifiez que ces fonctionnalités sont sous licence, puis testez-les pour vérifier qu’elles sont entièrement fonctionnelles (par exemple : Exécuter des opérations de sauvegarde de test sur la VTL)
# license show  or # elicense show

##   License Key           Feature
--   -------------------   ----------------------------------------
1    WTXV-TSWX-HWDR-RHDX  VTL
2    EZXW-SZZF-BGCS-VRZX   Block services (Vdisk)
3 .... HA

Support autonome et tests d’alerte depuis le nœud actif et le nœud de secours
 
 (active:1)## autosupport test alert-summary
                              OK: Message sent.
 (active:1)## autosupport test support-notify
                              OK: Message sent.
 
 (standby:0)# autosupport test alert-summary
                              OK: Message sent.
 (standby:0)# autosupport test support-notify
                              OK: Message sent.


Si CONNECTEMC (Secure Remote Services) est utilisé pour transférer ASUPS vers Data Domain, utilisez la commande suivante pour vérifier la connectivité sur les deux nœuds.
L’horodatage indique quand la dernière connexion a été établie.
sysadmin@hostname# support connectemc show history
File Time Transport Result
--------------------------------------- --------------------- --------- --------
RSC_CKM00XXX601153_120315_092804166.xml "2015-12-03 09:28:07" HTTP Success
RSC_CKM00XXX601153_120315_101257767.xml "2015-12-03 10:13:00" HTTP Success
RSC_CKM00XXX601153_120315_111649065.xml "2015-12-03 11:16:53" HTTP Success
--------------------------------------- --------------------- --------- --------
Note: It says HTTP above, but it is HTTPS

Dépannage du système de fichiers HA

# filesys status
Vérifiez que le système de fichiers est activé et en cours d’exécution. L’état de nettoyage peut également être affiché.
The filesystem is enabled and running.
Cleaning started at 2016/08/20 14:12:16: phase 1 of 12 (pre-merge)
  0.7% complete, 95911 GiB free; time: phase  0:00:09, total  0:00:09

 
(active:1)# (standby:0)# system upgrade status
Sur les deux nœuds, vérifiez que toutes les mises à niveau sont terminées.
Current Upgrade Status: DD OS upgrade Succeeded
End time: 2016.08.20:13:27
 
(active:1)# (standby:0)#Date
Assurez-vous que l’heure et la date correspondent sur les deux nœuds dans un délai de 10 secondes.
-p1(active:1)# date
Sat Aug 20 14:34:29 EDT 2016
-p0(standby:0)# date
Sat Aug 20 14:34:17 EDT 2016

Sur le nœud actif, vérifiez avec le client que la réplication DD (si elle est configurée) fonctionne comme prévu.
# replication status
CTX   Destination                                                 Enabled   Connection         Sync'ed-as-of-time
---   ---------------------------------------------------------   -------   ----------------   ------------------
3     mtree://ddxxx.com/data/col1/eric.dest                        no        idle               Fri Nov  6 15:16
4     mtree://ddxxx.com/data/col1/thy-repl                         yes       idle               Fri Jul 22 15:38
5     dir://ddxxxx.com/backup/replicate-rtp                        yes       disconnected       Fri Jul 22 14:55
6     mtree://ddxxxx.com/data/col1/theman_test                     yes       idle               Sat Aug 20 22:11
7     dir://ddxxx.com/backup/lakeland/sym                          yes       Sat Aug 20 13:15   Fri Aug 19 15:09
---   ---------------------------------------------------------   -------   ----------------   ----------------

Cause

Matériel et configuration HA
 
# alerts show current

Sur le nœud actif et le nœud de secours, vérifiez si une alerte active signale un problème potentiel. Les alertes ne sont pas toujours partagées entre les nœuds. Vérifiez donc les deux nœuds.  Si un problème inattendu est rencontré, soumettez un dossier d’incident. Générez toujours un bundle de support à partir des deux nœuds.
Remarque :  la plupart des alertes ne sont visibles que sur un seul nœud. Toutes les alertes ne sont pas partagées entre les nœuds.
 

Exemples d’alertes :

Severity   Class             Object   Message
   --------   ---------------   ------   ----------------------------------------------
CRITICAL      HardwareFailure            EVT-ENVIRONMENT-00049: The system detected an invalid hardware configuration.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
CRITICAL      HardwareFailure            EVT-ENVIRONMENT-00048: Filesystem can't be enabled due to an invalid hardware configuration.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING       HardwareFailure            Enclosure=1:Slot=5   EVT-ENVIRONMENT-00047: PCI communication speed is degraded
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING             HA                   EVT-HA-00003: Standby node time is off by 15 second(s).
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING    HardwareFailure   Port Index=1   EVT-MPATH-00003: Missing disk connection from system port 6a.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------

 

# ha status

La commande #ha status sur le nœud actif et le nœud de secours peut être utilisée pour déterminer l’état HA actuel.
Si l’état est « highly available », le basculement est activé. 
Si l’état est « degraded » ou si l’un des nœuds n’affiche pas l’état « online », le basculement entre les nœuds est désactivé.

 
SE@hostname-p0(active:0)## ha status
HA System name:hostname-n1.chaos.local
HA System status: highly available
 
Node Name                         Node id   Role      HA State
-------------------------------   -------   -------   --------
hostname-p0.chaos.local   0         active    online
hostname-p1.chaos.local   1         standby   online
-------------------------------   -------   -------   --------

# ha status detailed
La commande #ha status detailed sur le nœud actif uniquement peut être utilisée pour obtenir des informations plus détaillées sur l’état HA.
L’une des sorties ci-dessous indiquant « not ok » dans la section Mirroring Status signale un composant qui ne fonctionne pas et l’état du système HA affiche « degraded ». 
Tout état « degraded » empêche le basculement entre les nœuds.

Remarque : cette commande n’est pas disponible sur le nœud de secours.
 
SEhostname-p0(active:0)## ha status detailed
HA System name: hostname.chaos.local
HA System Status: highly available
Interconnect Status: ok
Primary Heartbeat Status:  ok
External LAN Heartbeat Status: not ok
Hardware compatibility check: ok
Software Version Check:   ok
 
Node hostname-p0.chaos.local:
        Role:      active
        HA State:  online
        Node Health: ok
 
Node hostname-p1.chaos.local:
        Role:     standby
        HA State: online
        Node Health: ok
 
Mirroring Status:
Component Name   Status
--------------   ------
nvram            ok
registry         ok
sms              ok
ddboost          ok
cifs             ok
--------------   ------


# enclosure show io-cards
Vérifiez que les deux nœuds ont des configurations identiques et prises en charge.


# enclosure show misconfiguration
Effectuez un test de configuration incorrecte à partir du nœud actif et du nœud de secours pour vérifier si la configuration matérielle présente un problème. 
Consultez l’article de la base de connaissances
https://www.dell.com/support/kbdoc/en-us/463399

 
Exemples :
Memory DIMMs:
Locator Bank Locator Size(GiB) Status
------- ------------ --------- ----------
CHCD1     7     0     missing
CHDD1     7     0     missing
CHAD0     4     8     wrong size
CHBD0     4     8     wrong size
IO Cards:
Slot   Device       Status
----   ----------   ---------
10     Hera NVRAM   extra
10     Hera NVRAM   misplaced
----   ----------   ---------
CPUs:
    No misconfiguration found.
Disks:
Slot   Size(GiB)   Type   Media   Status
----   ---------   ----   -----   -------
2      186         SATA   SSD     missing
----   ---------   ----   -----   -----
 
# enclosure show topology
Vérifiez la topologie à partir des deux nœuds. 
Recherchez toute erreur entre les points de connexion et a
ssurez-vous que la numérotation des tiroirs est correcte.
- Les erreurs et les défauts sont symbolisés par « ? », « ! » ou « !! »
Remarque : les sorties de topologie de chaque nœud doivent être inversées (image miroir) l’une par rapport à l’autre.
 
(Stdby:0)## enclosure show topology
Port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----   -   -------------   -   -------------   -   -------------   -   -------------
2a
2b
2c
2d     >    5.A.E: 5.A.H   ?   4.A.E: 4.A.H   >    3.A.E: 3.A.H   >    2.A.E: 2.A.H
3a
3b
3c
3d
6a     !!    2.B.E: 2.B.H   >    3.B.E: 3.B.H   >    5.B.E: 5.B.H   >    ?.B.E: ?.B.H
6b
6c
6d
----   -   -------------   -   -------------   -   -------------   -   -------------
 
(active:1)## enclosure show topology
Port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----   -   -------------   -   -------------   -   -------------   -   -------------
2a
2b
2c
2d   >    2.A.H: 2.A.E   >    3.A.H: 3.A.E   >    4.A.H: 4.A.E   >    5.A.H: 5.A.E
3a
3b
3c
3d
6a    >    5.B.H: 5.B.E   >    4.B.H: 4.B.E   >    3.B.H: 3.B.E   >    2.B.H: 2.B.E
6b
6c
6d
----   -   -------------   -   -------------   -   -------------   -   -------------
 
# enclosure test topology all duration 1
À partir du nœud actif et du nœud de secours, effectuez un test de diagnostic d’une minute pour tous les ports HBA SAS avec stockage externe rattaché.
N’effectuez pas de tests de topologie sur les deux nœuds simultanément. 
Le résultat attendu est qu’aucune erreur n’a été détectée pour chaque port avec stockage rattaché. 
Si un problème est détecté, le test peut s’arrêter avec un message d’échec indiquant que la connexion SAS est défaillante ou peut afficher une erreur (? , ! ) sur une connexion particulière
.

 
Remarque : au cours du test de topologie, chaque port dispose d’une sortie distincte, indiquant l’état. Recherchez les erreurs (? , ! ) pour identifier le problème de connexionAucune sortie CLI n’est affichée tant que chaque test de port n’est pas terminé. 
 
# enclosure test topology  
Started: 1471719316
Ended: 1471719498
Duration: 182
Port      enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----  -  ---------------  -  ---------------  -  ---------------  -  ---------------
2d    >    5.A.H:5.A.E    >    4.A.H:4.A.E    >    3.A.H:3.A.E    >    2.A.H:2.A.E
----  -  ---------------  -  ---------------  -  ---------------  -  ---------------
Error message:
-----------------
No error detected
-----------------

# system show nvram
Sur le nœud actif et le nœud de secours, assurez-vous que les batteries Nvram sont chargées ou en cours de charge et que tous les compteurs d’erreurs nvram affichent une valeur de zéro.
 
# system show nvram
NVRAM Cards:
        Card   Component                 Value
        ----   -----------------------   ----------------------------------------------------------------------
        1      Slot                      0
               Firmware version          0.0.80
               Memory size               7.93 GiB
               Errors                    0 memory (0 uncorrectable), 0 PCI, 0 controller
               Flash controller Errors   0 Cfg Err, 0 PANIC, 0 Bus Hang, 0 Bad Blk Warn, 0 Bkup Err, 0 Rstr Err
               Board temperature         37 C
               CPU temperature           47 C
               Number of batteries       1
        ----   -----------------------   ----------------------------------------------------------------------
NVRAM Batteries:
        Card   Battery   Status   Charge   Charging   Time To       Temperature   Voltage
                                           Status     Full Charge
        ----   -------   ------   ------   --------   -----------   -----------   -------
        1      1         ok       94 %     enabled    0 mins        34 C          4.016 V
        ----   -------   ------   ------   --------   -----------   -----------   -------

Resolution

Si vous avez besoin d’une aide supplémentaire, contactez votre prestataire de services contractuel.

Additional Information

.

Affected Products

Data Domain

Products

Data Domain, DD OS 6.0
Article Properties
Article Number: 000017861
Article Type: Solution
Last Modified: 05 Jul 2024
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.