Contrôle d’intégrité des appliances Data Domain HA (DDHA)
Summary: Cet article est destiné à fournir des conseils pour effectuer un contrôle d’intégrité de base du système HA après un événement de maintenance. Les configurations DDHA (Data Domain Highly Available) varient en fonction des modèles de Data Domain utilisés. ...
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
Les systèmes DDHA (Data Domain Highly Available) sont conçus pour basculer entre les nœuds. Seul le nœud actif est en production alors que le nœud de secours attend un événement de défaillance pour remplacer le nœud actif (ACTIF - PASSIF).
Il est essentiel de vérifier que les deux nœuds DDHA sont en état de fonctionnement et de mettre en place un basculement en cas de défaillance.
Les commandes CLI détaillées dans cet article vous aident à identifier les problèmes susceptibles d’empêcher un basculement.
Ce guide est divisé en zones clés à vérifier.
# net show settings
Les paramètres du port réseau sont différents, selon le nœud sur lequel la commande #net show settings est exécutée. Les ports configurés sur les systèmes DDHA sont de type « flottant » ou « fixe ». Exécuter
Nœud actif :
Vérifiez la connectivité réseau.
Vérifiez les adresses IP répertoriées sur chaque nœud et assurez-vous que chaque adresse IP configurée sur le nœud actif et le nœud de secours peut envoyer une commande ping à sa passerelle configurée.
Remarque : la commande ping (ICMP) est désactivée dans l’environnement de certains clients. Dans ce cas, demandez au client de confirmer la connectivité.
(active:1)# net route show gateway detailed
Exécutez une commande ping sur l’adresse IP de la passerelle avec chaque ethxx configuré.
# net troubleshooting duplicate-ip
Sur les deux nœuds, recherchez les IP en double.
Test Fibre Channel
Vérifiez que ces fonctionnalités sont sous licence, puis testez-les pour vérifier qu’elles sont entièrement fonctionnelles (par exemple : Exécuter des opérations de sauvegarde de test sur la VTL)
Support autonome et tests d’alerte depuis le nœud actif et le nœud de secours
Si CONNECTEMC (Secure Remote Services) est utilisé pour transférer ASUPS vers Data Domain, utilisez la commande suivante pour vérifier la connectivité sur les deux nœuds.
L’horodatage indique quand la dernière connexion a été établie.
Dépannage du système de fichiers HA
# filesys status
Vérifiez que le système de fichiers est activé et en cours d’exécution. L’état de nettoyage peut également être affiché.
(active:1)# (standby:0)# system upgrade status
Sur les deux nœuds, vérifiez que toutes les mises à niveau sont terminées.
(active:1)# (standby:0)#Date
Assurez-vous que l’heure et la date correspondent sur les deux nœuds dans un délai de 10 secondes.
Sur le nœud actif, vérifiez avec le client que la réplication DD (si elle est configurée) fonctionne comme prévu.
Il est essentiel de vérifier que les deux nœuds DDHA sont en état de fonctionnement et de mettre en place un basculement en cas de défaillance.
Les commandes CLI détaillées dans cet article vous aident à identifier les problèmes susceptibles d’empêcher un basculement.
Ce guide est divisé en zones clés à vérifier.
- Matériel et configuration HA
- Réseau
- Filesystem
# net show settings
Les paramètres du port réseau sont différents, selon le nœud sur lequel la commande #net show settings est exécutée. Les ports configurés sur les systèmes DDHA sont de type « flottant » ou « fixe ». Exécuter
"net show settings"sur les deux nœuds et comparez les sorties.
- Interfaces « flottantes » : vérifiez que tout port, alias ou veth de carte réseau (NIC) configuré qui affiche un état « enabled and running » sur le nœud actif possède un état « enabled and running » identique sur le nœud de secours. Pour tout port, alias ou veth de carte réseau configuré pour sur type flottant, une adresse IP doit normalement s’afficher sur le nœud actif et l’indication N/A correspondante doit s’afficher sur le nœud de secours.
- Interfaces « fixes » : vérifiez que tout port, alias ou veth de carte réseau configuré et marqué comme « fixed » affiche un état « enabled and running ». Les interfaces « fixes » n’ont pas des configurations identiques entre les nœuds.
- Vérifiez que l’interconnexion HA (veth99) s’affiche et que tous les ports requis sont activés et en cours d’exécution. Remarque : le nombre de connexions de port et l’emplacement de logement requis pour l’interconnexion HA (veth99) dépendent du modèle DD.
Nœud actif :
# net show settings port enabled state DHCP IP address netmask type additional setting ------ ------- ------- ---- ------------------------------------ -------------- ------------ ----------------------------------------------- ethMa yes running no 10.25.18.50 255.255.255.0 fixed 2620:0:170:1608:260:16ff:fe5c:92bc** /64 fe80::260:16ff:fe5c:92bc** /64 ethMb no down ipv4 n/a n/a fixed ethMc no down ipv4 n/a n/a fixed ethMd no down ipv4 n/a n/a fixed eth4a yes running no 10.25.18.63 255.255.255.0 floating 2620:0:170:1608:260:16ff:fe51:8c60** /64 fe80::260:16ff:fe51:8c60** /64 eth4b no down no n/a n/a fixed eth4c no down no n/a n/a fixed eth4d no down no n/a n/a fixed eth5a no down no n/a n/a fixed eth5b yes running no 10.25.18.60 255.255.255.0 floating 2620:0:170:1608:260:16ff:fe52:2951** /64 fe80::260:16ff:fe52:2951** /64 eth5c no down no n/a n/a fixed eth5d no down no n/a n/a fixed eth11a yes running n/a n/a n/a interconnect bonded to veth99 eth11b yes running n/a n/a n/a interconnect bonded to veth99 eth11c yes running n/a n/a n/a interconnect bonded to veth99 eth11d yes running n/a n/a n/a interconnect bonded to veth99 veth99 yes running no d:d:d:d:d:0060:1652:0ecc /80 interconnect lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d fe80::260:16ff:fe52:ecc** /64 ------ ------- ------- ---- ------------------------------------ -------------- ------------ -----------------------------------------------Nœud de secours :
# net show settings port enabled state DHCP IP address netmask type additional setting ------ ------- ------- ---- ------------------------------------ -------------- ------------ ----------------------------------------------- ethMa yes running no 10.25.18.49 255.255.255.0 fixed 2620:0:170:14567:260:16ff:fe5c:dr3** /64 fe80::260:16ff:fe5c3457c** /64 ethMb no down ipv4 n/a n/a fixed ethMc no down ipv4 n/a n/a fixed ethMd no down ipv4 n/a n/a fixed eth4a yes running no n/a 255.255.255.0 floating 2620:0:170:1608:260:1ght6:fe51:4570** /64 fe80::260:16ff:fe51:7890** /64 eth4b no down no n/a n/a fixed eth4c no down no n/a n/a fixed eth4d no down no n/a n/a fixed eth5a no down no n/a n/a fixed eth5b yes running no n/a 255.255.255.0 floating 2620:0:170:160:456:16ff:fe5234561** /64 fe80::260:16ff:fe52:3456** /64 eth5c no down no n/a n/a fixed eth5d no down no n/a n/a fixed eth11a yes running n/a n/a n/a interconnect bonded to veth99 eth11b yes running n/a n/a n/a interconnect bonded to veth99 eth11c yes running n/a n/a n/a interconnect bonded to veth99 eth11d yes running n/a n/a n/a interconnect bonded to veth99 veth99 yes running no d:d:d:d:d:0e456:1652:dft4c /80 interconnect lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d fe80::264:16ff:fec2:ecb** /64 ------ ------- ------- ---- ------------------------------------ -------------- ------------ -----------------------------------------------
Vérifiez la connectivité réseau.
Vérifiez les adresses IP répertoriées sur chaque nœud et assurez-vous que chaque adresse IP configurée sur le nœud actif et le nœud de secours peut envoyer une commande ping à sa passerelle configurée.
Remarque : la commande ping (ICMP) est désactivée dans l’environnement de certains clients. Dans ce cas, demandez au client de confirmer la connectivité.
(active:1)# net route show gateway detailed
IPv4 Default Gateways gateway IP source tables interface address owner ---------- ------ ------ ----------------- ----- 10.25.18.1 static tethMa 10.25.18.50/24 none 10.25.18.1 static teth4a 10.25.18.63/24 none 10.25.18.1 static teth5b 10.25.18.60/24 none ---------- ------ ------ ----------------- -----
Exécutez une commande ping sur l’adresse IP de la passerelle avec chaque ethxx configuré.
#(active:1)# ping 10.25.18.1 interface ethMa PING 10.25.18.1 (10.25.18.1) from 10.25.18.50 ethMa: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=0.697 ms (active:1)# ping 10.25.18.1 interface eth4a PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms (active:1)# ping 10.25.18.1 interface eth5b PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
# net troubleshooting duplicate-ip
Sur les deux nœuds, recherchez les IP en double.
No duplicate IP addresses detected
Test Fibre Channel
Vérifiez que ces fonctionnalités sont sous licence, puis testez-les pour vérifier qu’elles sont entièrement fonctionnelles (par exemple : Exécuter des opérations de sauvegarde de test sur la VTL)
# license show or # elicense show ## License Key Feature -- ------------------- ---------------------------------------- 1 WTXV-TSWX-HWDR-RHDX VTL 2 EZXW-SZZF-BGCS-VRZX Block services (Vdisk) 3 .... HA
Support autonome et tests d’alerte depuis le nœud actif et le nœud de secours
(active:1)## autosupport test alert-summary OK: Message sent. (active:1)## autosupport test support-notify OK: Message sent. (standby:0)# autosupport test alert-summary OK: Message sent. (standby:0)# autosupport test support-notify OK: Message sent.
Si CONNECTEMC (Secure Remote Services) est utilisé pour transférer ASUPS vers Data Domain, utilisez la commande suivante pour vérifier la connectivité sur les deux nœuds.
L’horodatage indique quand la dernière connexion a été établie.
sysadmin@hostname# support connectemc show history File Time Transport Result --------------------------------------- --------------------- --------- -------- RSC_CKM00XXX601153_120315_092804166.xml "2015-12-03 09:28:07" HTTP Success RSC_CKM00XXX601153_120315_101257767.xml "2015-12-03 10:13:00" HTTP Success RSC_CKM00XXX601153_120315_111649065.xml "2015-12-03 11:16:53" HTTP Success --------------------------------------- --------------------- --------- -------- Note: It says HTTP above, but it is HTTPS
Dépannage du système de fichiers HA
# filesys status
Vérifiez que le système de fichiers est activé et en cours d’exécution. L’état de nettoyage peut également être affiché.
The filesystem is enabled and running. Cleaning started at 2016/08/20 14:12:16: phase 1 of 12 (pre-merge) 0.7% complete, 95911 GiB free; time: phase 0:00:09, total 0:00:09
(active:1)# (standby:0)# system upgrade status
Sur les deux nœuds, vérifiez que toutes les mises à niveau sont terminées.
Current Upgrade Status: DD OS upgrade Succeeded End time: 2016.08.20:13:27
(active:1)# (standby:0)#Date
Assurez-vous que l’heure et la date correspondent sur les deux nœuds dans un délai de 10 secondes.
-p1(active:1)# date Sat Aug 20 14:34:29 EDT 2016 -p0(standby:0)# date Sat Aug 20 14:34:17 EDT 2016
Sur le nœud actif, vérifiez avec le client que la réplication DD (si elle est configurée) fonctionne comme prévu.
# replication status CTX Destination Enabled Connection Sync'ed-as-of-time --- --------------------------------------------------------- ------- ---------------- ------------------ 3 mtree://ddxxx.com/data/col1/eric.dest no idle Fri Nov 6 15:16 4 mtree://ddxxx.com/data/col1/thy-repl yes idle Fri Jul 22 15:38 5 dir://ddxxxx.com/backup/replicate-rtp yes disconnected Fri Jul 22 14:55 6 mtree://ddxxxx.com/data/col1/theman_test yes idle Sat Aug 20 22:11 7 dir://ddxxx.com/backup/lakeland/sym yes Sat Aug 20 13:15 Fri Aug 19 15:09 --- --------------------------------------------------------- ------- ---------------- ----------------
Cause
Matériel et configuration HA
Sur le nœud actif et le nœud de secours, vérifiez si une alerte active signale un problème potentiel. Les alertes ne sont pas toujours partagées entre les nœuds. Vérifiez donc les deux nœuds. Si un problème inattendu est rencontré, soumettez un dossier d’incident. Générez toujours un bundle de support à partir des deux nœuds.
Remarque : la plupart des alertes ne sont visibles que sur un seul nœud. Toutes les alertes ne sont pas partagées entre les nœuds.
Si l’état est « highly available », le basculement est activé.
Si l’état est « degraded » ou si l’un des nœuds n’affiche pas l’état « online », le basculement entre les nœuds est désactivé.
# ha status detailed
La commande #ha status detailed sur le nœud actif uniquement peut être utilisée pour obtenir des informations plus détaillées sur l’état HA.
L’une des sorties ci-dessous indiquant « not ok » dans la section Mirroring Status signale un composant qui ne fonctionne pas et l’état du système HA affiche « degraded ».
Tout état « degraded » empêche le basculement entre les nœuds.
Remarque : cette commande n’est pas disponible sur le nœud de secours.
# enclosure show io-cards
Vérifiez que les deux nœuds ont des configurations identiques et prises en charge.
# enclosure show misconfiguration
Effectuez un test de configuration incorrecte à partir du nœud actif et du nœud de secours pour vérifier si la configuration matérielle présente un problème.
Consultez l’article de la base de connaissances https://www.dell.com/support/kbdoc/en-us/463399
Exemples :
# enclosure show topology
Vérifiez la topologie à partir des deux nœuds.
Recherchez toute erreur entre les points de connexion et assurez-vous que la numérotation des tiroirs est correcte.
# enclosure test topology all duration 1
À partir du nœud actif et du nœud de secours, effectuez un test de diagnostic d’une minute pour tous les ports HBA SAS avec stockage externe rattaché.
N’effectuez pas de tests de topologie sur les deux nœuds simultanément.
Le résultat attendu est qu’aucune erreur n’a été détectée pour chaque port avec stockage rattaché.
Si un problème est détecté, le test peut s’arrêter avec un message d’échec indiquant que la connexion SAS est défaillante ou peut afficher une erreur (? , ! ) sur une connexion particulière.
Remarque : au cours du test de topologie, chaque port dispose d’une sortie distincte, indiquant l’état. Recherchez les erreurs (? , ! ) pour identifier le problème de connexion. Aucune sortie CLI n’est affichée tant que chaque test de port n’est pas terminé.
# system show nvram
Sur le nœud actif et le nœud de secours, assurez-vous que les batteries Nvram sont chargées ou en cours de charge et que tous les compteurs d’erreurs nvram affichent une valeur de zéro.
# alerts show current
Sur le nœud actif et le nœud de secours, vérifiez si une alerte active signale un problème potentiel. Les alertes ne sont pas toujours partagées entre les nœuds. Vérifiez donc les deux nœuds. Si un problème inattendu est rencontré, soumettez un dossier d’incident. Générez toujours un bundle de support à partir des deux nœuds.
Remarque : la plupart des alertes ne sont visibles que sur un seul nœud. Toutes les alertes ne sont pas partagées entre les nœuds.
Exemples d’alertes :
Severity Class Object Message -------- --------------- ------ ---------------------------------------------- CRITICAL HardwareFailure EVT-ENVIRONMENT-00049: The system detected an invalid hardware configuration. -- ------------------------ -------- --------------- ------ ---------------------------------------------- CRITICAL HardwareFailure EVT-ENVIRONMENT-00048: Filesystem can't be enabled due to an invalid hardware configuration. -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HardwareFailure Enclosure=1:Slot=5 EVT-ENVIRONMENT-00047: PCI communication speed is degraded -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HA EVT-HA-00003: Standby node time is off by 15 second(s). -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HardwareFailure Port Index=1 EVT-MPATH-00003: Missing disk connection from system port 6a. -- ------------------------ -------- --------------- ------ ----------------------------------------------
# ha status
La commande #ha status sur le nœud actif et le nœud de secours peut être utilisée pour déterminer l’état HA actuel.Si l’état est « highly available », le basculement est activé.
Si l’état est « degraded » ou si l’un des nœuds n’affiche pas l’état « online », le basculement entre les nœuds est désactivé.
SE@hostname-p0(active:0)## ha status HA System name:hostname-n1.chaos.local HA System status: highly available Node Name Node id Role HA State ------------------------------- ------- ------- -------- hostname-p0.chaos.local 0 active online hostname-p1.chaos.local 1 standby online ------------------------------- ------- ------- --------
# ha status detailed
La commande #ha status detailed sur le nœud actif uniquement peut être utilisée pour obtenir des informations plus détaillées sur l’état HA.
L’une des sorties ci-dessous indiquant « not ok » dans la section Mirroring Status signale un composant qui ne fonctionne pas et l’état du système HA affiche « degraded ».
Tout état « degraded » empêche le basculement entre les nœuds.
Remarque : cette commande n’est pas disponible sur le nœud de secours.
SEhostname-p0(active:0)## ha status detailed HA System name: hostname.chaos.local HA System Status: highly available Interconnect Status: ok Primary Heartbeat Status: ok External LAN Heartbeat Status: not ok Hardware compatibility check: ok Software Version Check: ok Node hostname-p0.chaos.local: Role: active HA State: online Node Health: ok Node hostname-p1.chaos.local: Role: standby HA State: online Node Health: ok Mirroring Status: Component Name Status -------------- ------ nvram ok registry ok sms ok ddboost ok cifs ok -------------- ------
# enclosure show io-cards
Vérifiez que les deux nœuds ont des configurations identiques et prises en charge.
# enclosure show misconfiguration
Effectuez un test de configuration incorrecte à partir du nœud actif et du nœud de secours pour vérifier si la configuration matérielle présente un problème.
Consultez l’article de la base de connaissances https://www.dell.com/support/kbdoc/en-us/463399
Exemples :
Memory DIMMs: Locator Bank Locator Size(GiB) Status ------- ------------ --------- ---------- CHCD1 7 0 missing CHDD1 7 0 missing CHAD0 4 8 wrong size CHBD0 4 8 wrong size IO Cards: Slot Device Status ---- ---------- --------- 10 Hera NVRAM extra 10 Hera NVRAM misplaced ---- ---------- --------- CPUs: No misconfiguration found. Disks: Slot Size(GiB) Type Media Status ---- --------- ---- ----- ------- 2 186 SATA SSD missing ---- --------- ---- ----- -----
# enclosure show topology
Vérifiez la topologie à partir des deux nœuds.
Recherchez toute erreur entre les points de connexion et assurez-vous que la numérotation des tiroirs est correcte.
- Les erreurs et les défauts sont symbolisés par « ? », « ! » ou « !! »
Remarque : les sorties de topologie de chaque nœud doivent être inversées (image miroir) l’une par rapport à l’autre.
(Stdby:0)## enclosure show topology
Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port
---- - ------------- - ------------- - ------------- - -------------
2a
2b
2c
2d > 5.A.E: 5.A.H ? 4.A.E: 4.A.H > 3.A.E: 3.A.H > 2.A.E: 2.A.H
3a
3b
3c
3d
6a !! 2.B.E: 2.B.H > 3.B.E: 3.B.H > 5.B.E: 5.B.H > ?.B.E: ?.B.H
6b
6c
6d
---- - ------------- - ------------- - ------------- - -------------
(active:1)## enclosure show topology
Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port
---- - ------------- - ------------- - ------------- - -------------
2a
2b
2c
2d > 2.A.H: 2.A.E > 3.A.H: 3.A.E > 4.A.H: 4.A.E > 5.A.H: 5.A.E
3a
3b
3c
3d
6a > 5.B.H: 5.B.E > 4.B.H: 4.B.E > 3.B.H: 3.B.E > 2.B.H: 2.B.E
6b
6c
6d
---- - ------------- - ------------- - ------------- - -------------
# enclosure test topology all duration 1
À partir du nœud actif et du nœud de secours, effectuez un test de diagnostic d’une minute pour tous les ports HBA SAS avec stockage externe rattaché.
N’effectuez pas de tests de topologie sur les deux nœuds simultanément.
Le résultat attendu est qu’aucune erreur n’a été détectée pour chaque port avec stockage rattaché.
Si un problème est détecté, le test peut s’arrêter avec un message d’échec indiquant que la connexion SAS est défaillante ou peut afficher une erreur (? , ! ) sur une connexion particulière.
Remarque : au cours du test de topologie, chaque port dispose d’une sortie distincte, indiquant l’état. Recherchez les erreurs (? , ! ) pour identifier le problème de connexion. Aucune sortie CLI n’est affichée tant que chaque test de port n’est pas terminé.
# enclosure test topology Started: 1471719316 Ended: 1471719498 Duration: 182 Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port ---- - --------------- - --------------- - --------------- - --------------- 2d > 5.A.H:5.A.E > 4.A.H:4.A.E > 3.A.H:3.A.E > 2.A.H:2.A.E ---- - --------------- - --------------- - --------------- - --------------- Error message: ----------------- No error detected -----------------
# system show nvram
Sur le nœud actif et le nœud de secours, assurez-vous que les batteries Nvram sont chargées ou en cours de charge et que tous les compteurs d’erreurs nvram affichent une valeur de zéro.
# system show nvram NVRAM Cards: Card Component Value ---- ----------------------- ---------------------------------------------------------------------- 1 Slot 0 Firmware version 0.0.80 Memory size 7.93 GiB Errors 0 memory (0 uncorrectable), 0 PCI, 0 controller Flash controller Errors 0 Cfg Err, 0 PANIC, 0 Bus Hang, 0 Bad Blk Warn, 0 Bkup Err, 0 Rstr Err Board temperature 37 C CPU temperature 47 C Number of batteries 1 ---- ----------------------- ---------------------------------------------------------------------- NVRAM Batteries: Card Battery Status Charge Charging Time To Temperature Voltage Status Full Charge ---- ------- ------ ------ -------- ----------- ----------- ------- 1 1 ok 94 % enabled 0 mins 34 C 4.016 V ---- ------- ------ ------ -------- ----------- ----------- -------
Resolution
Si vous avez besoin d’une aide supplémentaire, contactez votre prestataire de services contractuel.
Additional Information
.
Affected Products
Data DomainProducts
Data Domain, DD OS 6.0Article Properties
Article Number: 000017861
Article Type: Solution
Last Modified: 05 Jul 2024
Version: 3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.