Tilstandskontrol af DDHA-enheder (Data Domain HA)
Summary: Denne artikel er beregnet til at give vejledning i at udføre en grundlæggende tilstandskontrol af HA-systemet efter en servicehændelse. DDHA-konfigurationer (Data Domain Highly Available) varierer afhængigt af de anvendte Data Domain-modeller. ...
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
Data Domain Highly Available Systems (DDHA) er designet til failover mellem noder. Det er kun den aktive node, der er i produktion, mens standbynoden afventer en fejlhændelse, der skal erstatte den aktive node (AKTIV – PASSIV).
Det er vigtigt at kontrollere, at begge DDHA-noder fungerer, og fuldføre en fail-over, hvis der skulle opstå en fejl.
CLI-kommandoerne, der er beskrevet i denne artikel, hjælper med at afdække mulige problemer, der kan forhindre en vellykket failover.
Denne vejledning er opdelt i nøgleområder, der skal kontrolleres.
# net show indstillinger
Netværksportindstillingerne er forskellige, afhængigt af hvilken node kommandoen #net vis indstillinger køres. Konfigurerede porte på DDHA-systemer er af typen "flydende" eller typen "fast". Kør
Aktiv node:
Bekræfte netværksforbindelsen.
Gennemse de IP-adresser, der er angivet på hver node, og sørg for, at hver konfigureret IP-adresse på den aktive node og standbynoderne kan pinge den konfigurerede gateway.
Bemærk: Nogle kunder har ping (ICMP) deaktiveret i deres miljø. I dette tilfælde skal du kontakte kunden for at bekræfte forbindelsen.
(aktiv:1)# net route show gateway detaljeret
Ping gatewayens IP-adresse med hver konfigureret ethxx.
# Net fejlfinding duplikat-IP
Fra begge noder skal du kontrollere, om der er duplikerede IP'er
Fibre Channel-test
Bekræft, at disse funktioner er licenseret, og test derefter disse funktioner for at bekræfte, at de er fuldt funktionelle (f.eks.: Kør sikkerhedskopieringstesthandlinger til VTL)
Autosupport og advarselstest fra både aktiv og standby
Hvis CONNECTEMC (Secure Remote Services) bruges til at videresende ASUPS til Data Domain, skal du bruge følgende kommando til at bekræfte forbindelsen på begge noder.
Tidsstemplet angiver, hvornår den sidste forbindelse blev oprettet.
Fejlfinding af
HA-filsystem # filesys status
Kontrollér, at FS er aktiveret og kører. Rengøringsstatus kan også vises.
(aktiv:1)#(standby:0)# status for
systemopgraderingFra begge noder skal du kontrollere, at alle opgraderinger er fuldført.
(aktiv:1)#(standby:0)#Dato
Sørg for, at klokkeslæt og dato stemmer overens på begge noder inden for 10 sekunder
Fra den aktive node skal du bekræfte med kunden, at DD-replikering (hvis konfigureret) fungerer som forventet.
Det er vigtigt at kontrollere, at begge DDHA-noder fungerer, og fuldføre en fail-over, hvis der skulle opstå en fejl.
CLI-kommandoerne, der er beskrevet i denne artikel, hjælper med at afdække mulige problemer, der kan forhindre en vellykket failover.
Denne vejledning er opdelt i nøgleområder, der skal kontrolleres.
- HA-hardware og -konfiguration
- Netværk
- Filsystem
# net show indstillinger
Netværksportindstillingerne er forskellige, afhængigt af hvilken node kommandoen #net vis indstillinger køres. Konfigurerede porte på DDHA-systemer er af typen "flydende" eller typen "fast". Kør
"net show settings"på begge noder og sammenligne output.
- "Flydende" grænseflader: Kontrollér, at alle konfigurerede netværkskortporte (NIC), alias eller veth, som viser en aktiveret og kørende tilstand på den aktive node, har en identisk aktiveret og kørende tilstand på standbynoden. Det forventes, at enhver konfigureret NIC-port, alias eller Veth, der er indstillet til at skrive flydende, har en IP-adresse, der vises på den aktive node og en tilsvarende N/A på standbynoden.
- "Faste" grænseflader: Kontrollér, at alle konfigurerede NIC-porte, alias eller veth, der er mærket som "fast", viser en "aktiveret og kørende tilstand". "Faste" grænseflader har ikke identiske konfigurationer mellem noder
- Kontroller, at HA-forbindelsen (veth99) vises, og at alle nødvendige porte er aktiveret og kører. Bemærk: Antallet af påkrævede porttilslutninger og slotplacering for HA-sammenkoblingen (veth99) er DD-modelspecifikt
Aktiv node:
# net show settings port enabled state DHCP IP address netmask type additional setting ------ ------- ------- ---- ------------------------------------ -------------- ------------ ----------------------------------------------- ethMa yes running no 10.25.18.50 255.255.255.0 fixed 2620:0:170:1608:260:16ff:fe5c:92bc** /64 fe80::260:16ff:fe5c:92bc** /64 ethMb no down ipv4 n/a n/a fixed ethMc no down ipv4 n/a n/a fixed ethMd no down ipv4 n/a n/a fixed eth4a yes running no 10.25.18.63 255.255.255.0 floating 2620:0:170:1608:260:16ff:fe51:8c60** /64 fe80::260:16ff:fe51:8c60** /64 eth4b no down no n/a n/a fixed eth4c no down no n/a n/a fixed eth4d no down no n/a n/a fixed eth5a no down no n/a n/a fixed eth5b yes running no 10.25.18.60 255.255.255.0 floating 2620:0:170:1608:260:16ff:fe52:2951** /64 fe80::260:16ff:fe52:2951** /64 eth5c no down no n/a n/a fixed eth5d no down no n/a n/a fixed eth11a yes running n/a n/a n/a interconnect bonded to veth99 eth11b yes running n/a n/a n/a interconnect bonded to veth99 eth11c yes running n/a n/a n/a interconnect bonded to veth99 eth11d yes running n/a n/a n/a interconnect bonded to veth99 veth99 yes running no d:d:d:d:d:0060:1652:0ecc /80 interconnect lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d fe80::260:16ff:fe52:ecc** /64 ------ ------- ------- ---- ------------------------------------ -------------- ------------ -----------------------------------------------Standbynode :
# net show settings port enabled state DHCP IP address netmask type additional setting ------ ------- ------- ---- ------------------------------------ -------------- ------------ ----------------------------------------------- ethMa yes running no 10.25.18.49 255.255.255.0 fixed 2620:0:170:14567:260:16ff:fe5c:dr3** /64 fe80::260:16ff:fe5c3457c** /64 ethMb no down ipv4 n/a n/a fixed ethMc no down ipv4 n/a n/a fixed ethMd no down ipv4 n/a n/a fixed eth4a yes running no n/a 255.255.255.0 floating 2620:0:170:1608:260:1ght6:fe51:4570** /64 fe80::260:16ff:fe51:7890** /64 eth4b no down no n/a n/a fixed eth4c no down no n/a n/a fixed eth4d no down no n/a n/a fixed eth5a no down no n/a n/a fixed eth5b yes running no n/a 255.255.255.0 floating 2620:0:170:160:456:16ff:fe5234561** /64 fe80::260:16ff:fe52:3456** /64 eth5c no down no n/a n/a fixed eth5d no down no n/a n/a fixed eth11a yes running n/a n/a n/a interconnect bonded to veth99 eth11b yes running n/a n/a n/a interconnect bonded to veth99 eth11c yes running n/a n/a n/a interconnect bonded to veth99 eth11d yes running n/a n/a n/a interconnect bonded to veth99 veth99 yes running no d:d:d:d:d:0e456:1652:dft4c /80 interconnect lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d fe80::264:16ff:fec2:ecb** /64 ------ ------- ------- ---- ------------------------------------ -------------- ------------ -----------------------------------------------
Bekræfte netværksforbindelsen.
Gennemse de IP-adresser, der er angivet på hver node, og sørg for, at hver konfigureret IP-adresse på den aktive node og standbynoderne kan pinge den konfigurerede gateway.
Bemærk: Nogle kunder har ping (ICMP) deaktiveret i deres miljø. I dette tilfælde skal du kontakte kunden for at bekræfte forbindelsen.
(aktiv:1)# net route show gateway detaljeret
IPv4 Default Gateways gateway IP source tables interface address owner ---------- ------ ------ ----------------- ----- 10.25.18.1 static tethMa 10.25.18.50/24 none 10.25.18.1 static teth4a 10.25.18.63/24 none 10.25.18.1 static teth5b 10.25.18.60/24 none ---------- ------ ------ ----------------- -----
Ping gatewayens IP-adresse med hver konfigureret ethxx.
#(active:1)# ping 10.25.18.1 interface ethMa PING 10.25.18.1 (10.25.18.1) from 10.25.18.50 ethMa: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=0.697 ms (active:1)# ping 10.25.18.1 interface eth4a PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms (active:1)# ping 10.25.18.1 interface eth5b PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
# Net fejlfinding duplikat-IP
Fra begge noder skal du kontrollere, om der er duplikerede IP'er
No duplicate IP addresses detected
Fibre Channel-test
Bekræft, at disse funktioner er licenseret, og test derefter disse funktioner for at bekræfte, at de er fuldt funktionelle (f.eks.: Kør sikkerhedskopieringstesthandlinger til VTL)
# license show or # elicense show ## License Key Feature -- ------------------- ---------------------------------------- 1 WTXV-TSWX-HWDR-RHDX VTL 2 EZXW-SZZF-BGCS-VRZX Block services (Vdisk) 3 .... HA
Autosupport og advarselstest fra både aktiv og standby
(active:1)## autosupport test alert-summary OK: Message sent. (active:1)## autosupport test support-notify OK: Message sent. (standby:0)# autosupport test alert-summary OK: Message sent. (standby:0)# autosupport test support-notify OK: Message sent.
Hvis CONNECTEMC (Secure Remote Services) bruges til at videresende ASUPS til Data Domain, skal du bruge følgende kommando til at bekræfte forbindelsen på begge noder.
Tidsstemplet angiver, hvornår den sidste forbindelse blev oprettet.
sysadmin@hostname# support connectemc show history File Time Transport Result --------------------------------------- --------------------- --------- -------- RSC_CKM00XXX601153_120315_092804166.xml "2015-12-03 09:28:07" HTTP Success RSC_CKM00XXX601153_120315_101257767.xml "2015-12-03 10:13:00" HTTP Success RSC_CKM00XXX601153_120315_111649065.xml "2015-12-03 11:16:53" HTTP Success --------------------------------------- --------------------- --------- -------- Note: It says HTTP above, but it is HTTPS
Fejlfinding af
HA-filsystem # filesys status
Kontrollér, at FS er aktiveret og kører. Rengøringsstatus kan også vises.
The filesystem is enabled and running. Cleaning started at 2016/08/20 14:12:16: phase 1 of 12 (pre-merge) 0.7% complete, 95911 GiB free; time: phase 0:00:09, total 0:00:09
(aktiv:1)#(standby:0)# status for
systemopgraderingFra begge noder skal du kontrollere, at alle opgraderinger er fuldført.
Current Upgrade Status: DD OS upgrade Succeeded End time: 2016.08.20:13:27
(aktiv:1)#(standby:0)#Dato
Sørg for, at klokkeslæt og dato stemmer overens på begge noder inden for 10 sekunder
-p1(active:1)# date Sat Aug 20 14:34:29 EDT 2016 -p0(standby:0)# date Sat Aug 20 14:34:17 EDT 2016
Fra den aktive node skal du bekræfte med kunden, at DD-replikering (hvis konfigureret) fungerer som forventet.
# replication status CTX Destination Enabled Connection Sync'ed-as-of-time --- --------------------------------------------------------- ------- ---------------- ------------------ 3 mtree://ddxxx.com/data/col1/eric.dest no idle Fri Nov 6 15:16 4 mtree://ddxxx.com/data/col1/thy-repl yes idle Fri Jul 22 15:38 5 dir://ddxxxx.com/backup/replicate-rtp yes disconnected Fri Jul 22 14:55 6 mtree://ddxxxx.com/data/col1/theman_test yes idle Sat Aug 20 22:11 7 dir://ddxxx.com/backup/lakeland/sym yes Sat Aug 20 13:15 Fri Aug 19 15:09 --- --------------------------------------------------------- ------- ---------------- ----------------
Cause
HA-hardware og -konfiguration
På både den aktive node og standbynoden skal du kontrollere, om der er en aktiv advarsel, der peger på et potentielt problem. Advarsler deles ikke altid mellem noder, så tjek begge noder. Hvis der opstår et uventet problem, skal du indsende en supportsag. Generer altid en supportpakke fra begge noder.
Bemærk. De fleste advarsler ses kun på en af noderne. Ikke alle advarsler deles mellem noder.
Hvis status er "Meget tilgængelig", aktiveres failover.
Hvis status er "forringet", eller en af noderne ikke viser tilstanden "online", deaktiveres failover mellem noder.
# HA status detaljeret
Kommandoen #ha status , der kun er detaljeret for den aktive node, kan bruges til at få mere detaljerede oplysninger om HA-status.
Enhver af nedenstående udgange, der viser "not ok" i afsnittet Spejlingsstatus, angiver en komponent, der ikke fungerer, og HA-systemstatus vises som "forringet".
Enhver forringet tilstand forhindrer failover mellem noder.
Seddel: Denne kommando er ikke tilgængelig på standbynoden.
# Indkapsling Vis IO-kort
Bekræft, at begge noder har identiske, understøttede konfigurationer.
# kabinet viser forkert konfiguration
Udfør en fejlkonfigurationstest fra den aktive node og standbynoderne for at kontrollere, om der er problemer med hardwarekonfigurationen.
Se KB-https://www.dell.com/support/kbdoc/en-us/463399
Eksempler:
# kabinet vis topologi
Kontroller topologien fra begge noder.
Se efter eventuelle fejl mellem forbindelsespunkter, ogsørg for, at al hyldenummerering er korrekt.
# kabinettesttopologi hele varighed 1
Fra både aktive noder og standbynoder skal du udføre en 1 minuts diagnosticeringstest for alle SAS HBA-porte med tilsluttet eksternt lager.
Udfør ikke topologitest på begge noder samtidigt.
Det forventede resultat er, at der ikke registreres nogen fejl for hver port med tilsluttet storage.
Hvis der findes et problem, kan testen stoppe med en fejlmeddelelse, der angiver SAS-forbindelsen med en fejl, eller kan vise en fejl (? , ! ) på en bestemt forbindelse.
Bemærk: Under topologitesten har de enkelte porte en separat udgang, der angiver tilstanden. Se efter fejl (? , ! ) for at lokalisere problemforbindelsen. Der vises ikke noget CLI-output, før hver porttest er fuldført.
# system show NVRAM
På både aktive noder og standbynoder skal du sørge for, at Nvram-batterier er opladet eller opladet, og at alle nvram-fejltællere viser en værdi på nul.
# alerts show current
På både den aktive node og standbynoden skal du kontrollere, om der er en aktiv advarsel, der peger på et potentielt problem. Advarsler deles ikke altid mellem noder, så tjek begge noder. Hvis der opstår et uventet problem, skal du indsende en supportsag. Generer altid en supportpakke fra begge noder.
Bemærk. De fleste advarsler ses kun på en af noderne. Ikke alle advarsler deles mellem noder.
Eksempler på advarsler:
Severity Class Object Message -------- --------------- ------ ---------------------------------------------- CRITICAL HardwareFailure EVT-ENVIRONMENT-00049: The system detected an invalid hardware configuration. -- ------------------------ -------- --------------- ------ ---------------------------------------------- CRITICAL HardwareFailure EVT-ENVIRONMENT-00048: Filesystem can't be enabled due to an invalid hardware configuration. -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HardwareFailure Enclosure=1:Slot=5 EVT-ENVIRONMENT-00047: PCI communication speed is degraded -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HA EVT-HA-00003: Standby node time is off by 15 second(s). -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HardwareFailure Port Index=1 EVT-MPATH-00003: Missing disk connection from system port 6a. -- ------------------------ -------- --------------- ------ ----------------------------------------------
# HA status
Command #ha-status på den aktive node og standbynode kan bruges til at bestemme den aktuelle HA-status.Hvis status er "Meget tilgængelig", aktiveres failover.
Hvis status er "forringet", eller en af noderne ikke viser tilstanden "online", deaktiveres failover mellem noder.
SE@hostname-p0(active:0)## ha status HA System name:hostname-n1.chaos.local HA System status: highly available Node Name Node id Role HA State ------------------------------- ------- ------- -------- hostname-p0.chaos.local 0 active online hostname-p1.chaos.local 1 standby online ------------------------------- ------- ------- --------
# HA status detaljeret
Kommandoen #ha status , der kun er detaljeret for den aktive node, kan bruges til at få mere detaljerede oplysninger om HA-status.
Enhver af nedenstående udgange, der viser "not ok" i afsnittet Spejlingsstatus, angiver en komponent, der ikke fungerer, og HA-systemstatus vises som "forringet".
Enhver forringet tilstand forhindrer failover mellem noder.
Seddel: Denne kommando er ikke tilgængelig på standbynoden.
SEhostname-p0(active:0)## ha status detailed HA System name: hostname.chaos.local HA System Status: highly available Interconnect Status: ok Primary Heartbeat Status: ok External LAN Heartbeat Status: not ok Hardware compatibility check: ok Software Version Check: ok Node hostname-p0.chaos.local: Role: active HA State: online Node Health: ok Node hostname-p1.chaos.local: Role: standby HA State: online Node Health: ok Mirroring Status: Component Name Status -------------- ------ nvram ok registry ok sms ok ddboost ok cifs ok -------------- ------
# Indkapsling Vis IO-kort
Bekræft, at begge noder har identiske, understøttede konfigurationer.
# kabinet viser forkert konfiguration
Udfør en fejlkonfigurationstest fra den aktive node og standbynoderne for at kontrollere, om der er problemer med hardwarekonfigurationen.
Se KB-https://www.dell.com/support/kbdoc/en-us/463399
Eksempler:
Memory DIMMs: Locator Bank Locator Size(GiB) Status ------- ------------ --------- ---------- CHCD1 7 0 missing CHDD1 7 0 missing CHAD0 4 8 wrong size CHBD0 4 8 wrong size IO Cards: Slot Device Status ---- ---------- --------- 10 Hera NVRAM extra 10 Hera NVRAM misplaced ---- ---------- --------- CPUs: No misconfiguration found. Disks: Slot Size(GiB) Type Media Status ---- --------- ---- ----- ------- 2 186 SATA SSD missing ---- --------- ---- ----- -----
# kabinet vis topologi
Kontroller topologien fra begge noder.
Se efter eventuelle fejl mellem forbindelsespunkter, ogsørg for, at al hyldenummerering er korrekt.
- Fejl og mangler symboliseres med '?', '!' Eller '!!'
Bemærk: At topologioutput for hver node skal vendes (spejlbillede) af hinanden.
(Stdby:0)## enclosure show topology
Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port
---- - ------------- - ------------- - ------------- - -------------
2a
2b
2c
2d > 5.A.E: 5.A.H ? 4.A.E: 4.A.H > 3.A.E: 3.A.H > 2.A.E: 2.A.H
3a
3b
3c
3d
6a !! 2.B.E: 2.B.H > 3.B.E: 3.B.H > 5.B.E: 5.B.H > ?.B.E: ?.B.H
6b
6c
6d
---- - ------------- - ------------- - ------------- - -------------
(active:1)## enclosure show topology
Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port
---- - ------------- - ------------- - ------------- - -------------
2a
2b
2c
2d > 2.A.H: 2.A.E > 3.A.H: 3.A.E > 4.A.H: 4.A.E > 5.A.H: 5.A.E
3a
3b
3c
3d
6a > 5.B.H: 5.B.E > 4.B.H: 4.B.E > 3.B.H: 3.B.E > 2.B.H: 2.B.E
6b
6c
6d
---- - ------------- - ------------- - ------------- - -------------
# kabinettesttopologi hele varighed 1
Fra både aktive noder og standbynoder skal du udføre en 1 minuts diagnosticeringstest for alle SAS HBA-porte med tilsluttet eksternt lager.
Udfør ikke topologitest på begge noder samtidigt.
Det forventede resultat er, at der ikke registreres nogen fejl for hver port med tilsluttet storage.
Hvis der findes et problem, kan testen stoppe med en fejlmeddelelse, der angiver SAS-forbindelsen med en fejl, eller kan vise en fejl (? , ! ) på en bestemt forbindelse.
Bemærk: Under topologitesten har de enkelte porte en separat udgang, der angiver tilstanden. Se efter fejl (? , ! ) for at lokalisere problemforbindelsen. Der vises ikke noget CLI-output, før hver porttest er fuldført.
# enclosure test topology Started: 1471719316 Ended: 1471719498 Duration: 182 Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port ---- - --------------- - --------------- - --------------- - --------------- 2d > 5.A.H:5.A.E > 4.A.H:4.A.E > 3.A.H:3.A.E > 2.A.H:2.A.E ---- - --------------- - --------------- - --------------- - --------------- Error message: ----------------- No error detected -----------------
# system show NVRAM
På både aktive noder og standbynoder skal du sørge for, at Nvram-batterier er opladet eller opladet, og at alle nvram-fejltællere viser en værdi på nul.
# system show nvram NVRAM Cards: Card Component Value ---- ----------------------- ---------------------------------------------------------------------- 1 Slot 0 Firmware version 0.0.80 Memory size 7.93 GiB Errors 0 memory (0 uncorrectable), 0 PCI, 0 controller Flash controller Errors 0 Cfg Err, 0 PANIC, 0 Bus Hang, 0 Bad Blk Warn, 0 Bkup Err, 0 Rstr Err Board temperature 37 C CPU temperature 47 C Number of batteries 1 ---- ----------------------- ---------------------------------------------------------------------- NVRAM Batteries: Card Battery Status Charge Charging Time To Temperature Voltage Status Full Charge ---- ------- ------ ------ -------- ----------- ----------- ------- 1 1 ok 94 % enabled 0 mins 34 C 4.016 V ---- ------- ------ ------ -------- ----------- ----------- -------
Resolution
Hvis du har brug for yderligere hjælp, skal du kontakte den serviceudbyder, du har indgået kontrakt med.
Additional Information
.
Affected Products
Data DomainProducts
Data Domain, DD OS 6.0Article Properties
Article Number: 000017861
Article Type: Solution
Last Modified: 05 Jul 2024
Version: 3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.