Tilstandskontroll for Data Domain HA-verktøy (DDHA)
Summary: Denne artikkelen er ment å gi veiledning for å utføre en grunnleggende helsesjekk av hyaluronsyresystemet etter en servicehendelse. Data Domain Highly Available (DDHA)-konfigurasjoner varierer avhengig av Data Domain-modellene som brukes. ...
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
Data Domain Highly Available-systemer (DDHA) er designet for å mislykkes mellom noder. Bare den aktive noden er i produksjon mens standby-noden venter på at en feilhendelse skal ta plassen til den aktive noden (ACTIVE - PASSIVE).
Det er viktig å kontrollere at begge DDHA-nodene fungerer og fullføre en failover hvis det skulle oppstå en feil.
CLI-kommandoene som er beskrevet i denne artikkelen, hjelper deg med å avdekke mulige problemer som kan forhindre en vellykket failover.
Denne veiledningen er delt opp i viktige områder som bør sjekkes.
for HA-nettverk # net show innstillinger
Innstillingene for nettverksporter varierer avhengig av hvilken node kommandoen #net show settings er kjørt. Konfigurerte porter på DDHA-systemer er av typen "flytende" eller typen "fast". Kjør
Aktiv node:
Verifisere nettverkstilkoblingen.
Se gjennom IP-adressene som er oppført på hver node, og kontroller at hver konfigurerte IP-adresse på den aktive noden og ventemodusnodene kan pinge den konfigurerte gatewayen.
Merk: Noen kunder har ping (ICMP) deaktivert i miljøet sitt. I dette tilfellet engasjerer du kunden for å bekrefte tilkoblingen.
(active:1)# net route show gateway detailed
Ping gateway-IP-adressen med hver konfigurerte ethxx.
# net feilsøking duplikat-ip
Se etter dupliserte IP-adresser fra begge nodene
Testing
av fiberkanalKontroller at disse funksjonene er lisensiert, og test deretter disse funksjonene for å kontrollere at de fungerer fullstendig (for eksempel: Kjør testsikkerhetskopiering til VTL)
Autostøtte og varslingstesting fra både aktiv og ventemodus
Hvis CONNECTEMC (Secure Remote Services) brukes til å videresende ASUPS til Data Domain, bruker du følgende kommando for å bekrefte tilkoblingen på begge nodene.
Tidsstempelet angir når den siste tilkoblingen ble opprettet.
Feilsøking
av HA-filsystem # filesys status
Kontroller at FS er aktivert og kjører. Oppryddingsstatus kan også vises.
(aktiv:1)#(ventemodus:0)# status for systemoppgradering
Fra begge nodene kontrollerer du at alle oppgraderinger er fullført.
(aktiv:1)#(ventemodus:0)#Dato
Sørg for at klokkeslett og datotreff på begge nodene innen 10 sekunder
Fra den aktive noden må du bekrefte med kunden at DD-replikering (hvis konfigurert) fungerer som forventet.
Det er viktig å kontrollere at begge DDHA-nodene fungerer og fullføre en failover hvis det skulle oppstå en feil.
CLI-kommandoene som er beskrevet i denne artikkelen, hjelper deg med å avdekke mulige problemer som kan forhindre en vellykket failover.
Denne veiledningen er delt opp i viktige områder som bør sjekkes.
- HA-maskinvare og -konfigurasjon
- Nettverk
- Filsystem
for HA-nettverk # net show innstillinger
Innstillingene for nettverksporter varierer avhengig av hvilken node kommandoen #net show settings er kjørt. Konfigurerte porter på DDHA-systemer er av typen "flytende" eller typen "fast". Kjør
"net show settings"på begge nodene og sammenlign utdataene.
- "Flytende" grensesnitt: Kontroller at alle konfigurerte nettverkskortporter, aliaser eller veth som viser tilstanden aktivert og kjørende på den aktive noden, har identisk aktivert og kjørende tilstand på ventemodusnoden. Det forventes at alle konfigurerte NIC-porter, aliaser eller Veth som er satt til å skrive flytende, har en IP-adresse som vises på den aktive noden og en tilsvarende N/A på ventemodusnoden.
- "Faste" grensesnitt: Kontroller at alle konfigurerte NIC-porter, alias eller veth som er merket som "fixed", viser statusen "enabled and running state". "Faste" grensesnitt har ikke identiske konfigurasjoner mellom noder
- Kontrollere at HA-sammenkoblingen (veth99) vises og at alle nødvendige porter er aktivert og kjører. Merk: Antall nødvendige porttilkoblinger og sporplassering for HA-sammenkoblingen (veth99) er DD-modellspesifikt
Aktiv node:
# net show settings port enabled state DHCP IP address netmask type additional setting ------ ------- ------- ---- ------------------------------------ -------------- ------------ ----------------------------------------------- ethMa yes running no 10.25.18.50 255.255.255.0 fixed 2620:0:170:1608:260:16ff:fe5c:92bc** /64 fe80::260:16ff:fe5c:92bc** /64 ethMb no down ipv4 n/a n/a fixed ethMc no down ipv4 n/a n/a fixed ethMd no down ipv4 n/a n/a fixed eth4a yes running no 10.25.18.63 255.255.255.0 floating 2620:0:170:1608:260:16ff:fe51:8c60** /64 fe80::260:16ff:fe51:8c60** /64 eth4b no down no n/a n/a fixed eth4c no down no n/a n/a fixed eth4d no down no n/a n/a fixed eth5a no down no n/a n/a fixed eth5b yes running no 10.25.18.60 255.255.255.0 floating 2620:0:170:1608:260:16ff:fe52:2951** /64 fe80::260:16ff:fe52:2951** /64 eth5c no down no n/a n/a fixed eth5d no down no n/a n/a fixed eth11a yes running n/a n/a n/a interconnect bonded to veth99 eth11b yes running n/a n/a n/a interconnect bonded to veth99 eth11c yes running n/a n/a n/a interconnect bonded to veth99 eth11d yes running n/a n/a n/a interconnect bonded to veth99 veth99 yes running no d:d:d:d:d:0060:1652:0ecc /80 interconnect lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d fe80::260:16ff:fe52:ecc** /64 ------ ------- ------- ---- ------------------------------------ -------------- ------------ -----------------------------------------------Ventemodusnode:
# net show settings port enabled state DHCP IP address netmask type additional setting ------ ------- ------- ---- ------------------------------------ -------------- ------------ ----------------------------------------------- ethMa yes running no 10.25.18.49 255.255.255.0 fixed 2620:0:170:14567:260:16ff:fe5c:dr3** /64 fe80::260:16ff:fe5c3457c** /64 ethMb no down ipv4 n/a n/a fixed ethMc no down ipv4 n/a n/a fixed ethMd no down ipv4 n/a n/a fixed eth4a yes running no n/a 255.255.255.0 floating 2620:0:170:1608:260:1ght6:fe51:4570** /64 fe80::260:16ff:fe51:7890** /64 eth4b no down no n/a n/a fixed eth4c no down no n/a n/a fixed eth4d no down no n/a n/a fixed eth5a no down no n/a n/a fixed eth5b yes running no n/a 255.255.255.0 floating 2620:0:170:160:456:16ff:fe5234561** /64 fe80::260:16ff:fe52:3456** /64 eth5c no down no n/a n/a fixed eth5d no down no n/a n/a fixed eth11a yes running n/a n/a n/a interconnect bonded to veth99 eth11b yes running n/a n/a n/a interconnect bonded to veth99 eth11c yes running n/a n/a n/a interconnect bonded to veth99 eth11d yes running n/a n/a n/a interconnect bonded to veth99 veth99 yes running no d:d:d:d:d:0e456:1652:dft4c /80 interconnect lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d fe80::264:16ff:fec2:ecb** /64 ------ ------- ------- ---- ------------------------------------ -------------- ------------ -----------------------------------------------
Verifisere nettverkstilkoblingen.
Se gjennom IP-adressene som er oppført på hver node, og kontroller at hver konfigurerte IP-adresse på den aktive noden og ventemodusnodene kan pinge den konfigurerte gatewayen.
Merk: Noen kunder har ping (ICMP) deaktivert i miljøet sitt. I dette tilfellet engasjerer du kunden for å bekrefte tilkoblingen.
(active:1)# net route show gateway detailed
IPv4 Default Gateways gateway IP source tables interface address owner ---------- ------ ------ ----------------- ----- 10.25.18.1 static tethMa 10.25.18.50/24 none 10.25.18.1 static teth4a 10.25.18.63/24 none 10.25.18.1 static teth5b 10.25.18.60/24 none ---------- ------ ------ ----------------- -----
Ping gateway-IP-adressen med hver konfigurerte ethxx.
#(active:1)# ping 10.25.18.1 interface ethMa PING 10.25.18.1 (10.25.18.1) from 10.25.18.50 ethMa: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=0.697 ms (active:1)# ping 10.25.18.1 interface eth4a PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms (active:1)# ping 10.25.18.1 interface eth5b PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
# net feilsøking duplikat-ip
Se etter dupliserte IP-adresser fra begge nodene
No duplicate IP addresses detected
Testing
av fiberkanalKontroller at disse funksjonene er lisensiert, og test deretter disse funksjonene for å kontrollere at de fungerer fullstendig (for eksempel: Kjør testsikkerhetskopiering til VTL)
# license show or # elicense show ## License Key Feature -- ------------------- ---------------------------------------- 1 WTXV-TSWX-HWDR-RHDX VTL 2 EZXW-SZZF-BGCS-VRZX Block services (Vdisk) 3 .... HA
Autostøtte og varslingstesting fra både aktiv og ventemodus
(active:1)## autosupport test alert-summary OK: Message sent. (active:1)## autosupport test support-notify OK: Message sent. (standby:0)# autosupport test alert-summary OK: Message sent. (standby:0)# autosupport test support-notify OK: Message sent.
Hvis CONNECTEMC (Secure Remote Services) brukes til å videresende ASUPS til Data Domain, bruker du følgende kommando for å bekrefte tilkoblingen på begge nodene.
Tidsstempelet angir når den siste tilkoblingen ble opprettet.
sysadmin@hostname# support connectemc show history File Time Transport Result --------------------------------------- --------------------- --------- -------- RSC_CKM00XXX601153_120315_092804166.xml "2015-12-03 09:28:07" HTTP Success RSC_CKM00XXX601153_120315_101257767.xml "2015-12-03 10:13:00" HTTP Success RSC_CKM00XXX601153_120315_111649065.xml "2015-12-03 11:16:53" HTTP Success --------------------------------------- --------------------- --------- -------- Note: It says HTTP above, but it is HTTPS
Feilsøking
av HA-filsystem # filesys status
Kontroller at FS er aktivert og kjører. Oppryddingsstatus kan også vises.
The filesystem is enabled and running. Cleaning started at 2016/08/20 14:12:16: phase 1 of 12 (pre-merge) 0.7% complete, 95911 GiB free; time: phase 0:00:09, total 0:00:09
(aktiv:1)#(ventemodus:0)# status for systemoppgradering
Fra begge nodene kontrollerer du at alle oppgraderinger er fullført.
Current Upgrade Status: DD OS upgrade Succeeded End time: 2016.08.20:13:27
(aktiv:1)#(ventemodus:0)#Dato
Sørg for at klokkeslett og datotreff på begge nodene innen 10 sekunder
-p1(active:1)# date Sat Aug 20 14:34:29 EDT 2016 -p0(standby:0)# date Sat Aug 20 14:34:17 EDT 2016
Fra den aktive noden må du bekrefte med kunden at DD-replikering (hvis konfigurert) fungerer som forventet.
# replication status CTX Destination Enabled Connection Sync'ed-as-of-time --- --------------------------------------------------------- ------- ---------------- ------------------ 3 mtree://ddxxx.com/data/col1/eric.dest no idle Fri Nov 6 15:16 4 mtree://ddxxx.com/data/col1/thy-repl yes idle Fri Jul 22 15:38 5 dir://ddxxxx.com/backup/replicate-rtp yes disconnected Fri Jul 22 14:55 6 mtree://ddxxxx.com/data/col1/theman_test yes idle Sat Aug 20 22:11 7 dir://ddxxx.com/backup/lakeland/sym yes Sat Aug 20 13:15 Fri Aug 19 15:09 --- --------------------------------------------------------- ------- ---------------- ----------------
Cause
HA-maskinvare og -konfigurasjon
På både den aktive noden og standbynoden må du sjekke om det er et aktivt varsel som peker på et potensielt problem. Varsler deles ikke alltid mellom noder, så sjekk begge nodene. Hvis det oppstår et uventet problem, kan du sende inn en støttesak. Generer alltid en støttepakke fra begge nodene.
Merk. De fleste varsler vises bare på én av nodene. Ikke alle varsler deles mellom noder.
Hvis statusen er "høyt tilgjengelig", aktiveres failover.
Hvis statusen er "degraded", eller en av nodene ikke viser tilstanden "online", vil failover mellom noder være deaktivert.
# ha status detaljert
Kommandoen #ha statusen som bare er detaljert på den aktive noden, kan brukes for mer detaljert informasjon om HA-status.
Alle utdata nedenfor som viser "ikke ok" under avsnittet Speilingsstatus, indikerer en komponent som ikke fungerer, og HA-systemstatus vises som "degradert".
Enhver degradert tilstand forhindrer failover mellom noder.
Notat: Denne kommandoen er ikke tilgjengelig på ventemodusnoden.
# kabinett viser io-kort
Kontroller at begge nodene har identiske, støttede konfigurasjoner.
# kabinett viser feilkonfigurasjon
Utfør en feilkonfigurasjonstest fra den aktive noden og standby-nodene for å sjekke om det er problemer med maskinvarekonfigurasjonen.
Referanse KB https://www.dell.com/support/kbdoc/en-us/463399
Eksempler:
# enclosure show topology
Kontroller topologien fra begge nodene.
Se etter eventuelle feil mellom koblingspunkter, og sørg forat all hyllenummerering er riktig.
# Kapslingstesttopologi: All varighet: 1
Fra både aktive noder og standby-noder utfører du en 1-minutters diagnostikktest for alle SAS HBA-porter med tilkoblet ekstern lagring.
Ikke utfør topologitesting på begge nodene samtidig.
Det forventede resultatet er ingen feil oppdaget for hver port med lagring tilkoblet.
Hvis et problem blir funnet, kan testen stoppe med en feilmelding som angir SAS-tilkoblingen med en feil, eller det kan vise en feil (? , ! ) på en bestemt forbindelse.
Merk: Under topologitesten har individuelle porter en separat utgang som indikerer tilstanden. Se etter feil (? , ! )-knappen for å finne problemtilkoblingen. Ingen CLI-utdata vises før hver porttest er fullført.
# system show nvram
På både aktive noder og standby-noder må du sørge for at Nvram-batterier lades eller lades, og at alle nvram-feiltellere viser verdien null.
# alerts show current
På både den aktive noden og standbynoden må du sjekke om det er et aktivt varsel som peker på et potensielt problem. Varsler deles ikke alltid mellom noder, så sjekk begge nodene. Hvis det oppstår et uventet problem, kan du sende inn en støttesak. Generer alltid en støttepakke fra begge nodene.
Merk. De fleste varsler vises bare på én av nodene. Ikke alle varsler deles mellom noder.
Eksempler på varsler:
Severity Class Object Message -------- --------------- ------ ---------------------------------------------- CRITICAL HardwareFailure EVT-ENVIRONMENT-00049: The system detected an invalid hardware configuration. -- ------------------------ -------- --------------- ------ ---------------------------------------------- CRITICAL HardwareFailure EVT-ENVIRONMENT-00048: Filesystem can't be enabled due to an invalid hardware configuration. -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HardwareFailure Enclosure=1:Slot=5 EVT-ENVIRONMENT-00047: PCI communication speed is degraded -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HA EVT-HA-00003: Standby node time is off by 15 second(s). -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HardwareFailure Port Index=1 EVT-MPATH-00003: Missing disk connection from system port 6a. -- ------------------------ -------- --------------- ------ ----------------------------------------------
# ha status
Kommando #ha-statuspå den aktive noden og ventemodusnoden kan brukes til å fastslå gjeldende HA-status.Hvis statusen er "høyt tilgjengelig", aktiveres failover.
Hvis statusen er "degraded", eller en av nodene ikke viser tilstanden "online", vil failover mellom noder være deaktivert.
SE@hostname-p0(active:0)## ha status HA System name:hostname-n1.chaos.local HA System status: highly available Node Name Node id Role HA State ------------------------------- ------- ------- -------- hostname-p0.chaos.local 0 active online hostname-p1.chaos.local 1 standby online ------------------------------- ------- ------- --------
# ha status detaljert
Kommandoen #ha statusen som bare er detaljert på den aktive noden, kan brukes for mer detaljert informasjon om HA-status.
Alle utdata nedenfor som viser "ikke ok" under avsnittet Speilingsstatus, indikerer en komponent som ikke fungerer, og HA-systemstatus vises som "degradert".
Enhver degradert tilstand forhindrer failover mellom noder.
Notat: Denne kommandoen er ikke tilgjengelig på ventemodusnoden.
SEhostname-p0(active:0)## ha status detailed HA System name: hostname.chaos.local HA System Status: highly available Interconnect Status: ok Primary Heartbeat Status: ok External LAN Heartbeat Status: not ok Hardware compatibility check: ok Software Version Check: ok Node hostname-p0.chaos.local: Role: active HA State: online Node Health: ok Node hostname-p1.chaos.local: Role: standby HA State: online Node Health: ok Mirroring Status: Component Name Status -------------- ------ nvram ok registry ok sms ok ddboost ok cifs ok -------------- ------
# kabinett viser io-kort
Kontroller at begge nodene har identiske, støttede konfigurasjoner.
# kabinett viser feilkonfigurasjon
Utfør en feilkonfigurasjonstest fra den aktive noden og standby-nodene for å sjekke om det er problemer med maskinvarekonfigurasjonen.
Referanse KB https://www.dell.com/support/kbdoc/en-us/463399
Eksempler:
Memory DIMMs: Locator Bank Locator Size(GiB) Status ------- ------------ --------- ---------- CHCD1 7 0 missing CHDD1 7 0 missing CHAD0 4 8 wrong size CHBD0 4 8 wrong size IO Cards: Slot Device Status ---- ---------- --------- 10 Hera NVRAM extra 10 Hera NVRAM misplaced ---- ---------- --------- CPUs: No misconfiguration found. Disks: Slot Size(GiB) Type Media Status ---- --------- ---- ----- ------- 2 186 SATA SSD missing ---- --------- ---- ----- -----
# enclosure show topology
Kontroller topologien fra begge nodene.
Se etter eventuelle feil mellom koblingspunkter, og sørg forat all hyllenummerering er riktig.
- Feil og mangler er symbolisert med '?', '!' Eller '!!'
Merk: At topologiutgangene for hver node skal reverseres (speilbilde) av hverandre.
(Stdby:0)## enclosure show topology
Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port
---- - ------------- - ------------- - ------------- - -------------
2a
2b
2c
2d > 5.A.E: 5.A.H ? 4.A.E: 4.A.H > 3.A.E: 3.A.H > 2.A.E: 2.A.H
3a
3b
3c
3d
6a !! 2.B.E: 2.B.H > 3.B.E: 3.B.H > 5.B.E: 5.B.H > ?.B.E: ?.B.H
6b
6c
6d
---- - ------------- - ------------- - ------------- - -------------
(active:1)## enclosure show topology
Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port
---- - ------------- - ------------- - ------------- - -------------
2a
2b
2c
2d > 2.A.H: 2.A.E > 3.A.H: 3.A.E > 4.A.H: 4.A.E > 5.A.H: 5.A.E
3a
3b
3c
3d
6a > 5.B.H: 5.B.E > 4.B.H: 4.B.E > 3.B.H: 3.B.E > 2.B.H: 2.B.E
6b
6c
6d
---- - ------------- - ------------- - ------------- - -------------
# Kapslingstesttopologi: All varighet: 1
Fra både aktive noder og standby-noder utfører du en 1-minutters diagnostikktest for alle SAS HBA-porter med tilkoblet ekstern lagring.
Ikke utfør topologitesting på begge nodene samtidig.
Det forventede resultatet er ingen feil oppdaget for hver port med lagring tilkoblet.
Hvis et problem blir funnet, kan testen stoppe med en feilmelding som angir SAS-tilkoblingen med en feil, eller det kan vise en feil (? , ! ) på en bestemt forbindelse.
Merk: Under topologitesten har individuelle porter en separat utgang som indikerer tilstanden. Se etter feil (? , ! )-knappen for å finne problemtilkoblingen. Ingen CLI-utdata vises før hver porttest er fullført.
# enclosure test topology Started: 1471719316 Ended: 1471719498 Duration: 182 Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port ---- - --------------- - --------------- - --------------- - --------------- 2d > 5.A.H:5.A.E > 4.A.H:4.A.E > 3.A.H:3.A.E > 2.A.H:2.A.E ---- - --------------- - --------------- - --------------- - --------------- Error message: ----------------- No error detected -----------------
# system show nvram
På både aktive noder og standby-noder må du sørge for at Nvram-batterier lades eller lades, og at alle nvram-feiltellere viser verdien null.
# system show nvram NVRAM Cards: Card Component Value ---- ----------------------- ---------------------------------------------------------------------- 1 Slot 0 Firmware version 0.0.80 Memory size 7.93 GiB Errors 0 memory (0 uncorrectable), 0 PCI, 0 controller Flash controller Errors 0 Cfg Err, 0 PANIC, 0 Bus Hang, 0 Bad Blk Warn, 0 Bkup Err, 0 Rstr Err Board temperature 37 C CPU temperature 47 C Number of batteries 1 ---- ----------------------- ---------------------------------------------------------------------- NVRAM Batteries: Card Battery Status Charge Charging Time To Temperature Voltage Status Full Charge ---- ------- ------ ------ -------- ----------- ----------- ------- 1 1 ok 94 % enabled 0 mins 34 C 4.016 V ---- ------- ------ ------ -------- ----------- ----------- -------
Resolution
Hvis du trenger ytterligere assistanse, kan du kontakte den avtalte tjenesteleverandøren.
Additional Information
.
Affected Products
Data DomainProducts
Data Domain, DD OS 6.0Article Properties
Article Number: 000017861
Article Type: Solution
Last Modified: 05 Jul 2024
Version: 3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.