Tilstandskontrol af DDHA-enheder (Data Domain HA)

Summary: Denne artikel er beregnet til at give vejledning i at udføre en grundlæggende tilstandskontrol af HA-systemet efter en servicehændelse. DDHA-konfigurationer (Data Domain Highly Available) varierer afhængigt af de anvendte Data Domain-modeller. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Data Domain Highly Available Systems (DDHA) er designet til failover mellem noder.  Det er kun den aktive node, der er i produktion, mens standbynoden afventer en fejlhændelse, der skal erstatte den aktive node (AKTIV – PASSIV). 
Det er vigtigt at kontrollere, at begge DDHA-noder fungerer, og fuldføre en fail-over, hvis der skulle opstå en fejl. 
CLI-kommandoerne, der er beskrevet i denne artikel, hjælper med at afdække mulige problemer, der kan forhindre en vellykket failover. 
Denne vejledning er opdelt i nøgleområder, der skal kontrolleres.
  • HA-hardware og -konfiguration
  • Netværk
  • Filsystem
Fejlfinding af HA-netværk
 
# net show indstillinger  
Netværksportindstillingerne er forskellige, afhængigt af hvilken node kommandoen #net vis indstillinger køres. Konfigurerede porte på DDHA-systemer er af typen "flydende" eller typen "fast".  Kør
 "net show settings"
på begge noder og sammenligne output.
  1. "Flydende" grænseflader:  Kontrollér, at alle konfigurerede netværkskortporte (NIC), alias eller veth, som viser en aktiveret og kørende tilstand på den aktive node, har en identisk aktiveret og kørende tilstand på standbynoden.  Det forventes, at enhver konfigureret NIC-port, alias eller Veth, der er indstillet til at skrive flydende, har en IP-adresse, der vises på den aktive node og en tilsvarende N/A på standbynoden. 
  2. "Faste" grænseflader: Kontrollér, at alle konfigurerede NIC-porte, alias eller veth, der er mærket som "fast", viser en "aktiveret og kørende tilstand". "Faste" grænseflader har ikke identiske konfigurationer mellem noder
  3. Kontroller, at HA-forbindelsen (veth99) vises, og at alle nødvendige porte er aktiveret og kører. Bemærk:  Antallet af påkrævede porttilslutninger og slotplacering for HA-sammenkoblingen (veth99) er DD-modelspecifikt

Aktiv node:
# net show settings
port     enabled   state     DHCP   IP address                             netmask          type           additional setting
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
ethMa    yes       running   no     10.25.18.50                            255.255.255.0       fixed
                                           2620:0:170:1608:260:16ff:fe5c:92bc**   /64
                                                fe80::260:16ff:fe5c:92bc**        /64
ethMb    no        down      ipv4   n/a                                           n/a          fixed
ethMc    no        down      ipv4   n/a                                           n/a          fixed
ethMd    no        down      ipv4   n/a                                           n/a          fixed
eth4a    yes       running   no     10.25.18.63                            255.255.255.0       floating
                                           2620:0:170:1608:260:16ff:fe51:8c60**   /64
                                               fe80::260:16ff:fe51:8c60**         /64
eth4b    no        down       no     n/a                                          n/a          fixed
eth4c    no        down       no     n/a                                          n/a          fixed
eth4d    no        down       no     n/a                                          n/a          fixed
eth5a    no        down       no     n/a                                          n/a          fixed
eth5b    yes       running   no     10.25.18.60                            255.255.255.0       floating
                                           2620:0:170:1608:260:16ff:fe52:2951**   /64
                                                fe80::260:16ff:fe52:2951**        /64
eth5c    no        down       no     n/a                                          n/a          fixed
eth5d    no        down       no     n/a                                          n/a          fixed
eth11a   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11b   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11c   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11d   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
veth99   yes       running   no     d:d:d:d:d:0060:1652:0ecc                 /80               interconnect   lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d
                                                 fe80::260:16ff:fe52:ecc**   /64
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
Standbynode :
# net show settings
port     enabled   state     DHCP   IP address                             netmask          type           additional setting
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
ethMa    yes       running   no     10.25.18.49                            255.255.255.0    fixed
                                     2620:0:170:14567:260:16ff:fe5c:dr3**  /64
                                               fe80::260:16ff:fe5c3457c**  /64
ethMb    no        down      ipv4   n/a                                    n/a              fixed
ethMc    no        down      ipv4   n/a                                    n/a              fixed
ethMd    no        down      ipv4   n/a                                    n/a              fixed
eth4a    yes       running   no     n/a                                    255.255.255.0    floating
                                    2620:0:170:1608:260:1ght6:fe51:4570**  /64
                                               fe80::260:16ff:fe51:7890**  /64
eth4b    no        down       no     n/a                                   n/a              fixed
eth4c    no        down       no     n/a                                   n/a              fixed
eth4d    no        down       no     n/a                                   n/a              fixed
eth5a    no        down       no     n/a                                   n/a              fixed
eth5b    yes       running    no     n/a                                   255.255.255.0    floating
                                     2620:0:170:160:456:16ff:fe5234561**   /64
                                              fe80::260:16ff:fe52:3456**   /64
eth5c    no        down       no     n/a                                   n/a              fixed
eth5d    no        down       no     n/a                                   n/a              fixed
eth11a   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11b   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11c   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11d   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
veth99   yes       running    no     d:d:d:d:d:0e456:1652:dft4c            /80              interconnect   lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d
                                                 fe80::264:16ff:fec2:ecb** /64
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
 
Bekræfte netværksforbindelsen.
Gennemse de IP-adresser, der er angivet på hver node, og sørg for, at hver konfigureret IP-adresse på den aktive node og standbynoderne kan pinge den konfigurerede gateway. 
Bemærk: Nogle kunder har ping (ICMP) deaktiveret i deres miljø.  I dette tilfælde skal du kontakte kunden for at bekræfte forbindelsen.

 
(aktiv:1)# net route show gateway detaljeret 
IPv4 Default Gateways
gateway IP   source   tables   interface address   owner
----------   ------   ------   -----------------   -----
10.25.18.1   static   tethMa   10.25.18.50/24      none
10.25.18.1   static   teth4a   10.25.18.63/24      none
10.25.18.1   static   teth5b   10.25.18.60/24      none
----------   ------   ------   -----------------   -----

Ping gatewayens IP-adresse med hver konfigureret ethxx.
 
#(active:1)# ping 10.25.18.1 interface ethMa
                                                           PING 10.25.18.1 (10.25.18.1) from 10.25.18.50 ethMa: 56(84) bytes of data.
                                                           64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=0.697 ms
(active:1)# ping 10.25.18.1 interface eth4a
                                                           PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data.
                                                           64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
(active:1)# ping 10.25.18.1 interface eth5b
                                                          PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data.
                                                          64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
 
# Net fejlfinding duplikat-IP
Fra begge noder skal du kontrollere, om der er duplikerede IP'er
No duplicate IP addresses detected

Fibre Channel-test
Bekræft, at disse funktioner er licenseret, og test derefter disse funktioner for at bekræfte, at de er fuldt funktionelle (f.eks.: Kør sikkerhedskopieringstesthandlinger til VTL)
# license show  or # elicense show

##   License Key           Feature
--   -------------------   ----------------------------------------
1    WTXV-TSWX-HWDR-RHDX  VTL
2    EZXW-SZZF-BGCS-VRZX   Block services (Vdisk)
3 .... HA

Autosupport og advarselstest fra både aktiv og standby
 
 (active:1)## autosupport test alert-summary
                              OK: Message sent.
 (active:1)## autosupport test support-notify
                              OK: Message sent.
 
 (standby:0)# autosupport test alert-summary
                              OK: Message sent.
 (standby:0)# autosupport test support-notify
                              OK: Message sent.


Hvis CONNECTEMC (Secure Remote Services) bruges til at videresende ASUPS til Data Domain, skal du bruge følgende kommando til at bekræfte forbindelsen på begge noder.
Tidsstemplet angiver, hvornår den sidste forbindelse blev oprettet.
sysadmin@hostname# support connectemc show history
File Time Transport Result
--------------------------------------- --------------------- --------- --------
RSC_CKM00XXX601153_120315_092804166.xml "2015-12-03 09:28:07" HTTP Success
RSC_CKM00XXX601153_120315_101257767.xml "2015-12-03 10:13:00" HTTP Success
RSC_CKM00XXX601153_120315_111649065.xml "2015-12-03 11:16:53" HTTP Success
--------------------------------------- --------------------- --------- --------
Note: It says HTTP above, but it is HTTPS

Fejlfinding af

HA-filsystem # filesys status
Kontrollér, at FS er aktiveret og kører.  Rengøringsstatus kan også vises.
The filesystem is enabled and running.
Cleaning started at 2016/08/20 14:12:16: phase 1 of 12 (pre-merge)
  0.7% complete, 95911 GiB free; time: phase  0:00:09, total  0:00:09

 
(aktiv:1)#(standby:0)# status for
systemopgraderingFra begge noder skal du kontrollere, at alle opgraderinger er fuldført.
Current Upgrade Status: DD OS upgrade Succeeded
End time: 2016.08.20:13:27
 
(aktiv:1)#(standby:0)#Dato
Sørg for, at klokkeslæt og dato stemmer overens på begge noder inden for 10 sekunder
-p1(active:1)# date
Sat Aug 20 14:34:29 EDT 2016
-p0(standby:0)# date
Sat Aug 20 14:34:17 EDT 2016

Fra den aktive node skal du bekræfte med kunden, at DD-replikering (hvis konfigureret) fungerer som forventet.
# replication status
CTX   Destination                                                 Enabled   Connection         Sync'ed-as-of-time
---   ---------------------------------------------------------   -------   ----------------   ------------------
3     mtree://ddxxx.com/data/col1/eric.dest                        no        idle               Fri Nov  6 15:16
4     mtree://ddxxx.com/data/col1/thy-repl                         yes       idle               Fri Jul 22 15:38
5     dir://ddxxxx.com/backup/replicate-rtp                        yes       disconnected       Fri Jul 22 14:55
6     mtree://ddxxxx.com/data/col1/theman_test                     yes       idle               Sat Aug 20 22:11
7     dir://ddxxx.com/backup/lakeland/sym                          yes       Sat Aug 20 13:15   Fri Aug 19 15:09
---   ---------------------------------------------------------   -------   ----------------   ----------------

Cause

HA-hardware og -konfiguration
 
# alerts show current

På både den aktive node og standbynoden skal du kontrollere, om der er en aktiv advarsel, der peger på et potentielt problem. Advarsler deles ikke altid mellem noder, så tjek begge noder.  Hvis der opstår et uventet problem, skal du indsende en supportsag. Generer altid en supportpakke fra begge noder.
Bemærk.  De fleste advarsler ses kun på en af noderne. Ikke alle advarsler deles mellem noder.
 

Eksempler på advarsler:

Severity   Class             Object   Message
   --------   ---------------   ------   ----------------------------------------------
CRITICAL      HardwareFailure            EVT-ENVIRONMENT-00049: The system detected an invalid hardware configuration.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
CRITICAL      HardwareFailure            EVT-ENVIRONMENT-00048: Filesystem can't be enabled due to an invalid hardware configuration.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING       HardwareFailure            Enclosure=1:Slot=5   EVT-ENVIRONMENT-00047: PCI communication speed is degraded
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING             HA                   EVT-HA-00003: Standby node time is off by 15 second(s).
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING    HardwareFailure   Port Index=1   EVT-MPATH-00003: Missing disk connection from system port 6a.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------

 

# HA status

Command #ha-status på den aktive node og standbynode kan bruges til at bestemme den aktuelle HA-status.
Hvis status er "Meget tilgængelig", aktiveres failover. 
Hvis status er "forringet", eller en af noderne ikke viser tilstanden "online", deaktiveres failover mellem noder.

 
SE@hostname-p0(active:0)## ha status
HA System name:hostname-n1.chaos.local
HA System status: highly available
 
Node Name                         Node id   Role      HA State
-------------------------------   -------   -------   --------
hostname-p0.chaos.local   0         active    online
hostname-p1.chaos.local   1         standby   online
-------------------------------   -------   -------   --------

# HA status detaljeret
Kommandoen #ha status , der kun er detaljeret for den aktive node, kan bruges til at få mere detaljerede oplysninger om HA-status.
Enhver af nedenstående udgange, der viser "not ok" i afsnittet Spejlingsstatus, angiver en komponent, der ikke fungerer, og HA-systemstatus vises som "forringet". 
Enhver forringet tilstand forhindrer failover mellem noder.

Seddel: Denne kommando er ikke tilgængelig på standbynoden.
 
SEhostname-p0(active:0)## ha status detailed
HA System name: hostname.chaos.local
HA System Status: highly available
Interconnect Status: ok
Primary Heartbeat Status:  ok
External LAN Heartbeat Status: not ok
Hardware compatibility check: ok
Software Version Check:   ok
 
Node hostname-p0.chaos.local:
        Role:      active
        HA State:  online
        Node Health: ok
 
Node hostname-p1.chaos.local:
        Role:     standby
        HA State: online
        Node Health: ok
 
Mirroring Status:
Component Name   Status
--------------   ------
nvram            ok
registry         ok
sms              ok
ddboost          ok
cifs             ok
--------------   ------


# Indkapsling Vis IO-kort
Bekræft, at begge noder har identiske, understøttede konfigurationer.


# kabinet viser forkert konfiguration
Udfør en fejlkonfigurationstest fra den aktive node og standbynoderne for at kontrollere, om der er problemer med hardwarekonfigurationen. 
Se
KB-https://www.dell.com/support/kbdoc/en-us/463399

 
Eksempler:
Memory DIMMs:
Locator Bank Locator Size(GiB) Status
------- ------------ --------- ----------
CHCD1     7     0     missing
CHDD1     7     0     missing
CHAD0     4     8     wrong size
CHBD0     4     8     wrong size
IO Cards:
Slot   Device       Status
----   ----------   ---------
10     Hera NVRAM   extra
10     Hera NVRAM   misplaced
----   ----------   ---------
CPUs:
    No misconfiguration found.
Disks:
Slot   Size(GiB)   Type   Media   Status
----   ---------   ----   -----   -------
2      186         SATA   SSD     missing
----   ---------   ----   -----   -----
 
# kabinet vis topologi
Kontroller topologien fra begge noder. 
Se efter eventuelle fejl mellem forbindelsespunkter, og
sørg for, at al hyldenummerering er korrekt.
- Fejl og mangler symboliseres med '?', '!' Eller '!!'
Bemærk: At topologioutput for hver node skal vendes (spejlbillede) af hinanden.
 
(Stdby:0)## enclosure show topology
Port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----   -   -------------   -   -------------   -   -------------   -   -------------
2a
2b
2c
2d     >    5.A.E: 5.A.H   ?   4.A.E: 4.A.H   >    3.A.E: 3.A.H   >    2.A.E: 2.A.H
3a
3b
3c
3d
6a     !!    2.B.E: 2.B.H   >    3.B.E: 3.B.H   >    5.B.E: 5.B.H   >    ?.B.E: ?.B.H
6b
6c
6d
----   -   -------------   -   -------------   -   -------------   -   -------------
 
(active:1)## enclosure show topology
Port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----   -   -------------   -   -------------   -   -------------   -   -------------
2a
2b
2c
2d   >    2.A.H: 2.A.E   >    3.A.H: 3.A.E   >    4.A.H: 4.A.E   >    5.A.H: 5.A.E
3a
3b
3c
3d
6a    >    5.B.H: 5.B.E   >    4.B.H: 4.B.E   >    3.B.H: 3.B.E   >    2.B.H: 2.B.E
6b
6c
6d
----   -   -------------   -   -------------   -   -------------   -   -------------
 
# kabinettesttopologi hele varighed 1
Fra både aktive noder og standbynoder skal du udføre en 1 minuts diagnosticeringstest for alle SAS HBA-porte med tilsluttet eksternt lager.
Udfør ikke topologitest på begge noder samtidigt. 
Det forventede resultat er, at der ikke registreres nogen fejl for hver port med tilsluttet storage. 
Hvis der findes et problem, kan testen stoppe med en fejlmeddelelse, der angiver SAS-forbindelsen med en fejl, eller kan vise en fejl (? , ! ) på en bestemt forbindelse
.

 
Bemærk: Under topologitesten har de enkelte porte en separat udgang, der angiver tilstanden. Se efter fejl (? , ! ) for at lokalisere problemforbindelsenDer vises ikke noget CLI-output, før hver porttest er fuldført. 
 
# enclosure test topology  
Started: 1471719316
Ended: 1471719498
Duration: 182
Port      enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----  -  ---------------  -  ---------------  -  ---------------  -  ---------------
2d    >    5.A.H:5.A.E    >    4.A.H:4.A.E    >    3.A.H:3.A.E    >    2.A.H:2.A.E
----  -  ---------------  -  ---------------  -  ---------------  -  ---------------
Error message:
-----------------
No error detected
-----------------

# system show NVRAM
På både aktive noder og standbynoder skal du sørge for, at Nvram-batterier er opladet eller opladet, og at alle nvram-fejltællere viser en værdi på nul.
 
# system show nvram
NVRAM Cards:
        Card   Component                 Value
        ----   -----------------------   ----------------------------------------------------------------------
        1      Slot                      0
               Firmware version          0.0.80
               Memory size               7.93 GiB
               Errors                    0 memory (0 uncorrectable), 0 PCI, 0 controller
               Flash controller Errors   0 Cfg Err, 0 PANIC, 0 Bus Hang, 0 Bad Blk Warn, 0 Bkup Err, 0 Rstr Err
               Board temperature         37 C
               CPU temperature           47 C
               Number of batteries       1
        ----   -----------------------   ----------------------------------------------------------------------
NVRAM Batteries:
        Card   Battery   Status   Charge   Charging   Time To       Temperature   Voltage
                                           Status     Full Charge
        ----   -------   ------   ------   --------   -----------   -----------   -------
        1      1         ok       94 %     enabled    0 mins        34 C          4.016 V
        ----   -------   ------   ------   --------   -----------   -----------   -------

Resolution

Hvis du har brug for yderligere hjælp, skal du kontakte den serviceudbyder, du har indgået kontrakt med.

Additional Information

.

Affected Products

Data Domain

Products

Data Domain, DD OS 6.0
Article Properties
Article Number: 000017861
Article Type: Solution
Last Modified: 05 Jul 2024
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.