Kontrola stavu zařízení Data Domain HA (DDHA)

Summary: Cílem tohoto článku je poskytnout pokyny k provedení základní kontroly stavu systému HA po servisní události. Konfigurace systému Data Domain Highly Available (DDHA) se liší v závislosti na použitých modelech Data Domain. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Systémy DDHA (Data Domain Highly Available) jsou navrženy pro převzetí služeb při selhání mezi uzly.  V produkčním prostředí je pouze aktivní uzel, zatímco pohotovostní uzel zaujme místo aktivního uzlu při události selhání (AKTIVNÍ – PASIVNÍ). 
Pokud by došlo k selhání, je nezbytné zkontrolovat, že jsou oba uzly DDHA v provozuschopném stavu, a dokončit převzetí služeb při selhání. 
Příkazy rozhraní příkazového řádku podrobně popsané v tomto článku pomáhají odhalit možné problémy, které by mohly zabránit úspěšnému převzetí služeb při selhání. 
Tato příručka je rozdělena do klíčových oblastí, které je třeba zkontrolovat.
  • Hardware a konfigurace HA
  • Síť
  • Systém souborů
Odstraňování problémů se sítí HA

## net show settings
Nastavení síťového portu se liší v závislosti na tom, na kterém uzlu je spuštěn příkaz #net show settings. Nakonfigurované porty v systémech DDHA mají typ „floating“ nebo „fixed“.  Spustit
 "net show settings"
na obou uzlech a porovnejte výstupy.
  1. Rozhraní „Floating“:  Ověřte, že všechny nakonfigurované porty, alias nebo veth síťové karty (NIC), které jsou povolené a funkční na aktivním uzlu, vykazují stejný stav v pohotovostním uzlu.  Očekává se, že každý nakonfigurovaný port, alias nebo veth síťové karty nastavené na typ „floating“ budou mít IP adresu zobrazenou na aktivním uzlu a odpovídající stav N/A na pohotovostním uzlu. 
  2. Rozhraní „Fixed“: Ověřte, že se u všech nakonfigurovaných portů, aliasů nebo veth síťové karty označené jako „fixed“ zobrazuje stav „enabled and running“. Rozhraní „fixed“ nemají identické konfigurace mezi uzly.
  3. Zkontrolujte, že se zobrazuje propojení HA (veth99) a že jsou povoleny a spuštěny všechny požadované porty. Poznámka:  Počet požadovaných připojení portů a umístění slotů pro propojení HA (veth99) závisí na modelu DD

Aktivní uzel:
# net show settings
port     enabled   state     DHCP   IP address                             netmask          type           additional setting
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
ethMa    yes       running   no     10.25.18.50                            255.255.255.0       fixed
                                           2620:0:170:1608:260:16ff:fe5c:92bc**   /64
                                                fe80::260:16ff:fe5c:92bc**        /64
ethMb    no        down      ipv4   n/a                                           n/a          fixed
ethMc    no        down      ipv4   n/a                                           n/a          fixed
ethMd    no        down      ipv4   n/a                                           n/a          fixed
eth4a    yes       running   no     10.25.18.63                            255.255.255.0       floating
                                           2620:0:170:1608:260:16ff:fe51:8c60**   /64
                                               fe80::260:16ff:fe51:8c60**         /64
eth4b    no        down       no     n/a                                          n/a          fixed
eth4c    no        down       no     n/a                                          n/a          fixed
eth4d    no        down       no     n/a                                          n/a          fixed
eth5a    no        down       no     n/a                                          n/a          fixed
eth5b    yes       running   no     10.25.18.60                            255.255.255.0       floating
                                           2620:0:170:1608:260:16ff:fe52:2951**   /64
                                                fe80::260:16ff:fe52:2951**        /64
eth5c    no        down       no     n/a                                          n/a          fixed
eth5d    no        down       no     n/a                                          n/a          fixed
eth11a   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11b   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11c   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11d   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
veth99   yes       running   no     d:d:d:d:d:0060:1652:0ecc                 /80               interconnect   lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d
                                                 fe80::260:16ff:fe52:ecc**   /64
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
Pohotovostní uzel:
# net show settings
port     enabled   state     DHCP   IP address                             netmask          type           additional setting
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
ethMa    yes       running   no     10.25.18.49                            255.255.255.0    fixed
                                     2620:0:170:14567:260:16ff:fe5c:dr3**  /64
                                               fe80::260:16ff:fe5c3457c**  /64
ethMb    no        down      ipv4   n/a                                    n/a              fixed
ethMc    no        down      ipv4   n/a                                    n/a              fixed
ethMd    no        down      ipv4   n/a                                    n/a              fixed
eth4a    yes       running   no     n/a                                    255.255.255.0    floating
                                    2620:0:170:1608:260:1ght6:fe51:4570**  /64
                                               fe80::260:16ff:fe51:7890**  /64
eth4b    no        down       no     n/a                                   n/a              fixed
eth4c    no        down       no     n/a                                   n/a              fixed
eth4d    no        down       no     n/a                                   n/a              fixed
eth5a    no        down       no     n/a                                   n/a              fixed
eth5b    yes       running    no     n/a                                   255.255.255.0    floating
                                     2620:0:170:160:456:16ff:fe5234561**   /64
                                              fe80::260:16ff:fe52:3456**   /64
eth5c    no        down       no     n/a                                   n/a              fixed
eth5d    no        down       no     n/a                                   n/a              fixed
eth11a   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11b   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11c   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11d   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
veth99   yes       running    no     d:d:d:d:d:0e456:1652:dft4c            /80              interconnect   lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d
                                                 fe80::264:16ff:fec2:ecb** /64
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
 
Ověřte připojení k síti.
Zkontrolujte IP adresy uvedené na každém uzlu a ujistěte se, že každá nakonfigurovaná IP adresa aktivního a pohotovostního uzlu může odeslat příkaz ping na nakonfigurovanou bránu. 
Poznámka: Někteří zákazníci mají ve svém prostředí příkaz ping (ICMP) zakázán.  V takovém případě požádejte zákazníka, aby potvrdil připojení.

 
(active:1)# net route show gateway detailed 
IPv4 Default Gateways
gateway IP   source   tables   interface address   owner
----------   ------   ------   -----------------   -----
10.25.18.1   static   tethMa   10.25.18.50/24      none
10.25.18.1   static   teth4a   10.25.18.63/24      none
10.25.18.1   static   teth5b   10.25.18.60/24      none
----------   ------   ------   -----------------   -----

Odešlete na IP adresy brány příkaz ping u každého nakonfigurovaného připojení ethxx.
 
#(active:1)# ping 10.25.18.1 interface ethMa
                                                           PING 10.25.18.1 (10.25.18.1) from 10.25.18.50 ethMa: 56(84) bytes of data.
                                                           64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=0.697 ms
(active:1)# ping 10.25.18.1 interface eth4a
                                                           PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data.
                                                           64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
(active:1)# ping 10.25.18.1 interface eth5b
                                                          PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data.
                                                          64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
 
# net troubleshooting duplicate-ip
U obou uzlů zkontrolujte přítomnost duplicitních IP adres.
No duplicate IP addresses detected

Testování Fiber Channel
Ověřte, že jsou tyto funkce licencovány, a poté je otestujte, abyste ověřili jejich plnou funkčnost (například: Spusťte testovací operace zálohování na VTL)
# license show  or # elicense show

##   License Key           Feature
--   -------------------   ----------------------------------------
1    WTXV-TSWX-HWDR-RHDX  VTL
2    EZXW-SZZF-BGCS-VRZX   Block services (Vdisk)
3 .... HA

Automatická podpora a testování výstrah z aktivního i pohotovostního režimu
 
 (active:1)## autosupport test alert-summary
                              OK: Message sent.
 (active:1)## autosupport test support-notify
                              OK: Message sent.
 
 (standby:0)# autosupport test alert-summary
                              OK: Message sent.
 (standby:0)# autosupport test support-notify
                              OK: Message sent.


V případě, že se k přesměrování služby ASUPS do systému Data Domain používá funkce CONNECTEMC (Secure Remote Services), ověřte připojení na obou uzlech pomocí následujícího příkazu.
Časové razítko udává, kdy bylo navázáno poslední připojení.
sysadmin@hostname# support connectemc show history
File Time Transport Result
--------------------------------------- --------------------- --------- --------
RSC_CKM00XXX601153_120315_092804166.xml "2015-12-03 09:28:07" HTTP Success
RSC_CKM00XXX601153_120315_101257767.xml "2015-12-03 10:13:00" HTTP Success
RSC_CKM00XXX601153_120315_111649065.xml "2015-12-03 11:16:53" HTTP Success
--------------------------------------- --------------------- --------- --------
Note: It says HTTP above, but it is HTTPS

Odstraňování problémů se systémem souborů HA
 
# filesys status
Ověřte, že má systém souborů stav „enabled and running“. Může se také zobrazit stav „Cleaning“.
The filesystem is enabled and running.
Cleaning started at 2016/08/20 14:12:16: phase 1 of 12 (pre-merge)
  0.7% complete, 95911 GiB free; time: phase  0:00:09, total  0:00:09

 
(active:1)# (standby:0)# system upgrade status
Na obou uzlech ověřte, že byly dokončeny všechny upgrady.
Current Upgrade Status: DD OS upgrade Succeeded
End time: 2016.08.20:13:27
 
(active:1)# (standby:0)#Date
Zajistěte, že se čas a datum na obou uzlech neliší o více než 10 s
-p1(active:1)# date
Sat Aug 20 14:34:29 EDT 2016
-p0(standby:0)# date
Sat Aug 20 14:34:17 EDT 2016

Ověřte se zákazníkem, že replikace DD (pokud je nakonfigurována) v aktivním uzlu funguje podle očekávání.
# replication status
CTX   Destination                                                 Enabled   Connection         Sync'ed-as-of-time
---   ---------------------------------------------------------   -------   ----------------   ------------------
3     mtree://ddxxx.com/data/col1/eric.dest                        no        idle               Fri Nov  6 15:16
4     mtree://ddxxx.com/data/col1/thy-repl                         yes       idle               Fri Jul 22 15:38
5     dir://ddxxxx.com/backup/replicate-rtp                        yes       disconnected       Fri Jul 22 14:55
6     mtree://ddxxxx.com/data/col1/theman_test                     yes       idle               Sat Aug 20 22:11
7     dir://ddxxx.com/backup/lakeland/sym                          yes       Sat Aug 20 13:15   Fri Aug 19 15:09
---   ---------------------------------------------------------   -------   ----------------   ----------------

Cause

Hardware a konfigurace HA
 
# alerts show current

Na aktivním i pohotovostním uzlu zkontrolujte, zda je aktivní výstraha poukazující na potenciální problém. Výstrahy se ne vždy sdílí mezi uzly, proto zkontrolujte oba dva.  Pokud dojde k neočekávanému problému, vytvořte žádost o podporu. Vždy vygenerujte balíček podpory z obou uzlů.
Poznámka:  Většina výstrah se zobrazuje pouze na jednom uzlu. Ne každá výstraha se sdílí mezi uzly.
 

Příklady výstrah:

Severity   Class             Object   Message
   --------   ---------------   ------   ----------------------------------------------
CRITICAL      HardwareFailure            EVT-ENVIRONMENT-00049: The system detected an invalid hardware configuration.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
CRITICAL      HardwareFailure            EVT-ENVIRONMENT-00048: Filesystem can't be enabled due to an invalid hardware configuration.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING       HardwareFailure            Enclosure=1:Slot=5   EVT-ENVIRONMENT-00047: PCI communication speed is degraded
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING             HA                   EVT-HA-00003: Standby node time is off by 15 second(s).
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING    HardwareFailure   Port Index=1   EVT-MPATH-00003: Missing disk connection from system port 6a.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------

 

# ha status

Příkaz # ha statuslze použít k určení aktuálního stavu aktivního a pohotovostního uzlu.
Pokud je stav „highly available“, je povoleno převzetí služeb při selhání. 
Pokud je stav „Degraded“ nebo některý z uzlů nezobrazuje stav „Online“, převzetí služeb při selhání mezi uzly je zakázáno.

 
SE@hostname-p0(active:0)## ha status
HA System name:hostname-n1.chaos.local
HA System status: highly available
 
Node Name                         Node id   Role      HA State
-------------------------------   -------   -------   --------
hostname-p0.chaos.local   0         active    online
hostname-p1.chaos.local   1         standby   online
-------------------------------   -------   -------   --------

# ha status detailed
Příkaz #ha status detailed lze použít k získání podrobnějších informací o stavu HA pouze na aktivním uzlu.
Pokud kterýkoli z níže uvedených výstupů zobrazuje stav „not ok“ v části Mirroring Status, znamená to, že je některá komponenta nefunkční a stav systému HA se zobrazuje jako „degraded“. 
Pokud se kdekoli zobrazuje stav „degraded“, převzetí služeb při selhání mezi uzly není možné.

Poznámka: Tento příkaz není k dispozici v pohotovostním uzlu.
 
SEhostname-p0(active:0)## ha status detailed
HA System name: hostname.chaos.local
HA System Status: highly available
Interconnect Status: ok
Primary Heartbeat Status:  ok
External LAN Heartbeat Status: not ok
Hardware compatibility check: ok
Software Version Check:   ok
 
Node hostname-p0.chaos.local:
        Role:      active
        HA State:  online
        Node Health: ok
 
Node hostname-p1.chaos.local:
        Role:     standby
        HA State: online
        Node Health: ok
 
Mirroring Status:
Component Name   Status
--------------   ------
nvram            ok
registry         ok
sms              ok
ddboost          ok
cifs             ok
--------------   ------


# enclosure show io-cards
Ověřte, že oba uzly mají identické podporované konfigurace.


# enclosure show misconfiguration
Proveďte test chybné konfigurace v aktivním a pohotovostním uzlu a zkontrolujte, zda nedochází k problémům s konfigurací hardwaru. 
Viz článek znalostní databáze
https://www.dell.com/support/kbdoc/en-us/463399

 
Příklady:
Memory DIMMs:
Locator Bank Locator Size(GiB) Status
------- ------------ --------- ----------
CHCD1     7     0     missing
CHDD1     7     0     missing
CHAD0     4     8     wrong size
CHBD0     4     8     wrong size
IO Cards:
Slot   Device       Status
----   ----------   ---------
10     Hera NVRAM   extra
10     Hera NVRAM   misplaced
----   ----------   ---------
CPUs:
    No misconfiguration found.
Disks:
Slot   Size(GiB)   Type   Media   Status
----   ---------   ----   -----   -------
2      186         SATA   SSD     missing
----   ---------   ----   -----   -----
 
# enclosure show topology
Zkontrolujte topologie z obou uzlů. 
Hledejte případné chyby mezi připojovacími body
a ujistěte se, že jsou všechna čísla polic správná.
- Chyby a závady jsou označeny symboly „?“, „!“ nebo „!!“
Poznámka: Výstupy topologie pro každý uzel by měly být navzájem zrcadlově obrácené.
 
(Stdby:0)## enclosure show topology
Port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----   -   -------------   -   -------------   -   -------------   -   -------------
2a
2b
2c
2d     >    5.A.E: 5.A.H   ?   4.A.E: 4.A.H   >    3.A.E: 3.A.H   >    2.A.E: 2.A.H
3a
3b
3c
3d
6a     !!    2.B.E: 2.B.H   >    3.B.E: 3.B.H   >    5.B.E: 5.B.H   >    ?.B.E: ?.B.H
6b
6c
6d
----   -   -------------   -   -------------   -   -------------   -   -------------
 
(active:1)## enclosure show topology
Port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----   -   -------------   -   -------------   -   -------------   -   -------------
2a
2b
2c
2d   >    2.A.H: 2.A.E   >    3.A.H: 3.A.E   >    4.A.H: 4.A.E   >    5.A.H: 5.A.E
3a
3b
3c
3d
6a    >    5.B.H: 5.B.E   >    4.B.H: 4.B.E   >    3.B.H: 3.B.E   >    2.B.H: 2.B.E
6b
6c
6d
----   -   -------------   -   -------------   -   -------------   -   -------------
 
# enclosure test topology all duration 1
Na aktivním i pohotovostním uzlu proveďte 1minutový diagnostický test pro všechny porty SAS HBA s připojeným externím úložištěm.
Neprovádějte testování topologie na obou uzlech současně. 
U žádného portu s připojeným úložištěm by se neměla zobrazit žádná chyba. 
Pokud je zjištěn problém, test se může zastavit se zprávou o selhání, která může označit připojení SAS za chybné nebo může zobrazit chybu (?, !) u konkrétního připojení
.

 
Poznámka: Během testu topologie mají jednotlivé porty samostatný výstup, který označuje daný stav. Problémové připojení bude označeno chybou (?, !)Dokud se nedokončí každý test portu, nezobrazí se žádný výstup z příkazového řádku. 
 
# enclosure test topology  
Started: 1471719316
Ended: 1471719498
Duration: 182
Port      enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----  -  ---------------  -  ---------------  -  ---------------  -  ---------------
2d    >    5.A.H:5.A.E    >    4.A.H:4.A.E    >    3.A.H:3.A.E    >    2.A.H:2.A.E
----  -  ---------------  -  ---------------  -  ---------------  -  ---------------
Error message:
-----------------
No error detected
-----------------

# system show nvram
U aktivních i pohotovostních uzlů zkontrolujte, zda jsou baterie NVRAM nabité nebo se nabíjejí a zda všechny čítače chyb paměti NVRAM zobrazují hodnotu 0.
 
# system show nvram
NVRAM Cards:
        Card   Component                 Value
        ----   -----------------------   ----------------------------------------------------------------------
        1      Slot                      0
               Firmware version          0.0.80
               Memory size               7.93 GiB
               Errors                    0 memory (0 uncorrectable), 0 PCI, 0 controller
               Flash controller Errors   0 Cfg Err, 0 PANIC, 0 Bus Hang, 0 Bad Blk Warn, 0 Bkup Err, 0 Rstr Err
               Board temperature         37 C
               CPU temperature           47 C
               Number of batteries       1
        ----   -----------------------   ----------------------------------------------------------------------
NVRAM Batteries:
        Card   Battery   Status   Charge   Charging   Time To       Temperature   Voltage
                                           Status     Full Charge
        ----   -------   ------   ------   --------   -----------   -----------   -------
        1      1         ok       94 %     enabled    0 mins        34 C          4.016 V
        ----   -------   ------   ------   --------   -----------   -----------   -------

Resolution

Pokud potřebujete další pomoc, obraťte se na smluvního poskytovatele služeb.

Additional Information

.

Affected Products

Data Domain

Products

Data Domain, DD OS 6.0
Article Properties
Article Number: 000017861
Article Type: Solution
Last Modified: 05 Jul 2024
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.