Kontrola poprawności działania urządzeń Data Domain HA (DDHA)

Summary: Niniejszy artykuł zawiera porady na temat wykonywania podstawowej kontroli poprawności działania systemu HA po zdarzeniu serwisowym. Konfiguracje Data Domain Highly Available (DDHA) różnią się w zależności od używanych modeli Data Domain. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Systemy Data Domain Highly Available (DDHA) są przeznaczone do przełączania awaryjnego między węzłami.  Tylko aktywny węzeł znajduje się w środowisku produkcyjnym, podczas gdy węzeł w trybie gotowości oczekuje na zdarzenie awarii, aby zastąpić aktywny węzeł (ACTIVE - PASSIVE). 
Konieczne jest sprawdzenie, czy oba węzły DDHA są sprawne, i wykonanie przełączenia awaryjnego w przypadku wystąpienia awarii. 
Polecenia interfejsu wiersza poleceń opisane szczegółowo w tym artykule pomagają wykryć możliwe problemy, które mogą uniemożliwić pomyślne przejście w tryb przełączenia awaryjnego. 
Poradnik ten podzielono według kluczowych obszarów do sprawdzenia.
  • Sprzęt i konfiguracja HA
  • Sieć
  • FileSystem
Rozwiązywanie problemów z siecią HA
 
# net show settings  
Ustawienia portu sieciowego różnią się w zależności od węzła, w którym uruchomiono polecenie #net show settings. Skonfigurowane porty w systemach DDHA są typu „ruchomy” lub „nieruchomy”.  Uruchom
 "net show settings"
na obu węzłach i porównaj dane wyjściowe.
  1. Interfejsy „ruchome”:  Sprawdź, czy każdy skonfigurowany port karty sieciowej (NIC), alias lub veth, który wyświetla stan włączony i uruchomiony w aktywnym węźle, ma identyczny stan włączony i uruchomiony w węźle w trybie gotowości.  Oczekuje się, że każdy skonfigurowany port karty sieciowej, alias lub Veth ustawiony jako ruchomy ma adres IP wyświetlany w aktywnym węźle i odpowiadający mu N/A w węźle w trybie gotowości. 
  2. Interfejsy „nieruchome”: Sprawdź, czy każdy skonfigurowany port karty sieciowej, alias lub veth oznaczony jako „nieruchomy” wyświetla stan „włączony i uruchomiony”. Interfejsy „nieruchome” nie mają identycznych konfiguracji między węzłami
  3. Sprawdź, czy połączenie HA (veth99) jest wyświetlane, a wszystkie wymagane porty są włączone i działają. Uwaga:  liczba wymaganych połączeń portów i lokalizacja gniazd dla połączenia HA (veth99) są specyficzne dla modelu DD

Aktywny węzeł:
# net show settings
port     enabled   state     DHCP   IP address                             netmask          type           additional setting
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
ethMa    yes       running   no     10.25.18.50                            255.255.255.0       fixed
                                           2620:0:170:1608:260:16ff:fe5c:92bc**   /64
                                                fe80::260:16ff:fe5c:92bc**        /64
ethMb    no        down      ipv4   n/a                                           n/a          fixed
ethMc    no        down      ipv4   n/a                                           n/a          fixed
ethMd    no        down      ipv4   n/a                                           n/a          fixed
eth4a    yes       running   no     10.25.18.63                            255.255.255.0       floating
                                           2620:0:170:1608:260:16ff:fe51:8c60**   /64
                                               fe80::260:16ff:fe51:8c60**         /64
eth4b    no        down       no     n/a                                          n/a          fixed
eth4c    no        down       no     n/a                                          n/a          fixed
eth4d    no        down       no     n/a                                          n/a          fixed
eth5a    no        down       no     n/a                                          n/a          fixed
eth5b    yes       running   no     10.25.18.60                            255.255.255.0       floating
                                           2620:0:170:1608:260:16ff:fe52:2951**   /64
                                                fe80::260:16ff:fe52:2951**        /64
eth5c    no        down       no     n/a                                          n/a          fixed
eth5d    no        down       no     n/a                                          n/a          fixed
eth11a   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11b   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11c   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11d   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
veth99   yes       running   no     d:d:d:d:d:0060:1652:0ecc                 /80               interconnect   lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d
                                                 fe80::260:16ff:fe52:ecc**   /64
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
Węzeł w trybie gotowości:
# net show settings
port     enabled   state     DHCP   IP address                             netmask          type           additional setting
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
ethMa    yes       running   no     10.25.18.49                            255.255.255.0    fixed
                                     2620:0:170:14567:260:16ff:fe5c:dr3**  /64
                                               fe80::260:16ff:fe5c3457c**  /64
ethMb    no        down      ipv4   n/a                                    n/a              fixed
ethMc    no        down      ipv4   n/a                                    n/a              fixed
ethMd    no        down      ipv4   n/a                                    n/a              fixed
eth4a    yes       running   no     n/a                                    255.255.255.0    floating
                                    2620:0:170:1608:260:1ght6:fe51:4570**  /64
                                               fe80::260:16ff:fe51:7890**  /64
eth4b    no        down       no     n/a                                   n/a              fixed
eth4c    no        down       no     n/a                                   n/a              fixed
eth4d    no        down       no     n/a                                   n/a              fixed
eth5a    no        down       no     n/a                                   n/a              fixed
eth5b    yes       running    no     n/a                                   255.255.255.0    floating
                                     2620:0:170:160:456:16ff:fe5234561**   /64
                                              fe80::260:16ff:fe52:3456**   /64
eth5c    no        down       no     n/a                                   n/a              fixed
eth5d    no        down       no     n/a                                   n/a              fixed
eth11a   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11b   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11c   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11d   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
veth99   yes       running    no     d:d:d:d:d:0e456:1652:dft4c            /80              interconnect   lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d
                                                 fe80::264:16ff:fec2:ecb** /64
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
 
Sprawdź połączenie sieciowe.
Sprawdź adresy IP wymienione w każdym węźle i upewnij się, że każdy skonfigurowany adres IP w aktywnym węźle i węzłach w trybie gotowości może wysyłać polecenia ping do skonfigurowanej bramki. 
Uwaga: niektórzy klienci mają wyłączoną funkcję ping (ICMP) w swoim środowisku.  W takim przypadku należy zaangażować klienta w potwierdzenie łączności.

 
(active:1)# net route show gateway detailed 
IPv4 Default Gateways
gateway IP   source   tables   interface address   owner
----------   ------   ------   -----------------   -----
10.25.18.1   static   tethMa   10.25.18.50/24      none
10.25.18.1   static   teth4a   10.25.18.63/24      none
10.25.18.1   static   teth5b   10.25.18.60/24      none
----------   ------   ------   -----------------   -----

Wyślij polecenie ping na adres IP bramki z każdym skonfigurowanym ethxx.
 
#(active:1)# ping 10.25.18.1 interface ethMa
                                                           PING 10.25.18.1 (10.25.18.1) from 10.25.18.50 ethMa: 56(84) bytes of data.
                                                           64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=0.697 ms
(active:1)# ping 10.25.18.1 interface eth4a
                                                           PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data.
                                                           64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
(active:1)# ping 10.25.18.1 interface eth5b
                                                          PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data.
                                                          64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
 
# net troubleshooting duplicate-ip
Z obu węzłów sprawdź, czy nie ma zduplikowanych adresów IP
No duplicate IP addresses detected

Testowanie kanału światłowodowego
Sprawdź, czy te funkcje są licencjonowane, a następnie przetestuj je, aby upewnić się, że są w pełni funkcjonalne (na przykład: uruchom testowe operacje tworzenia kopii zapasowych w VTL)
# license show  or # elicense show

##   License Key           Feature
--   -------------------   ----------------------------------------
1    WTXV-TSWX-HWDR-RHDX  VTL
2    EZXW-SZZF-BGCS-VRZX   Block services (Vdisk)
3 .... HA

Autoobsługa i testowanie alertów zarówno z aktywnego, jak i w trybie gotowości
 
 (active:1)## autosupport test alert-summary
                              OK: Message sent.
 (active:1)## autosupport test support-notify
                              OK: Message sent.
 
 (standby:0)# autosupport test alert-summary
                              OK: Message sent.
 (standby:0)# autosupport test support-notify
                              OK: Message sent.


W przypadku, gdy CONNECTEMC (Secure Remote Services) służy do przekazywania ASUPS do Data Domain, użyj następującego polecenia, aby zweryfikować łączność na obu węzłach.
Sygnatura czasowa wskazuje, kiedy zostało nawiązane ostatnie połączenie.
sysadmin@hostname# support connectemc show history
File Time Transport Result
--------------------------------------- --------------------- --------- --------
RSC_CKM00XXX601153_120315_092804166.xml "2015-12-03 09:28:07" HTTP Success
RSC_CKM00XXX601153_120315_101257767.xml "2015-12-03 10:13:00" HTTP Success
RSC_CKM00XXX601153_120315_111649065.xml "2015-12-03 11:16:53" HTTP Success
--------------------------------------- --------------------- --------- --------
Note: It says HTTP above, but it is HTTPS

Rozwiązywanie problemów z systemem plików HA
 
# filesys status
Sprawdź, czy włączono i uruchomiono FS. Może również zostać wyświetlony stan czyszczenia.
The filesystem is enabled and running.
Cleaning started at 2016/08/20 14:12:16: phase 1 of 12 (pre-merge)
  0.7% complete, 95911 GiB free; time: phase  0:00:09, total  0:00:09

 
(active:1)#(standby:0)# system upgrade status
Z poziomu obu węzłów sprawdź, czy wszystkie uaktualnienia zostały ukończone.
Current Upgrade Status: DD OS upgrade Succeeded
End time: 2016.08.20:13:27
 
(active:1)#(standby:0)#Date
Upewnij się, że data i godzina są zgodne na obu węzłach w ciągu 10 sekund
-p1(active:1)# date
Sat Aug 20 14:34:29 EDT 2016
-p0(standby:0)# date
Sat Aug 20 14:34:17 EDT 2016

Z poziomu aktywnego węzła potwierdź u klienta, że replikacja DD (jeśli jest skonfigurowana) działa zgodnie z oczekiwaniami.
# replication status
CTX   Destination                                                 Enabled   Connection         Sync'ed-as-of-time
---   ---------------------------------------------------------   -------   ----------------   ------------------
3     mtree://ddxxx.com/data/col1/eric.dest                        no        idle               Fri Nov  6 15:16
4     mtree://ddxxx.com/data/col1/thy-repl                         yes       idle               Fri Jul 22 15:38
5     dir://ddxxxx.com/backup/replicate-rtp                        yes       disconnected       Fri Jul 22 14:55
6     mtree://ddxxxx.com/data/col1/theman_test                     yes       idle               Sat Aug 20 22:11
7     dir://ddxxx.com/backup/lakeland/sym                          yes       Sat Aug 20 13:15   Fri Aug 19 15:09
---   ---------------------------------------------------------   -------   ----------------   ----------------

Cause

Sprzęt i konfiguracja HA
 
# alerts show current

Zarówno w węźle aktywnym, jak i w węźle w trybie gotowości sprawdź, czy jest aktywny alert wskazujący na potencjalny problem. Alerty nie zawsze są współdzielone między węzłami, dlatego sprawdź oba węzły.  W przypadku wystąpienia nieoczekiwanego problemu utwórz zgłoszenie do pomocy technicznej. Zawsze generuj pakiet pomocy technicznej z obu węzłów.
Uwaga.  Większość alertów jest widoczna tylko w jednym z węzłów. Nie każdy alert jest współdzielony przez węzły.
 

Przykłady alertów:

Severity   Class             Object   Message
   --------   ---------------   ------   ----------------------------------------------
CRITICAL      HardwareFailure            EVT-ENVIRONMENT-00049: The system detected an invalid hardware configuration.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
CRITICAL      HardwareFailure            EVT-ENVIRONMENT-00048: Filesystem can't be enabled due to an invalid hardware configuration.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING       HardwareFailure            Enclosure=1:Slot=5   EVT-ENVIRONMENT-00047: PCI communication speed is degraded
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING             HA                   EVT-HA-00003: Standby node time is off by 15 second(s).
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING    HardwareFailure   Port Index=1   EVT-MPATH-00003: Missing disk connection from system port 6a.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------

 

# ha status

Do określenia bieżącego stanu HA można użyć polecenia #ha status na węźle aktywnym i węźle w trybie gotowości.
W przypadku stanu „high available” włączone jest przełączanie awaryjne. 
W przypadku stanu „degraded” lub gdy jeden z węzłów nie wyświetla stanu „online”, przełączanie awaryjne między węzłami jest wyłączone.

 
SE@hostname-p0(active:0)## ha status
HA System name:hostname-n1.chaos.local
HA System status: highly available
 
Node Name                         Node id   Role      HA State
-------------------------------   -------   -------   --------
hostname-p0.chaos.local   0         active    online
hostname-p1.chaos.local   1         standby   online
-------------------------------   -------   -------   --------

# #ha detailed
Polecenie #ha status detailed w aktywnym węźle może służyć tylko do uzyskania bardziej szczegółowych informacji dotyczących stanu HA.
Dowolne z poniższych danych wyjściowych wyświetlających komunikat „not ok” w sekcji Mirroring Status wskazują na niedziałający komponent, a stan systemu HA jest wyświetlany jako „degraded”. 
Każdy zdegradowany stan uniemożliwia przełączanie awaryjne między węzłami.

Uwaga: to polecenie nie jest dostępne w węźle w trybie gotowości.
 
SEhostname-p0(active:0)## ha status detailed
HA System name: hostname.chaos.local
HA System Status: highly available
Interconnect Status: ok
Primary Heartbeat Status:  ok
External LAN Heartbeat Status: not ok
Hardware compatibility check: ok
Software Version Check:   ok
 
Node hostname-p0.chaos.local:
        Role:      active
        HA State:  online
        Node Health: ok
 
Node hostname-p1.chaos.local:
        Role:     standby
        HA State: online
        Node Health: ok
 
Mirroring Status:
Component Name   Status
--------------   ------
nvram            ok
registry         ok
sms              ok
ddboost          ok
cifs             ok
--------------   ------


# enclosure show io-cards
Upewnij się, że oba węzły mają identyczne obsługiwane konfiguracje.


# enclosure show misconfiguration
Przeprowadź test błędnej konfiguracji z węzła aktywnego i węzłów w trybie gotowości, aby sprawdzić, czy nie ma problemu z konfiguracją sprzętu. 
Zapoznaj się z bazą wiedzy
https://www.dell.com/support/kbdoc/en-us/463399

 
Przykłady:
Memory DIMMs:
Locator Bank Locator Size(GiB) Status
------- ------------ --------- ----------
CHCD1     7     0     missing
CHDD1     7     0     missing
CHAD0     4     8     wrong size
CHBD0     4     8     wrong size
IO Cards:
Slot   Device       Status
----   ----------   ---------
10     Hera NVRAM   extra
10     Hera NVRAM   misplaced
----   ----------   ---------
CPUs:
    No misconfiguration found.
Disks:
Slot   Size(GiB)   Type   Media   Status
----   ---------   ----   -----   -------
2      186         SATA   SSD     missing
----   ---------   ----   -----   -----
 
# enclosure show topology
Sprawdź topologię z obu węzłów. 
Poszukaj błędów między punktami połączeń i
upewnij się, że cała numeracja półek jest prawidłowa.
- Błędy i usterki są oznaczone symbolami „?”, „!” lub „!!”
Uwaga: dane wyjściowe topologii dla każdego węzła powinny być odwrócone (odbicie lustrzane) względem siebie.
 
(Stdby:0)## enclosure show topology
Port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----   -   -------------   -   -------------   -   -------------   -   -------------
2a
2b
2c
2d     >    5.A.E: 5.A.H   ?   4.A.E: 4.A.H   >    3.A.E: 3.A.H   >    2.A.E: 2.A.H
3a
3b
3c
3d
6a     !!    2.B.E: 2.B.H   >    3.B.E: 3.B.H   >    5.B.E: 5.B.H   >    ?.B.E: ?.B.H
6b
6c
6d
----   -   -------------   -   -------------   -   -------------   -   -------------
 
(active:1)## enclosure show topology
Port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----   -   -------------   -   -------------   -   -------------   -   -------------
2a
2b
2c
2d   >    2.A.H: 2.A.E   >    3.A.H: 3.A.E   >    4.A.H: 4.A.E   >    5.A.H: 5.A.E
3a
3b
3c
3d
6a    >    5.B.H: 5.B.E   >    4.B.H: 4.B.E   >    3.B.H: 3.B.E   >    2.B.H: 2.B.E
6b
6c
6d
----   -   -------------   -   -------------   -   -------------   -   -------------
 
# enclosure test topology all duration 1
Zarówno w węźle aktywnym, jak i w trybie gotowości wykonaj 1-minutowy test diagnostyczny wszystkich portów HBA SAS z podłączoną zewnętrzną pamięcią masową.
Nie należy wykonywać testów topologii na obu węzłach jednocześnie. 
Oczekiwanym wynikiem jest brak wykrytego błędu dla każdego portu z podłączoną pamięcią masową. 
Jeśli zostanie znaleziony problem, test może zostać zatrzymany komunikatem o błędzie wskazującym na awarię połączenia SAS lub może wyświetlić błąd (? , ! ) na określonym połączeniu
.

 
Uwaga: podczas testu topologii poszczególne porty mają osobne dane wyjściowe, wskazujące stan. Poszukaj błędów (? , ! ), aby wskazać problematyczne połączenieDane wyjściowe interfejsu wiersza poleceń nie są wyświetlane do momentu zakończenia każdego testu portu. 
 
# enclosure test topology  
Started: 1471719316
Ended: 1471719498
Duration: 182
Port      enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----  -  ---------------  -  ---------------  -  ---------------  -  ---------------
2d    >    5.A.H:5.A.E    >    4.A.H:4.A.E    >    3.A.H:3.A.E    >    2.A.H:2.A.E
----  -  ---------------  -  ---------------  -  ---------------  -  ---------------
Error message:
-----------------
No error detected
-----------------

# system show nvram
Zarówno w węźle aktywnym, jak i w trybie gotowości upewnij się, że baterie Nvram są naładowane lub ładują się, a wszystkie liczniki błędów nvram pokazują wartość zero.
 
# system show nvram
NVRAM Cards:
        Card   Component                 Value
        ----   -----------------------   ----------------------------------------------------------------------
        1      Slot                      0
               Firmware version          0.0.80
               Memory size               7.93 GiB
               Errors                    0 memory (0 uncorrectable), 0 PCI, 0 controller
               Flash controller Errors   0 Cfg Err, 0 PANIC, 0 Bus Hang, 0 Bad Blk Warn, 0 Bkup Err, 0 Rstr Err
               Board temperature         37 C
               CPU temperature           47 C
               Number of batteries       1
        ----   -----------------------   ----------------------------------------------------------------------
NVRAM Batteries:
        Card   Battery   Status   Charge   Charging   Time To       Temperature   Voltage
                                           Status     Full Charge
        ----   -------   ------   ------   --------   -----------   -----------   -------
        1      1         ok       94 %     enabled    0 mins        34 C          4.016 V
        ----   -------   ------   ------   --------   -----------   -----------   -------

Resolution

Jeśli wymagana jest dalsza pomoc, należy skontaktować się z usługodawcą, z którym zawarto umowę.

Additional Information

.

Affected Products

Data Domain

Products

Data Domain, DD OS 6.0
Article Properties
Article Number: 000017861
Article Type: Solution
Last Modified: 05 Jul 2024
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.