Перевірка працездатності пристроїв Data Domain HA (DDHA)

Summary: Ця стаття має на меті надати вказівки щодо виконання базової перевірки працездатності системи HA після події, пов'язаної з обслуговуванням. Конфігурації високої доступності домену даних (DDHA) залежать від використовуваних моделей домену даних. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Високодоступні системи домену даних (DDHA) призначені для перемикання між вузлами.  У виробництві знаходиться тільки активний вузол, в той час як резервний вузол очікує події відмови, щоб зайняти місце активного вузла (ACTIVE - PASSIVE). 
В обов'язковому порядку необхідно перевірити, щоб обидва вузли DDHA були в робочому стані, і завершити відмову, якщо такий збій виник. 
Команди командного рядка, детально описані в цій статті, допомагають виявити можливі проблеми, які можуть перешкодити успішному перемиканню на відмову. 
Цей посібник розбитий на ключові області, які слід перевірити.
  • Апаратне забезпечення та конфігурація HA
  • Мережа
  • Файлова система
Усунення

несправностей мережі HA # Налаштування
чистого шоуНалаштування мережевого порту різні, в залежності від того, на якому вузлі виконується команда #net show settings.    Конфігуровані порти в системах DDHA мають тип «плаваючий» або тип «фіксований».  Бігти
 "net show settings"
на обох вузлах і порівняйте виходи.
  1. "Плаваючі" інтерфейси:  Переконайтеся, що будь-який налаштований порт мережевої карти (NIC), псевдонім або veth, який відображає увімкнений і запущений стан на активному вузлі, має ідентичний увімкнений і запущений стан на резервному вузлі.  Очікується, що будь-який налаштований порт NIC, псевдонім або Veth, встановлений для плаваючого типу, матиме IP-адресу, що відображається на активному вузлі та відповідний N/A на резервному вузлі. 
  2. "Виправлені" інтерфейси: Переконайтеся, що будь-який налаштований порт NIC, псевдонім або veth, позначений як «фіксований», відображає «увімкнено та запущено стан». «Фіксовані» інтерфейси не мають ідентичних конфігурацій між вузлами
  3. Переконайтеся, що відображається з'єднання HA (veth99), а всі необхідні порти увімкнені та працюють, Примітка:  Кількість необхідних з'єднань портів і розташування слотів для з'єднання HA (veth99) залежить від моделі DD

Активний вузол:
# net show settings
port     enabled   state     DHCP   IP address                             netmask          type           additional setting
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
ethMa    yes       running   no     10.25.18.50                            255.255.255.0       fixed
                                           2620:0:170:1608:260:16ff:fe5c:92bc**   /64
                                                fe80::260:16ff:fe5c:92bc**        /64
ethMb    no        down      ipv4   n/a                                           n/a          fixed
ethMc    no        down      ipv4   n/a                                           n/a          fixed
ethMd    no        down      ipv4   n/a                                           n/a          fixed
eth4a    yes       running   no     10.25.18.63                            255.255.255.0       floating
                                           2620:0:170:1608:260:16ff:fe51:8c60**   /64
                                               fe80::260:16ff:fe51:8c60**         /64
eth4b    no        down       no     n/a                                          n/a          fixed
eth4c    no        down       no     n/a                                          n/a          fixed
eth4d    no        down       no     n/a                                          n/a          fixed
eth5a    no        down       no     n/a                                          n/a          fixed
eth5b    yes       running   no     10.25.18.60                            255.255.255.0       floating
                                           2620:0:170:1608:260:16ff:fe52:2951**   /64
                                                fe80::260:16ff:fe52:2951**        /64
eth5c    no        down       no     n/a                                          n/a          fixed
eth5d    no        down       no     n/a                                          n/a          fixed
eth11a   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11b   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11c   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11d   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
veth99   yes       running   no     d:d:d:d:d:0060:1652:0ecc                 /80               interconnect   lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d
                                                 fe80::260:16ff:fe52:ecc**   /64
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
Вузол резерву :
# net show settings
port     enabled   state     DHCP   IP address                             netmask          type           additional setting
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
ethMa    yes       running   no     10.25.18.49                            255.255.255.0    fixed
                                     2620:0:170:14567:260:16ff:fe5c:dr3**  /64
                                               fe80::260:16ff:fe5c3457c**  /64
ethMb    no        down      ipv4   n/a                                    n/a              fixed
ethMc    no        down      ipv4   n/a                                    n/a              fixed
ethMd    no        down      ipv4   n/a                                    n/a              fixed
eth4a    yes       running   no     n/a                                    255.255.255.0    floating
                                    2620:0:170:1608:260:1ght6:fe51:4570**  /64
                                               fe80::260:16ff:fe51:7890**  /64
eth4b    no        down       no     n/a                                   n/a              fixed
eth4c    no        down       no     n/a                                   n/a              fixed
eth4d    no        down       no     n/a                                   n/a              fixed
eth5a    no        down       no     n/a                                   n/a              fixed
eth5b    yes       running    no     n/a                                   255.255.255.0    floating
                                     2620:0:170:160:456:16ff:fe5234561**   /64
                                              fe80::260:16ff:fe52:3456**   /64
eth5c    no        down       no     n/a                                   n/a              fixed
eth5d    no        down       no     n/a                                   n/a              fixed
eth11a   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11b   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11c   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11d   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
veth99   yes       running    no     d:d:d:d:d:0e456:1652:dft4c            /80              interconnect   lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d
                                                 fe80::264:16ff:fec2:ecb** /64
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
 
Перевірте підключення до мережі.
Перегляньте IP-адреси, перелічені на кожному вузлі, і переконайтеся, що кожна налаштована IP-адреса на активному вузлі та резервному вузлі може пінгувати налаштований шлюз. 
Примітка: Деякі клієнти мають вимкнений пінг (ICMP) у своєму середовищі.  У цьому випадку зверніться до клієнта, щоб підтвердити підключення.

 
(active:1)# Детальний шлюз чистого маршруту 
IPv4 Default Gateways
gateway IP   source   tables   interface address   owner
----------   ------   ------   -----------------   -----
10.25.18.1   static   tethMa   10.25.18.50/24      none
10.25.18.1   static   teth4a   10.25.18.63/24      none
10.25.18.1   static   teth5b   10.25.18.60/24      none
----------   ------   ------   -----------------   -----

Пінгуйте IP-адресу шлюзу з кожним налаштованим ethxx.
 
#(active:1)# ping 10.25.18.1 interface ethMa
                                                           PING 10.25.18.1 (10.25.18.1) from 10.25.18.50 ethMa: 56(84) bytes of data.
                                                           64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=0.697 ms
(active:1)# ping 10.25.18.1 interface eth4a
                                                           PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data.
                                                           64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
(active:1)# ping 10.25.18.1 interface eth5b
                                                          PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data.
                                                          64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
 
# Net усунення несправностей duplicate-ip
З обох вузлів перевірте наявність дублікатів IP
No duplicate IP addresses detected

Тестування
волоконних каналівПереконайтеся, що ці функції ліцензовані, а потім перевірте їх, щоб переконатися, що вони повністю працюють (наприклад: Запустіть тестові операції резервного копіювання на VTL)
# license show  or # elicense show

##   License Key           Feature
--   -------------------   ----------------------------------------
1    WTXV-TSWX-HWDR-RHDX  VTL
2    EZXW-SZZF-BGCS-VRZX   Block services (Vdisk)
3 .... HA

Автоматична підтримка та тестування сповіщень як з активного, так і з резервного режиму
 
 (active:1)## autosupport test alert-summary
                              OK: Message sent.
 (active:1)## autosupport test support-notify
                              OK: Message sent.
 
 (standby:0)# autosupport test alert-summary
                              OK: Message sent.
 (standby:0)# autosupport test support-notify
                              OK: Message sent.


У випадку, якщо для пересилання ASUPS на домен даних використовується CONNECTEMC (Secure Remote Services), використовуйте наступну команду, щоб перевірити підключення на обох вузлах.
Позначка часу вказує на дату останнього встановлення з'єднання.
sysadmin@hostname# support connectemc show history
File Time Transport Result
--------------------------------------- --------------------- --------- --------
RSC_CKM00XXX601153_120315_092804166.xml "2015-12-03 09:28:07" HTTP Success
RSC_CKM00XXX601153_120315_101257767.xml "2015-12-03 10:13:00" HTTP Success
RSC_CKM00XXX601153_120315_111649065.xml "2015-12-03 11:16:53" HTTP Success
--------------------------------------- --------------------- --------- --------
Note: It says HTTP above, but it is HTTPS

Усунення

несправностей файлової системи HA # статус
filesysПереконайтеся, що ФС увімкнена та працює.  Також може відображатися статус очищення.
The filesystem is enabled and running.
Cleaning started at 2016/08/20 14:12:16: phase 1 of 12 (pre-merge)
  0.7% complete, 95911 GiB free; time: phase  0:00:09, total  0:00:09

 
(активний:1)#(режим очікування:0)# статус
оновлення системиНа обох вузлах переконайтеся, що всі оновлення завершено.
Current Upgrade Status: DD OS upgrade Succeeded
End time: 2016.08.20:13:27
 
(активний:1)#(в режимі очікування:0)#Дата
Забезпечте збіг часу та дати на обох вузлах протягом 10 с
-p1(active:1)# date
Sat Aug 20 14:34:29 EDT 2016
-p0(standby:0)# date
Sat Aug 20 14:34:17 EDT 2016

На активному вузлі перевірте у клієнта, що реплікація DD (якщо налаштована) працює належним чином.
# replication status
CTX   Destination                                                 Enabled   Connection         Sync'ed-as-of-time
---   ---------------------------------------------------------   -------   ----------------   ------------------
3     mtree://ddxxx.com/data/col1/eric.dest                        no        idle               Fri Nov  6 15:16
4     mtree://ddxxx.com/data/col1/thy-repl                         yes       idle               Fri Jul 22 15:38
5     dir://ddxxxx.com/backup/replicate-rtp                        yes       disconnected       Fri Jul 22 14:55
6     mtree://ddxxxx.com/data/col1/theman_test                     yes       idle               Sat Aug 20 22:11
7     dir://ddxxx.com/backup/lakeland/sym                          yes       Sat Aug 20 13:15   Fri Aug 19 15:09
---   ---------------------------------------------------------   -------   ----------------   ----------------

Cause

Апаратне забезпечення та конфігурація HA
 
# alerts show current

Як на активному, так і на резервному вузлі перевірте, чи є активне сповіщення, яке вказує на потенційну проблему. Сповіщення не завжди розподіляються між вузлами, тому перевірте обидва вузли.  Якщо ви зіткнулися з неочікуваною проблемою, подайте запит до служби підтримки. Завжди генеруйте пакет підтримки з обох вузлів.
Примітка.  Більшість сповіщень видно лише на одному з вузлів. Не кожне сповіщення розподіляється між вузлами.
 

Приклади сповіщень:

Severity   Class             Object   Message
   --------   ---------------   ------   ----------------------------------------------
CRITICAL      HardwareFailure            EVT-ENVIRONMENT-00049: The system detected an invalid hardware configuration.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
CRITICAL      HardwareFailure            EVT-ENVIRONMENT-00048: Filesystem can't be enabled due to an invalid hardware configuration.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING       HardwareFailure            Enclosure=1:Slot=5   EVT-ENVIRONMENT-00047: PCI communication speed is degraded
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING             HA                   EVT-HA-00003: Standby node time is off by 15 second(s).
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING    HardwareFailure   Port Index=1   EVT-MPATH-00003: Missing disk connection from system port 6a.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------

 

# Статус ГА

Для визначення поточного стану HA можуть використовуватися командні #ha статусу активного вузла та резервного вузла.
Якщо статус «Високодоступний», перемикання на відмову вмикається. 
Якщо статус «деградував» або один з вузлів не показує стан «онлайн», то відмова між вузлами відключена.

 
SE@hostname-p0(active:0)## ha status
HA System name:hostname-n1.chaos.local
HA System status: highly available
 
Node Name                         Node id   Role      HA State
-------------------------------   -------   -------   --------
hostname-p0.chaos.local   0         active    online
hostname-p1.chaos.local   1         standby   online
-------------------------------   -------   -------   --------

# Детальніше про
статус haКоманда #ha статус, детально описаний лише на активному вузлі, може бути використана для отримання більш детальної інформації про статус HA.
Будь-який із наведених нижче виходів, що показує «не в порядку» в розділі «Статус дзеркального відображення», вказує на непрацюючий компонент, а стан системи HA відображається як «погіршений». 
Будь-який погіршений стан запобігає перемиканню між вузлами.

Примітка: Ця команда недоступна на резервному вузлі.
 
SEhostname-p0(active:0)## ha status detailed
HA System name: hostname.chaos.local
HA System Status: highly available
Interconnect Status: ok
Primary Heartbeat Status:  ok
External LAN Heartbeat Status: not ok
Hardware compatibility check: ok
Software Version Check:   ok
 
Node hostname-p0.chaos.local:
        Role:      active
        HA State:  online
        Node Health: ok
 
Node hostname-p1.chaos.local:
        Role:     standby
        HA State: online
        Node Health: ok
 
Mirroring Status:
Component Name   Status
--------------   ------
nvram            ok
registry         ok
sms              ok
ddboost          ok
cifs             ok
--------------   ------


# Вбудовані IO-карти
Переконайтеся, що обидва вузли мають ідентичні, підтримувані конфігурації.


# Неправильна конфігурація
корпусуПроведіть тест неправильної конфігурації активного вузла та резервних вузлів, щоб перевірити, чи немає проблем із конфігурацією обладнання. 
Довідник КБ
https://www.dell.com/support/kbdoc/en-us/463399

 
Приклади:
Memory DIMMs:
Locator Bank Locator Size(GiB) Status
------- ------------ --------- ----------
CHCD1     7     0     missing
CHDD1     7     0     missing
CHAD0     4     8     wrong size
CHBD0     4     8     wrong size
IO Cards:
Slot   Device       Status
----   ----------   ---------
10     Hera NVRAM   extra
10     Hera NVRAM   misplaced
----   ----------   ---------
CPUs:
    No misconfiguration found.
Disks:
Slot   Size(GiB)   Type   Media   Status
----   ---------   ----   -----   -------
2      186         SATA   SSD     missing
----   ---------   ----   -----   -----
 
# топологія
шоу корпусуПеревірте топологію з обох вузлів. 
Подивіться, чи немає помилок між точками з'єднання, і переконайтеся,
що всі номери полиць правильні.
- Помилки та недоліки символізуються «?», «!» Або «!!»
Примітка: При цьому виходи топології для кожного вузла повинні бути обернені (дзеркальне відображення) один до одного.
 
(Stdby:0)## enclosure show topology
Port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----   -   -------------   -   -------------   -   -------------   -   -------------
2a
2b
2c
2d     >    5.A.E: 5.A.H   ?   4.A.E: 4.A.H   >    3.A.E: 3.A.H   >    2.A.E: 2.A.H
3a
3b
3c
3d
6a     !!    2.B.E: 2.B.H   >    3.B.E: 3.B.H   >    5.B.E: 5.B.H   >    ?.B.E: ?.B.H
6b
6c
6d
----   -   -------------   -   -------------   -   -------------   -   -------------
 
(active:1)## enclosure show topology
Port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----   -   -------------   -   -------------   -   -------------   -   -------------
2a
2b
2c
2d   >    2.A.H: 2.A.E   >    3.A.H: 3.A.E   >    4.A.H: 4.A.E   >    5.A.H: 5.A.E
3a
3b
3c
3d
6a    >    5.B.H: 5.B.E   >    4.B.H: 4.B.E   >    3.B.H: 3.B.E   >    2.B.H: 2.B.E
6b
6c
6d
----   -   -------------   -   -------------   -   -------------   -   -------------
 
# Топологія тесту корпусу вся тривалість 1
Як з активного, так і з резервного вузлів проведіть діагностичний тест тривалістю 1 хвилину для всіх портів SAS HBA з підключеним зовнішнім накопичувачем.
Не виконуйте перевірку топології на обох вузлах одночасно. 
Очікуваним результатом є відсутність виявленої помилки для кожного порту з підключеним сховищем. 
При виявленні проблеми тест може зупинитися з повідомленням про помилку, що вказує на з'єднання SAS з несправністю, або може показати помилку (? , ! ) при певному з'єднанні
.

 
Примітка: Під час перевірки топології окремі порти мають окремий вихід, що вказує на стан. Шукайте помилки (? , ! ), щоб точно визначити проблемне з'єднанняВихідні дані CLI не відображаються, доки не буде завершено кожен тест порту. 
 
# enclosure test topology  
Started: 1471719316
Ended: 1471719498
Duration: 182
Port      enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----  -  ---------------  -  ---------------  -  ---------------  -  ---------------
2d    >    5.A.H:5.A.E    >    4.A.H:4.A.E    >    3.A.H:3.A.E    >    2.A.H:2.A.E
----  -  ---------------  -  ---------------  -  ---------------  -  ---------------
Error message:
-----------------
No error detected
-----------------

# Системне шоу NVRAM
Як на активних, так і на резервних вузлах переконайтеся, що батареї Nvram заряджені або заряджаються; і що всі лічильники помилок nvram показують значення нуль.
 
# system show nvram
NVRAM Cards:
        Card   Component                 Value
        ----   -----------------------   ----------------------------------------------------------------------
        1      Slot                      0
               Firmware version          0.0.80
               Memory size               7.93 GiB
               Errors                    0 memory (0 uncorrectable), 0 PCI, 0 controller
               Flash controller Errors   0 Cfg Err, 0 PANIC, 0 Bus Hang, 0 Bad Blk Warn, 0 Bkup Err, 0 Rstr Err
               Board temperature         37 C
               CPU temperature           47 C
               Number of batteries       1
        ----   -----------------------   ----------------------------------------------------------------------
NVRAM Batteries:
        Card   Battery   Status   Charge   Charging   Time To       Temperature   Voltage
                                           Status     Full Charge
        ----   -------   ------   ------   --------   -----------   -----------   -------
        1      1         ok       94 %     enabled    0 mins        34 C          4.016 V
        ----   -------   ------   ------   --------   -----------   -----------   -------

Resolution

Якщо вам потрібна додаткова допомога, зверніться до постачальника послуг, з яким ви уклали контракт.

Additional Information

.

Affected Products

Data Domain

Products

Data Domain, DD OS 6.0
Article Properties
Article Number: 000017861
Article Type: Solution
Last Modified: 05 Jul 2024
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.