Диагностика системы для устройств Data Domain HA (DDHA)

Summary: Данная статья содержит инструкции по выполнению базовой диагностики системы HA после события обслуживания. Конфигурации Data Domain с высокой доступностью (DDHA) различаются в зависимости от используемых моделей Data Domain. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Системы Data Domain с высокой доступностью (DDHA) предназначены для аварийного переключения между узлами.  Только активный узел находится в производственной среде, а резервный узел ожидает события сбоя, чтобы взять на себя функцию активного узла (АКТИВНЫЙ – ПАССИВНЫЙ). 
В случае сбоя необходимо убедиться, что оба узла DDHA находятся в рабочем состоянии, и выполнить аварийное переключение. 
Команды интерфейса командной строки, описанные в этой статье, помогают выявить возможные проблемы, которые могут помешать выполнить аварийное переключение. 
Данное руководство разбито на ключевые разделы, с которыми необходимо ознакомиться.
  • Оборудование и конфигурация HA
  • Сеть
  • Файловая система
Устранение неисправностей сети HA
 
# net show settings 
Настройки сетевого порта различаются в зависимости от того, на каком узле выполняется команда «#net show settings». Настроенные порты в системах DDHA имеют тип «плавающий» или «фиксированный».  Выполните
 "net show settings"
на обоих узлах и сравните выходные данные.
  1. «Плавающие» интерфейсы:  Убедитесь, что каждый настроенный порт сетевой платы (NIC), псевдоним или Veth, для которого отображается включенное и рабочее состояние на активном узле, имеет идентичное включенное и рабочее состояние на резервном узле.  Ожидается, что любой настроенный порт NIC, псевдоним или Veth, для которого установлен плавающий тип, имеет IP-адрес, отображаемый на активном узле, и соответствующее значение «N/A» на резервном узле. 
  2. «Фиксированные» интерфейсы: Убедитесь, что для любого настроенного порта NIC, псевдонима или Veth, помеченного как «фиксированный», отображается состояние «enabled and running». «Фиксированные» интерфейсы не имеют идентичных конфигураций между узлами
  3. Убедитесь, что отображается межсоединение HA (veth99), а все необходимые порты включены и работают. Примечание.  Количество необходимых соединений портов и расположение разъемов для межсоединения HA (veth99) зависит от модели DD.

Активный узел:
# net show settings
port     enabled   state     DHCP   IP address                             netmask          type           additional setting
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
ethMa    yes       running   no     10.25.18.50                            255.255.255.0       fixed
                                           2620:0:170:1608:260:16ff:fe5c:92bc**   /64
                                                fe80::260:16ff:fe5c:92bc**        /64
ethMb    no        down      ipv4   n/a                                           n/a          fixed
ethMc    no        down      ipv4   n/a                                           n/a          fixed
ethMd    no        down      ipv4   n/a                                           n/a          fixed
eth4a    yes       running   no     10.25.18.63                            255.255.255.0       floating
                                           2620:0:170:1608:260:16ff:fe51:8c60**   /64
                                               fe80::260:16ff:fe51:8c60**         /64
eth4b    no        down       no     n/a                                          n/a          fixed
eth4c    no        down       no     n/a                                          n/a          fixed
eth4d    no        down       no     n/a                                          n/a          fixed
eth5a    no        down       no     n/a                                          n/a          fixed
eth5b    yes       running   no     10.25.18.60                            255.255.255.0       floating
                                           2620:0:170:1608:260:16ff:fe52:2951**   /64
                                                fe80::260:16ff:fe52:2951**        /64
eth5c    no        down       no     n/a                                          n/a          fixed
eth5d    no        down       no     n/a                                          n/a          fixed
eth11a   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11b   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11c   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11d   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
veth99   yes       running   no     d:d:d:d:d:0060:1652:0ecc                 /80               interconnect   lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d
                                                 fe80::260:16ff:fe52:ecc**   /64
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
Резервный узел:
# net show settings
port     enabled   state     DHCP   IP address                             netmask          type           additional setting
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
ethMa    yes       running   no     10.25.18.49                            255.255.255.0    fixed
                                     2620:0:170:14567:260:16ff:fe5c:dr3**  /64
                                               fe80::260:16ff:fe5c3457c**  /64
ethMb    no        down      ipv4   n/a                                    n/a              fixed
ethMc    no        down      ipv4   n/a                                    n/a              fixed
ethMd    no        down      ipv4   n/a                                    n/a              fixed
eth4a    yes       running   no     n/a                                    255.255.255.0    floating
                                    2620:0:170:1608:260:1ght6:fe51:4570**  /64
                                               fe80::260:16ff:fe51:7890**  /64
eth4b    no        down       no     n/a                                   n/a              fixed
eth4c    no        down       no     n/a                                   n/a              fixed
eth4d    no        down       no     n/a                                   n/a              fixed
eth5a    no        down       no     n/a                                   n/a              fixed
eth5b    yes       running    no     n/a                                   255.255.255.0    floating
                                     2620:0:170:160:456:16ff:fe5234561**   /64
                                              fe80::260:16ff:fe52:3456**   /64
eth5c    no        down       no     n/a                                   n/a              fixed
eth5d    no        down       no     n/a                                   n/a              fixed
eth11a   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11b   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11c   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11d   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
veth99   yes       running    no     d:d:d:d:d:0e456:1652:dft4c            /80              interconnect   lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d
                                                 fe80::264:16ff:fec2:ecb** /64
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
 
Проверка подключения к сети.
Просмотрите IP-адреса, перечисленные на каждом узле, и убедитесь, что каждый настроенный IP-адрес на активном узле и резервных узлах может отправить ping-запрос на настроенный шлюз. 
Примечание.: Некоторые пользователи отключают ping (ICMP) в своей среде.  В этом случае обратитесь к заказчику для подтверждения подключения.

 
(active:1)# net route show gateway detailed 
IPv4 Default Gateways
gateway IP   source   tables   interface address   owner
----------   ------   ------   -----------------   -----
10.25.18.1   static   tethMa   10.25.18.50/24      none
10.25.18.1   static   teth4a   10.25.18.63/24      none
10.25.18.1   static   teth5b   10.25.18.60/24      none
----------   ------   ------   -----------------   -----

Выполните ping-запрос для IP-адреса шлюза с каждым настроенным ethxx.
 
#(active:1)# ping 10.25.18.1 interface ethMa
                                                           PING 10.25.18.1 (10.25.18.1) from 10.25.18.50 ethMa: 56(84) bytes of data.
                                                           64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=0.697 ms
(active:1)# ping 10.25.18.1 interface eth4a
                                                           PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data.
                                                           64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
(active:1)# ping 10.25.18.1 interface eth5b
                                                          PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data.
                                                          64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
 
# net troubleshooting duplicate-ip
Выполните проверку дублирующихся IP-адресов на обоих узлах
No duplicate IP addresses detected

Тестирование Fibre Channel
Проверьте, что эти функции лицензированы, а затем протестируйте их, чтобы убедиться, что они полностью функциональны (например: выполните тестовые операции резервного копирования в виртуальную ленточную библиотеку (VTL))
# license show  or # elicense show

##   License Key           Feature
--   -------------------   ----------------------------------------
1    WTXV-TSWX-HWDR-RHDX  VTL
2    EZXW-SZZF-BGCS-VRZX   Block services (Vdisk)
3 .... HA

Автоматическая поддержка и тестирование оповещений на активном и резервном узлах
 
 (active:1)## autosupport test alert-summary
                              OK: Message sent.
 (active:1)## autosupport test support-notify
                              OK: Message sent.
 
 (standby:0)# autosupport test alert-summary
                              OK: Message sent.
 (standby:0)# autosupport test support-notify
                              OK: Message sent.


Если CONNECTEMC (Secure Remote Services) используется для пересылки ASUPS в Data Domain, используйте следующую команду для проверки возможности подключения на обоих узлах.
Метка времени указывает, когда было установлено последнее подключение.
sysadmin@hostname# support connectemc show history
File Time Transport Result
--------------------------------------- --------------------- --------- --------
RSC_CKM00XXX601153_120315_092804166.xml "2015-12-03 09:28:07" HTTP Success
RSC_CKM00XXX601153_120315_101257767.xml "2015-12-03 10:13:00" HTTP Success
RSC_CKM00XXX601153_120315_111649065.xml "2015-12-03 11:16:53" HTTP Success
--------------------------------------- --------------------- --------- --------
Note: It says HTTP above, but it is HTTPS

Устранение неисправностей файловой системы HA
 
# filesys status
Проверьте, что файловая система включена и запущена. Также может отображаться состояние очистки.
The filesystem is enabled and running.
Cleaning started at 2016/08/20 14:12:16: phase 1 of 12 (pre-merge)
  0.7% complete, 95911 GiB free; time: phase  0:00:09, total  0:00:09

 
(active:1)# (standby:0)# system upgrade status
Убедитесь, что все модернизации завершены на обоих узлах.
Current Upgrade Status: DD OS upgrade Succeeded
End time: 2016.08.20:13:27
 
(active:1)# (standby:0)#Date
Убедитесь, что время и дата на обоих узлах совпадают в течение 10 с.
-p1(active:1)# date
Sat Aug 20 14:34:29 EDT 2016
-p0(standby:0)# date
Sat Aug 20 14:34:17 EDT 2016

Уточните у заказчика, что репликация DD (если настроена) на активном узле работает должным образом.
# replication status
CTX   Destination                                                 Enabled   Connection         Sync'ed-as-of-time
---   ---------------------------------------------------------   -------   ----------------   ------------------
3     mtree://ddxxx.com/data/col1/eric.dest                        no        idle               Fri Nov  6 15:16
4     mtree://ddxxx.com/data/col1/thy-repl                         yes       idle               Fri Jul 22 15:38
5     dir://ddxxxx.com/backup/replicate-rtp                        yes       disconnected       Fri Jul 22 14:55
6     mtree://ddxxxx.com/data/col1/theman_test                     yes       idle               Sat Aug 20 22:11
7     dir://ddxxx.com/backup/lakeland/sym                          yes       Sat Aug 20 13:15   Fri Aug 19 15:09
---   ---------------------------------------------------------   -------   ----------------   ----------------

Cause

Оборудование и конфигурация HA
 
# alerts show current

На активном и резервном узлах проверьте наличие активного оповещения, указывающего на возможную проблему. Оповещения не всегда одновременно отображаются на обоих узлах, поэтому проверьте оба узла.  При возникновении непредвиденной проблемы подайте заявку в службу поддержки. Всегда создавайте пакет поддержки для обоих узлов.
Примечание.  Большинство оповещений отображается только на одном из узлов. Не все оповещения являются общими для узлов.
 

Примеры оповещений:

Severity   Class             Object   Message
   --------   ---------------   ------   ----------------------------------------------
CRITICAL      HardwareFailure            EVT-ENVIRONMENT-00049: The system detected an invalid hardware configuration.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
CRITICAL      HardwareFailure            EVT-ENVIRONMENT-00048: Filesystem can't be enabled due to an invalid hardware configuration.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING       HardwareFailure            Enclosure=1:Slot=5   EVT-ENVIRONMENT-00047: PCI communication speed is degraded
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING             HA                   EVT-HA-00003: Standby node time is off by 15 second(s).
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING    HardwareFailure   Port Index=1   EVT-MPATH-00003: Missing disk connection from system port 6a.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------

 

«# ha status»

Для определения текущего состояния HA можно использовать команду «#ha status» для активного узла и резервного узла.
Если состояние имеет значение «highly available», аварийное переключение включено. 
Если состояние имеет значение «degraded» или один из узлов не отображает состояние «online», аварийное переключение между узлами отключено.

 
SE@hostname-p0(active:0)## ha status
HA System name:hostname-n1.chaos.local
HA System status: highly available
 
Node Name                         Node id   Role      HA State
-------------------------------   -------   -------   --------
hostname-p0.chaos.local   0         active    online
hostname-p1.chaos.local   1         standby   online
-------------------------------   -------   -------   --------

# ha status detailed
Команду «#ha status detailed» можно использовать на активном узле только для получения более подробной информации о состоянии HA.
Если для любого из перечисленных ниже выводов отображается «not ok» в разделе «Mirroring Status», это обозначает, что компонент не функционирует, а состояние системы HA отображается как «degraded». 
Любое состояние сниженной производительности предотвращает аварийное переключение между узлами.

Примечание. Эта команда недоступна на резервном узле.
 
SEhostname-p0(active:0)## ha status detailed
HA System name: hostname.chaos.local
HA System Status: highly available
Interconnect Status: ok
Primary Heartbeat Status:  ok
External LAN Heartbeat Status: not ok
Hardware compatibility check: ok
Software Version Check:   ok
 
Node hostname-p0.chaos.local:
        Role:      active
        HA State:  online
        Node Health: ok
 
Node hostname-p1.chaos.local:
        Role:     standby
        HA State: online
        Node Health: ok
 
Mirroring Status:
Component Name   Status
--------------   ------
nvram            ok
registry         ok
sms              ok
ddboost          ok
cifs             ok
--------------   ------


# enclosure show io-cards
Убедитесь, что оба узла имеют одинаковые, поддерживаемые конфигурации.


# enclosure show misconfiguration
Выполните тест ошибки конфигурации для активного узла и резервных узлов, чтобы проверить наличие проблем с конфигурацией оборудования. 
См. статью базы знаний
https://www.dell.com/support/kbdoc/en-us/463399

 
Примеры:
Memory DIMMs:
Locator Bank Locator Size(GiB) Status
------- ------------ --------- ----------
CHCD1     7     0     missing
CHDD1     7     0     missing
CHAD0     4     8     wrong size
CHBD0     4     8     wrong size
IO Cards:
Slot   Device       Status
----   ----------   ---------
10     Hera NVRAM   extra
10     Hera NVRAM   misplaced
----   ----------   ---------
CPUs:
    No misconfiguration found.
Disks:
Slot   Size(GiB)   Type   Media   Status
----   ---------   ----   -----   -------
2      186         SATA   SSD     missing
----   ---------   ----   -----   -----
 
# enclosure show topology
Проверьте топологию обоих узлов. 
Проверьте, нет ли ошибок между точками подключения, и у
бедитесь, что нумерация всех полок верна.
- Ошибки и неисправности обозначаются символами «?», «!» или «!!»
Примечание.: Эти выводы в топологии для каждого узла должны быть отражены относительно друг друга (зеркальный образ).
 
(Stdby:0)## enclosure show topology
Port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----   -   -------------   -   -------------   -   -------------   -   -------------
2a
2b
2c
2d     >    5.A.E: 5.A.H   ?   4.A.E: 4.A.H   >    3.A.E: 3.A.H   >    2.A.E: 2.A.H
3a
3b
3c
3d
6a     !!    2.B.E: 2.B.H   >    3.B.E: 3.B.H   >    5.B.E: 5.B.H   >    ?.B.E: ?.B.H
6b
6c
6d
----   -   -------------   -   -------------   -   -------------   -   -------------
 
(active:1)## enclosure show topology
Port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----   -   -------------   -   -------------   -   -------------   -   -------------
2a
2b
2c
2d   >    2.A.H: 2.A.E   >    3.A.H: 3.A.E   >    4.A.H: 4.A.E   >    5.A.H: 5.A.E
3a
3b
3c
3d
6a    >    5.B.H: 5.B.E   >    4.B.H: 4.B.E   >    3.B.H: 3.B.E   >    2.B.H: 2.B.E
6b
6c
6d
----   -   -------------   -   -------------   -   -------------   -   -------------
 
# enclosure test topology all duration 1
На активном и резервном узлах, выполните 1-минутный диагностический тест для всех портов HBA-адаптера SAS с подключенным внешним хранилищем.
Не выполняйте тестирование топологии на обоих узлах одновременно. 
Ожидаемый результат — отсутствие ошибок для каждого порта с подключенным хранилищем. 
При обнаружении проблемы тест может быть остановлен с сообщением об ошибке, указывающим на сбой соединения SAS, или может появиться сообщение об ошибке («?» , «!» ) в определенном соединении
.

 
Примечание.: Во время тестирования топологии отдельные порты имеют отдельный вывод, указывающий состояние. Выполните поиск ошибок («?» , «!» ) для обнаружения проблемного соединенияВывод интерфейса командной строки не отображается до завершения тестирования каждого порта. 
 
# enclosure test topology  
Started: 1471719316
Ended: 1471719498
Duration: 182
Port      enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----  -  ---------------  -  ---------------  -  ---------------  -  ---------------
2d    >    5.A.H:5.A.E    >    4.A.H:4.A.E    >    3.A.H:3.A.E    >    2.A.H:2.A.E
----  -  ---------------  -  ---------------  -  ---------------  -  ---------------
Error message:
-----------------
No error detected
-----------------

# system show nvram
На активном и на резервном узлах, убедитесь, что аккумуляторы Nvram заряжены или заряжаются, а все счетчики ошибок nvram показывают нулевое значение.
 
# system show nvram
NVRAM Cards:
        Card   Component                 Value
        ----   -----------------------   ----------------------------------------------------------------------
        1      Slot                      0
               Firmware version          0.0.80
               Memory size               7.93 GiB
               Errors                    0 memory (0 uncorrectable), 0 PCI, 0 controller
               Flash controller Errors   0 Cfg Err, 0 PANIC, 0 Bus Hang, 0 Bad Blk Warn, 0 Bkup Err, 0 Rstr Err
               Board temperature         37 C
               CPU temperature           47 C
               Number of batteries       1
        ----   -----------------------   ----------------------------------------------------------------------
NVRAM Batteries:
        Card   Battery   Status   Charge   Charging   Time To       Temperature   Voltage
                                           Status     Full Charge
        ----   -------   ------   ------   --------   -----------   -----------   -------
        1      1         ok       94 %     enabled    0 mins        34 C          4.016 V
        ----   -------   ------   ------   --------   -----------   -----------   -------

Resolution

Если вам требуется дополнительная помощь, обратитесь к поставщику услуг, с которым заключен контракт.

Additional Information

.

Affected Products

Data Domain

Products

Data Domain, DD OS 6.0
Article Properties
Article Number: 000017861
Article Type: Solution
Last Modified: 05 Jul 2024
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.