Диагностика системы для устройств Data Domain HA (DDHA)
Summary: Данная статья содержит инструкции по выполнению базовой диагностики системы HA после события обслуживания. Конфигурации Data Domain с высокой доступностью (DDHA) различаются в зависимости от используемых моделей Data Domain. ...
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
Системы Data Domain с высокой доступностью (DDHA) предназначены для аварийного переключения между узлами. Только активный узел находится в производственной среде, а резервный узел ожидает события сбоя, чтобы взять на себя функцию активного узла (АКТИВНЫЙ – ПАССИВНЫЙ).
В случае сбоя необходимо убедиться, что оба узла DDHA находятся в рабочем состоянии, и выполнить аварийное переключение.
Команды интерфейса командной строки, описанные в этой статье, помогают выявить возможные проблемы, которые могут помешать выполнить аварийное переключение.
Данное руководство разбито на ключевые разделы, с которыми необходимо ознакомиться.
# net show settings
Настройки сетевого порта различаются в зависимости от того, на каком узле выполняется команда «#net show settings». Настроенные порты в системах DDHA имеют тип «плавающий» или «фиксированный». Выполните
Активный узел:
Проверка подключения к сети.
Просмотрите IP-адреса, перечисленные на каждом узле, и убедитесь, что каждый настроенный IP-адрес на активном узле и резервных узлах может отправить ping-запрос на настроенный шлюз.
Примечание.: Некоторые пользователи отключают ping (ICMP) в своей среде. В этом случае обратитесь к заказчику для подтверждения подключения.
(active:1)# net route show gateway detailed
Выполните ping-запрос для IP-адреса шлюза с каждым настроенным ethxx.
# net troubleshooting duplicate-ip
Выполните проверку дублирующихся IP-адресов на обоих узлах
Тестирование Fibre Channel
Проверьте, что эти функции лицензированы, а затем протестируйте их, чтобы убедиться, что они полностью функциональны (например: выполните тестовые операции резервного копирования в виртуальную ленточную библиотеку (VTL))
Автоматическая поддержка и тестирование оповещений на активном и резервном узлах
Если CONNECTEMC (Secure Remote Services) используется для пересылки ASUPS в Data Domain, используйте следующую команду для проверки возможности подключения на обоих узлах.
Метка времени указывает, когда было установлено последнее подключение.
Устранение неисправностей файловой системы HA
# filesys status
Проверьте, что файловая система включена и запущена. Также может отображаться состояние очистки.
(active:1)# (standby:0)# system upgrade status
Убедитесь, что все модернизации завершены на обоих узлах.
(active:1)# (standby:0)#Date
Убедитесь, что время и дата на обоих узлах совпадают в течение 10 с.
Уточните у заказчика, что репликация DD (если настроена) на активном узле работает должным образом.
В случае сбоя необходимо убедиться, что оба узла DDHA находятся в рабочем состоянии, и выполнить аварийное переключение.
Команды интерфейса командной строки, описанные в этой статье, помогают выявить возможные проблемы, которые могут помешать выполнить аварийное переключение.
Данное руководство разбито на ключевые разделы, с которыми необходимо ознакомиться.
- Оборудование и конфигурация HA
- Сеть
- Файловая система
# net show settings
Настройки сетевого порта различаются в зависимости от того, на каком узле выполняется команда «#net show settings». Настроенные порты в системах DDHA имеют тип «плавающий» или «фиксированный». Выполните
"net show settings"на обоих узлах и сравните выходные данные.
- «Плавающие» интерфейсы: Убедитесь, что каждый настроенный порт сетевой платы (NIC), псевдоним или Veth, для которого отображается включенное и рабочее состояние на активном узле, имеет идентичное включенное и рабочее состояние на резервном узле. Ожидается, что любой настроенный порт NIC, псевдоним или Veth, для которого установлен плавающий тип, имеет IP-адрес, отображаемый на активном узле, и соответствующее значение «N/A» на резервном узле.
- «Фиксированные» интерфейсы: Убедитесь, что для любого настроенного порта NIC, псевдонима или Veth, помеченного как «фиксированный», отображается состояние «enabled and running». «Фиксированные» интерфейсы не имеют идентичных конфигураций между узлами
- Убедитесь, что отображается межсоединение HA (veth99), а все необходимые порты включены и работают. Примечание. Количество необходимых соединений портов и расположение разъемов для межсоединения HA (veth99) зависит от модели DD.
Активный узел:
# net show settings port enabled state DHCP IP address netmask type additional setting ------ ------- ------- ---- ------------------------------------ -------------- ------------ ----------------------------------------------- ethMa yes running no 10.25.18.50 255.255.255.0 fixed 2620:0:170:1608:260:16ff:fe5c:92bc** /64 fe80::260:16ff:fe5c:92bc** /64 ethMb no down ipv4 n/a n/a fixed ethMc no down ipv4 n/a n/a fixed ethMd no down ipv4 n/a n/a fixed eth4a yes running no 10.25.18.63 255.255.255.0 floating 2620:0:170:1608:260:16ff:fe51:8c60** /64 fe80::260:16ff:fe51:8c60** /64 eth4b no down no n/a n/a fixed eth4c no down no n/a n/a fixed eth4d no down no n/a n/a fixed eth5a no down no n/a n/a fixed eth5b yes running no 10.25.18.60 255.255.255.0 floating 2620:0:170:1608:260:16ff:fe52:2951** /64 fe80::260:16ff:fe52:2951** /64 eth5c no down no n/a n/a fixed eth5d no down no n/a n/a fixed eth11a yes running n/a n/a n/a interconnect bonded to veth99 eth11b yes running n/a n/a n/a interconnect bonded to veth99 eth11c yes running n/a n/a n/a interconnect bonded to veth99 eth11d yes running n/a n/a n/a interconnect bonded to veth99 veth99 yes running no d:d:d:d:d:0060:1652:0ecc /80 interconnect lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d fe80::260:16ff:fe52:ecc** /64 ------ ------- ------- ---- ------------------------------------ -------------- ------------ -----------------------------------------------Резервный узел:
# net show settings port enabled state DHCP IP address netmask type additional setting ------ ------- ------- ---- ------------------------------------ -------------- ------------ ----------------------------------------------- ethMa yes running no 10.25.18.49 255.255.255.0 fixed 2620:0:170:14567:260:16ff:fe5c:dr3** /64 fe80::260:16ff:fe5c3457c** /64 ethMb no down ipv4 n/a n/a fixed ethMc no down ipv4 n/a n/a fixed ethMd no down ipv4 n/a n/a fixed eth4a yes running no n/a 255.255.255.0 floating 2620:0:170:1608:260:1ght6:fe51:4570** /64 fe80::260:16ff:fe51:7890** /64 eth4b no down no n/a n/a fixed eth4c no down no n/a n/a fixed eth4d no down no n/a n/a fixed eth5a no down no n/a n/a fixed eth5b yes running no n/a 255.255.255.0 floating 2620:0:170:160:456:16ff:fe5234561** /64 fe80::260:16ff:fe52:3456** /64 eth5c no down no n/a n/a fixed eth5d no down no n/a n/a fixed eth11a yes running n/a n/a n/a interconnect bonded to veth99 eth11b yes running n/a n/a n/a interconnect bonded to veth99 eth11c yes running n/a n/a n/a interconnect bonded to veth99 eth11d yes running n/a n/a n/a interconnect bonded to veth99 veth99 yes running no d:d:d:d:d:0e456:1652:dft4c /80 interconnect lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d fe80::264:16ff:fec2:ecb** /64 ------ ------- ------- ---- ------------------------------------ -------------- ------------ -----------------------------------------------
Проверка подключения к сети.
Просмотрите IP-адреса, перечисленные на каждом узле, и убедитесь, что каждый настроенный IP-адрес на активном узле и резервных узлах может отправить ping-запрос на настроенный шлюз.
Примечание.: Некоторые пользователи отключают ping (ICMP) в своей среде. В этом случае обратитесь к заказчику для подтверждения подключения.
(active:1)# net route show gateway detailed
IPv4 Default Gateways gateway IP source tables interface address owner ---------- ------ ------ ----------------- ----- 10.25.18.1 static tethMa 10.25.18.50/24 none 10.25.18.1 static teth4a 10.25.18.63/24 none 10.25.18.1 static teth5b 10.25.18.60/24 none ---------- ------ ------ ----------------- -----
Выполните ping-запрос для IP-адреса шлюза с каждым настроенным ethxx.
#(active:1)# ping 10.25.18.1 interface ethMa PING 10.25.18.1 (10.25.18.1) from 10.25.18.50 ethMa: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=0.697 ms (active:1)# ping 10.25.18.1 interface eth4a PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms (active:1)# ping 10.25.18.1 interface eth5b PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
# net troubleshooting duplicate-ip
Выполните проверку дублирующихся IP-адресов на обоих узлах
No duplicate IP addresses detected
Тестирование Fibre Channel
Проверьте, что эти функции лицензированы, а затем протестируйте их, чтобы убедиться, что они полностью функциональны (например: выполните тестовые операции резервного копирования в виртуальную ленточную библиотеку (VTL))
# license show or # elicense show ## License Key Feature -- ------------------- ---------------------------------------- 1 WTXV-TSWX-HWDR-RHDX VTL 2 EZXW-SZZF-BGCS-VRZX Block services (Vdisk) 3 .... HA
Автоматическая поддержка и тестирование оповещений на активном и резервном узлах
(active:1)## autosupport test alert-summary OK: Message sent. (active:1)## autosupport test support-notify OK: Message sent. (standby:0)# autosupport test alert-summary OK: Message sent. (standby:0)# autosupport test support-notify OK: Message sent.
Если CONNECTEMC (Secure Remote Services) используется для пересылки ASUPS в Data Domain, используйте следующую команду для проверки возможности подключения на обоих узлах.
Метка времени указывает, когда было установлено последнее подключение.
sysadmin@hostname# support connectemc show history File Time Transport Result --------------------------------------- --------------------- --------- -------- RSC_CKM00XXX601153_120315_092804166.xml "2015-12-03 09:28:07" HTTP Success RSC_CKM00XXX601153_120315_101257767.xml "2015-12-03 10:13:00" HTTP Success RSC_CKM00XXX601153_120315_111649065.xml "2015-12-03 11:16:53" HTTP Success --------------------------------------- --------------------- --------- -------- Note: It says HTTP above, but it is HTTPS
Устранение неисправностей файловой системы HA
# filesys status
Проверьте, что файловая система включена и запущена. Также может отображаться состояние очистки.
The filesystem is enabled and running. Cleaning started at 2016/08/20 14:12:16: phase 1 of 12 (pre-merge) 0.7% complete, 95911 GiB free; time: phase 0:00:09, total 0:00:09
(active:1)# (standby:0)# system upgrade status
Убедитесь, что все модернизации завершены на обоих узлах.
Current Upgrade Status: DD OS upgrade Succeeded End time: 2016.08.20:13:27
(active:1)# (standby:0)#Date
Убедитесь, что время и дата на обоих узлах совпадают в течение 10 с.
-p1(active:1)# date Sat Aug 20 14:34:29 EDT 2016 -p0(standby:0)# date Sat Aug 20 14:34:17 EDT 2016
Уточните у заказчика, что репликация DD (если настроена) на активном узле работает должным образом.
# replication status CTX Destination Enabled Connection Sync'ed-as-of-time --- --------------------------------------------------------- ------- ---------------- ------------------ 3 mtree://ddxxx.com/data/col1/eric.dest no idle Fri Nov 6 15:16 4 mtree://ddxxx.com/data/col1/thy-repl yes idle Fri Jul 22 15:38 5 dir://ddxxxx.com/backup/replicate-rtp yes disconnected Fri Jul 22 14:55 6 mtree://ddxxxx.com/data/col1/theman_test yes idle Sat Aug 20 22:11 7 dir://ddxxx.com/backup/lakeland/sym yes Sat Aug 20 13:15 Fri Aug 19 15:09 --- --------------------------------------------------------- ------- ---------------- ----------------
Cause
Оборудование и конфигурация HA
На активном и резервном узлах проверьте наличие активного оповещения, указывающего на возможную проблему. Оповещения не всегда одновременно отображаются на обоих узлах, поэтому проверьте оба узла. При возникновении непредвиденной проблемы подайте заявку в службу поддержки. Всегда создавайте пакет поддержки для обоих узлов.
Примечание. Большинство оповещений отображается только на одном из узлов. Не все оповещения являются общими для узлов.
Если состояние имеет значение «highly available», аварийное переключение включено.
Если состояние имеет значение «degraded» или один из узлов не отображает состояние «online», аварийное переключение между узлами отключено.
# ha status detailed
Команду «#ha status detailed» можно использовать на активном узле только для получения более подробной информации о состоянии HA.
Если для любого из перечисленных ниже выводов отображается «not ok» в разделе «Mirroring Status», это обозначает, что компонент не функционирует, а состояние системы HA отображается как «degraded».
Любое состояние сниженной производительности предотвращает аварийное переключение между узлами.
Примечание. Эта команда недоступна на резервном узле.
# enclosure show io-cards
Убедитесь, что оба узла имеют одинаковые, поддерживаемые конфигурации.
# enclosure show misconfiguration
Выполните тест ошибки конфигурации для активного узла и резервных узлов, чтобы проверить наличие проблем с конфигурацией оборудования.
См. статью базы знаний https://www.dell.com/support/kbdoc/en-us/463399
Примеры:
# enclosure show topology
Проверьте топологию обоих узлов.
Проверьте, нет ли ошибок между точками подключения, и убедитесь, что нумерация всех полок верна.
# enclosure test topology all duration 1
На активном и резервном узлах, выполните 1-минутный диагностический тест для всех портов HBA-адаптера SAS с подключенным внешним хранилищем.
Не выполняйте тестирование топологии на обоих узлах одновременно.
Ожидаемый результат — отсутствие ошибок для каждого порта с подключенным хранилищем.
При обнаружении проблемы тест может быть остановлен с сообщением об ошибке, указывающим на сбой соединения SAS, или может появиться сообщение об ошибке («?» , «!» ) в определенном соединении.
Примечание.: Во время тестирования топологии отдельные порты имеют отдельный вывод, указывающий состояние. Выполните поиск ошибок («?» , «!» ) для обнаружения проблемного соединения. Вывод интерфейса командной строки не отображается до завершения тестирования каждого порта.
# system show nvram
На активном и на резервном узлах, убедитесь, что аккумуляторы Nvram заряжены или заряжаются, а все счетчики ошибок nvram показывают нулевое значение.
# alerts show current
На активном и резервном узлах проверьте наличие активного оповещения, указывающего на возможную проблему. Оповещения не всегда одновременно отображаются на обоих узлах, поэтому проверьте оба узла. При возникновении непредвиденной проблемы подайте заявку в службу поддержки. Всегда создавайте пакет поддержки для обоих узлов.
Примечание. Большинство оповещений отображается только на одном из узлов. Не все оповещения являются общими для узлов.
Примеры оповещений:
Severity Class Object Message -------- --------------- ------ ---------------------------------------------- CRITICAL HardwareFailure EVT-ENVIRONMENT-00049: The system detected an invalid hardware configuration. -- ------------------------ -------- --------------- ------ ---------------------------------------------- CRITICAL HardwareFailure EVT-ENVIRONMENT-00048: Filesystem can't be enabled due to an invalid hardware configuration. -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HardwareFailure Enclosure=1:Slot=5 EVT-ENVIRONMENT-00047: PCI communication speed is degraded -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HA EVT-HA-00003: Standby node time is off by 15 second(s). -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HardwareFailure Port Index=1 EVT-MPATH-00003: Missing disk connection from system port 6a. -- ------------------------ -------- --------------- ------ ----------------------------------------------
«# ha status»
Для определения текущего состояния HA можно использовать команду «#ha status» для активного узла и резервного узла.Если состояние имеет значение «highly available», аварийное переключение включено.
Если состояние имеет значение «degraded» или один из узлов не отображает состояние «online», аварийное переключение между узлами отключено.
SE@hostname-p0(active:0)## ha status HA System name:hostname-n1.chaos.local HA System status: highly available Node Name Node id Role HA State ------------------------------- ------- ------- -------- hostname-p0.chaos.local 0 active online hostname-p1.chaos.local 1 standby online ------------------------------- ------- ------- --------
# ha status detailed
Команду «#ha status detailed» можно использовать на активном узле только для получения более подробной информации о состоянии HA.
Если для любого из перечисленных ниже выводов отображается «not ok» в разделе «Mirroring Status», это обозначает, что компонент не функционирует, а состояние системы HA отображается как «degraded».
Любое состояние сниженной производительности предотвращает аварийное переключение между узлами.
Примечание. Эта команда недоступна на резервном узле.
SEhostname-p0(active:0)## ha status detailed HA System name: hostname.chaos.local HA System Status: highly available Interconnect Status: ok Primary Heartbeat Status: ok External LAN Heartbeat Status: not ok Hardware compatibility check: ok Software Version Check: ok Node hostname-p0.chaos.local: Role: active HA State: online Node Health: ok Node hostname-p1.chaos.local: Role: standby HA State: online Node Health: ok Mirroring Status: Component Name Status -------------- ------ nvram ok registry ok sms ok ddboost ok cifs ok -------------- ------
# enclosure show io-cards
Убедитесь, что оба узла имеют одинаковые, поддерживаемые конфигурации.
# enclosure show misconfiguration
Выполните тест ошибки конфигурации для активного узла и резервных узлов, чтобы проверить наличие проблем с конфигурацией оборудования.
См. статью базы знаний https://www.dell.com/support/kbdoc/en-us/463399
Примеры:
Memory DIMMs: Locator Bank Locator Size(GiB) Status ------- ------------ --------- ---------- CHCD1 7 0 missing CHDD1 7 0 missing CHAD0 4 8 wrong size CHBD0 4 8 wrong size IO Cards: Slot Device Status ---- ---------- --------- 10 Hera NVRAM extra 10 Hera NVRAM misplaced ---- ---------- --------- CPUs: No misconfiguration found. Disks: Slot Size(GiB) Type Media Status ---- --------- ---- ----- ------- 2 186 SATA SSD missing ---- --------- ---- ----- -----
# enclosure show topology
Проверьте топологию обоих узлов.
Проверьте, нет ли ошибок между точками подключения, и убедитесь, что нумерация всех полок верна.
- Ошибки и неисправности обозначаются символами «?», «!» или «!!»
Примечание.: Эти выводы в топологии для каждого узла должны быть отражены относительно друг друга (зеркальный образ).
(Stdby:0)## enclosure show topology
Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port
---- - ------------- - ------------- - ------------- - -------------
2a
2b
2c
2d > 5.A.E: 5.A.H ? 4.A.E: 4.A.H > 3.A.E: 3.A.H > 2.A.E: 2.A.H
3a
3b
3c
3d
6a !! 2.B.E: 2.B.H > 3.B.E: 3.B.H > 5.B.E: 5.B.H > ?.B.E: ?.B.H
6b
6c
6d
---- - ------------- - ------------- - ------------- - -------------
(active:1)## enclosure show topology
Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port
---- - ------------- - ------------- - ------------- - -------------
2a
2b
2c
2d > 2.A.H: 2.A.E > 3.A.H: 3.A.E > 4.A.H: 4.A.E > 5.A.H: 5.A.E
3a
3b
3c
3d
6a > 5.B.H: 5.B.E > 4.B.H: 4.B.E > 3.B.H: 3.B.E > 2.B.H: 2.B.E
6b
6c
6d
---- - ------------- - ------------- - ------------- - -------------
# enclosure test topology all duration 1
На активном и резервном узлах, выполните 1-минутный диагностический тест для всех портов HBA-адаптера SAS с подключенным внешним хранилищем.
Не выполняйте тестирование топологии на обоих узлах одновременно.
Ожидаемый результат — отсутствие ошибок для каждого порта с подключенным хранилищем.
При обнаружении проблемы тест может быть остановлен с сообщением об ошибке, указывающим на сбой соединения SAS, или может появиться сообщение об ошибке («?» , «!» ) в определенном соединении.
Примечание.: Во время тестирования топологии отдельные порты имеют отдельный вывод, указывающий состояние. Выполните поиск ошибок («?» , «!» ) для обнаружения проблемного соединения. Вывод интерфейса командной строки не отображается до завершения тестирования каждого порта.
# enclosure test topology Started: 1471719316 Ended: 1471719498 Duration: 182 Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port ---- - --------------- - --------------- - --------------- - --------------- 2d > 5.A.H:5.A.E > 4.A.H:4.A.E > 3.A.H:3.A.E > 2.A.H:2.A.E ---- - --------------- - --------------- - --------------- - --------------- Error message: ----------------- No error detected -----------------
# system show nvram
На активном и на резервном узлах, убедитесь, что аккумуляторы Nvram заряжены или заряжаются, а все счетчики ошибок nvram показывают нулевое значение.
# system show nvram NVRAM Cards: Card Component Value ---- ----------------------- ---------------------------------------------------------------------- 1 Slot 0 Firmware version 0.0.80 Memory size 7.93 GiB Errors 0 memory (0 uncorrectable), 0 PCI, 0 controller Flash controller Errors 0 Cfg Err, 0 PANIC, 0 Bus Hang, 0 Bad Blk Warn, 0 Bkup Err, 0 Rstr Err Board temperature 37 C CPU temperature 47 C Number of batteries 1 ---- ----------------------- ---------------------------------------------------------------------- NVRAM Batteries: Card Battery Status Charge Charging Time To Temperature Voltage Status Full Charge ---- ------- ------ ------ -------- ----------- ----------- ------- 1 1 ok 94 % enabled 0 mins 34 C 4.016 V ---- ------- ------ ------ -------- ----------- ----------- -------
Resolution
Если вам требуется дополнительная помощь, обратитесь к поставщику услуг, с которым заключен контракт.
Additional Information
.
Affected Products
Data DomainProducts
Data Domain, DD OS 6.0Article Properties
Article Number: 000017861
Article Type: Solution
Last Modified: 05 Jul 2024
Version: 3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.