Перевірка працездатності пристроїв Data Domain HA (DDHA)
Summary: Ця стаття має на меті надати вказівки щодо виконання базової перевірки працездатності системи HA після події, пов'язаної з обслуговуванням. Конфігурації високої доступності домену даних (DDHA) залежать від використовуваних моделей домену даних. ...
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
Високодоступні системи домену даних (DDHA) призначені для перемикання між вузлами. У виробництві знаходиться тільки активний вузол, в той час як резервний вузол очікує події відмови, щоб зайняти місце активного вузла (ACTIVE - PASSIVE).
В обов'язковому порядку необхідно перевірити, щоб обидва вузли DDHA були в робочому стані, і завершити відмову, якщо такий збій виник.
Команди командного рядка, детально описані в цій статті, допомагають виявити можливі проблеми, які можуть перешкодити успішному перемиканню на відмову.
Цей посібник розбитий на ключові області, які слід перевірити.
несправностей мережі HA # Налаштування
чистого шоуНалаштування мережевого порту різні, в залежності від того, на якому вузлі виконується команда #net show settings. Конфігуровані порти в системах DDHA мають тип «плаваючий» або тип «фіксований». Бігти
Активний вузол:
Перевірте підключення до мережі.
Перегляньте IP-адреси, перелічені на кожному вузлі, і переконайтеся, що кожна налаштована IP-адреса на активному вузлі та резервному вузлі може пінгувати налаштований шлюз.
Примітка: Деякі клієнти мають вимкнений пінг (ICMP) у своєму середовищі. У цьому випадку зверніться до клієнта, щоб підтвердити підключення.
(active:1)# Детальний шлюз чистого маршруту
Пінгуйте IP-адресу шлюзу з кожним налаштованим ethxx.
# Net усунення несправностей duplicate-ip
З обох вузлів перевірте наявність дублікатів IP
Тестування
волоконних каналівПереконайтеся, що ці функції ліцензовані, а потім перевірте їх, щоб переконатися, що вони повністю працюють (наприклад: Запустіть тестові операції резервного копіювання на VTL)
Автоматична підтримка та тестування сповіщень як з активного, так і з резервного режиму
У випадку, якщо для пересилання ASUPS на домен даних використовується CONNECTEMC (Secure Remote Services), використовуйте наступну команду, щоб перевірити підключення на обох вузлах.
Позначка часу вказує на дату останнього встановлення з'єднання.
Усунення
несправностей файлової системи HA # статус
filesysПереконайтеся, що ФС увімкнена та працює. Також може відображатися статус очищення.
(активний:1)#(режим очікування:0)# статус
оновлення системиНа обох вузлах переконайтеся, що всі оновлення завершено.
(активний:1)#(в режимі очікування:0)#Дата
Забезпечте збіг часу та дати на обох вузлах протягом 10 с
На активному вузлі перевірте у клієнта, що реплікація DD (якщо налаштована) працює належним чином.
В обов'язковому порядку необхідно перевірити, щоб обидва вузли DDHA були в робочому стані, і завершити відмову, якщо такий збій виник.
Команди командного рядка, детально описані в цій статті, допомагають виявити можливі проблеми, які можуть перешкодити успішному перемиканню на відмову.
Цей посібник розбитий на ключові області, які слід перевірити.
- Апаратне забезпечення та конфігурація HA
- Мережа
- Файлова система
несправностей мережі HA # Налаштування
чистого шоуНалаштування мережевого порту різні, в залежності від того, на якому вузлі виконується команда #net show settings. Конфігуровані порти в системах DDHA мають тип «плаваючий» або тип «фіксований». Бігти
"net show settings"на обох вузлах і порівняйте виходи.
- "Плаваючі" інтерфейси: Переконайтеся, що будь-який налаштований порт мережевої карти (NIC), псевдонім або veth, який відображає увімкнений і запущений стан на активному вузлі, має ідентичний увімкнений і запущений стан на резервному вузлі. Очікується, що будь-який налаштований порт NIC, псевдонім або Veth, встановлений для плаваючого типу, матиме IP-адресу, що відображається на активному вузлі та відповідний N/A на резервному вузлі.
- "Виправлені" інтерфейси: Переконайтеся, що будь-який налаштований порт NIC, псевдонім або veth, позначений як «фіксований», відображає «увімкнено та запущено стан». «Фіксовані» інтерфейси не мають ідентичних конфігурацій між вузлами
- Переконайтеся, що відображається з'єднання HA (veth99), а всі необхідні порти увімкнені та працюють, Примітка: Кількість необхідних з'єднань портів і розташування слотів для з'єднання HA (veth99) залежить від моделі DD
Активний вузол:
# net show settings port enabled state DHCP IP address netmask type additional setting ------ ------- ------- ---- ------------------------------------ -------------- ------------ ----------------------------------------------- ethMa yes running no 10.25.18.50 255.255.255.0 fixed 2620:0:170:1608:260:16ff:fe5c:92bc** /64 fe80::260:16ff:fe5c:92bc** /64 ethMb no down ipv4 n/a n/a fixed ethMc no down ipv4 n/a n/a fixed ethMd no down ipv4 n/a n/a fixed eth4a yes running no 10.25.18.63 255.255.255.0 floating 2620:0:170:1608:260:16ff:fe51:8c60** /64 fe80::260:16ff:fe51:8c60** /64 eth4b no down no n/a n/a fixed eth4c no down no n/a n/a fixed eth4d no down no n/a n/a fixed eth5a no down no n/a n/a fixed eth5b yes running no 10.25.18.60 255.255.255.0 floating 2620:0:170:1608:260:16ff:fe52:2951** /64 fe80::260:16ff:fe52:2951** /64 eth5c no down no n/a n/a fixed eth5d no down no n/a n/a fixed eth11a yes running n/a n/a n/a interconnect bonded to veth99 eth11b yes running n/a n/a n/a interconnect bonded to veth99 eth11c yes running n/a n/a n/a interconnect bonded to veth99 eth11d yes running n/a n/a n/a interconnect bonded to veth99 veth99 yes running no d:d:d:d:d:0060:1652:0ecc /80 interconnect lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d fe80::260:16ff:fe52:ecc** /64 ------ ------- ------- ---- ------------------------------------ -------------- ------------ -----------------------------------------------Вузол резерву :
# net show settings port enabled state DHCP IP address netmask type additional setting ------ ------- ------- ---- ------------------------------------ -------------- ------------ ----------------------------------------------- ethMa yes running no 10.25.18.49 255.255.255.0 fixed 2620:0:170:14567:260:16ff:fe5c:dr3** /64 fe80::260:16ff:fe5c3457c** /64 ethMb no down ipv4 n/a n/a fixed ethMc no down ipv4 n/a n/a fixed ethMd no down ipv4 n/a n/a fixed eth4a yes running no n/a 255.255.255.0 floating 2620:0:170:1608:260:1ght6:fe51:4570** /64 fe80::260:16ff:fe51:7890** /64 eth4b no down no n/a n/a fixed eth4c no down no n/a n/a fixed eth4d no down no n/a n/a fixed eth5a no down no n/a n/a fixed eth5b yes running no n/a 255.255.255.0 floating 2620:0:170:160:456:16ff:fe5234561** /64 fe80::260:16ff:fe52:3456** /64 eth5c no down no n/a n/a fixed eth5d no down no n/a n/a fixed eth11a yes running n/a n/a n/a interconnect bonded to veth99 eth11b yes running n/a n/a n/a interconnect bonded to veth99 eth11c yes running n/a n/a n/a interconnect bonded to veth99 eth11d yes running n/a n/a n/a interconnect bonded to veth99 veth99 yes running no d:d:d:d:d:0e456:1652:dft4c /80 interconnect lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d fe80::264:16ff:fec2:ecb** /64 ------ ------- ------- ---- ------------------------------------ -------------- ------------ -----------------------------------------------
Перевірте підключення до мережі.
Перегляньте IP-адреси, перелічені на кожному вузлі, і переконайтеся, що кожна налаштована IP-адреса на активному вузлі та резервному вузлі може пінгувати налаштований шлюз.
Примітка: Деякі клієнти мають вимкнений пінг (ICMP) у своєму середовищі. У цьому випадку зверніться до клієнта, щоб підтвердити підключення.
(active:1)# Детальний шлюз чистого маршруту
IPv4 Default Gateways gateway IP source tables interface address owner ---------- ------ ------ ----------------- ----- 10.25.18.1 static tethMa 10.25.18.50/24 none 10.25.18.1 static teth4a 10.25.18.63/24 none 10.25.18.1 static teth5b 10.25.18.60/24 none ---------- ------ ------ ----------------- -----
Пінгуйте IP-адресу шлюзу з кожним налаштованим ethxx.
#(active:1)# ping 10.25.18.1 interface ethMa PING 10.25.18.1 (10.25.18.1) from 10.25.18.50 ethMa: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=0.697 ms (active:1)# ping 10.25.18.1 interface eth4a PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms (active:1)# ping 10.25.18.1 interface eth5b PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
# Net усунення несправностей duplicate-ip
З обох вузлів перевірте наявність дублікатів IP
No duplicate IP addresses detected
Тестування
волоконних каналівПереконайтеся, що ці функції ліцензовані, а потім перевірте їх, щоб переконатися, що вони повністю працюють (наприклад: Запустіть тестові операції резервного копіювання на VTL)
# license show or # elicense show ## License Key Feature -- ------------------- ---------------------------------------- 1 WTXV-TSWX-HWDR-RHDX VTL 2 EZXW-SZZF-BGCS-VRZX Block services (Vdisk) 3 .... HA
Автоматична підтримка та тестування сповіщень як з активного, так і з резервного режиму
(active:1)## autosupport test alert-summary OK: Message sent. (active:1)## autosupport test support-notify OK: Message sent. (standby:0)# autosupport test alert-summary OK: Message sent. (standby:0)# autosupport test support-notify OK: Message sent.
У випадку, якщо для пересилання ASUPS на домен даних використовується CONNECTEMC (Secure Remote Services), використовуйте наступну команду, щоб перевірити підключення на обох вузлах.
Позначка часу вказує на дату останнього встановлення з'єднання.
sysadmin@hostname# support connectemc show history File Time Transport Result --------------------------------------- --------------------- --------- -------- RSC_CKM00XXX601153_120315_092804166.xml "2015-12-03 09:28:07" HTTP Success RSC_CKM00XXX601153_120315_101257767.xml "2015-12-03 10:13:00" HTTP Success RSC_CKM00XXX601153_120315_111649065.xml "2015-12-03 11:16:53" HTTP Success --------------------------------------- --------------------- --------- -------- Note: It says HTTP above, but it is HTTPS
Усунення
несправностей файлової системи HA # статус
filesysПереконайтеся, що ФС увімкнена та працює. Також може відображатися статус очищення.
The filesystem is enabled and running. Cleaning started at 2016/08/20 14:12:16: phase 1 of 12 (pre-merge) 0.7% complete, 95911 GiB free; time: phase 0:00:09, total 0:00:09
(активний:1)#(режим очікування:0)# статус
оновлення системиНа обох вузлах переконайтеся, що всі оновлення завершено.
Current Upgrade Status: DD OS upgrade Succeeded End time: 2016.08.20:13:27
(активний:1)#(в режимі очікування:0)#Дата
Забезпечте збіг часу та дати на обох вузлах протягом 10 с
-p1(active:1)# date Sat Aug 20 14:34:29 EDT 2016 -p0(standby:0)# date Sat Aug 20 14:34:17 EDT 2016
На активному вузлі перевірте у клієнта, що реплікація DD (якщо налаштована) працює належним чином.
# replication status CTX Destination Enabled Connection Sync'ed-as-of-time --- --------------------------------------------------------- ------- ---------------- ------------------ 3 mtree://ddxxx.com/data/col1/eric.dest no idle Fri Nov 6 15:16 4 mtree://ddxxx.com/data/col1/thy-repl yes idle Fri Jul 22 15:38 5 dir://ddxxxx.com/backup/replicate-rtp yes disconnected Fri Jul 22 14:55 6 mtree://ddxxxx.com/data/col1/theman_test yes idle Sat Aug 20 22:11 7 dir://ddxxx.com/backup/lakeland/sym yes Sat Aug 20 13:15 Fri Aug 19 15:09 --- --------------------------------------------------------- ------- ---------------- ----------------
Cause
Апаратне забезпечення та конфігурація HA
Як на активному, так і на резервному вузлі перевірте, чи є активне сповіщення, яке вказує на потенційну проблему. Сповіщення не завжди розподіляються між вузлами, тому перевірте обидва вузли. Якщо ви зіткнулися з неочікуваною проблемою, подайте запит до служби підтримки. Завжди генеруйте пакет підтримки з обох вузлів.
Примітка. Більшість сповіщень видно лише на одному з вузлів. Не кожне сповіщення розподіляється між вузлами.
Якщо статус «Високодоступний», перемикання на відмову вмикається.
Якщо статус «деградував» або один з вузлів не показує стан «онлайн», то відмова між вузлами відключена.
# Детальніше про
статус haКоманда #ha статус, детально описаний лише на активному вузлі, може бути використана для отримання більш детальної інформації про статус HA.
Будь-який із наведених нижче виходів, що показує «не в порядку» в розділі «Статус дзеркального відображення», вказує на непрацюючий компонент, а стан системи HA відображається як «погіршений».
Будь-який погіршений стан запобігає перемиканню між вузлами.
Примітка: Ця команда недоступна на резервному вузлі.
# Вбудовані IO-карти
Переконайтеся, що обидва вузли мають ідентичні, підтримувані конфігурації.
# Неправильна конфігурація
корпусуПроведіть тест неправильної конфігурації активного вузла та резервних вузлів, щоб перевірити, чи немає проблем із конфігурацією обладнання.
Довідник КБ https://www.dell.com/support/kbdoc/en-us/463399
Приклади:
# топологія
шоу корпусуПеревірте топологію з обох вузлів.
Подивіться, чи немає помилок між точками з'єднання, і переконайтеся,що всі номери полиць правильні.
# Топологія тесту корпусу вся тривалість 1
Як з активного, так і з резервного вузлів проведіть діагностичний тест тривалістю 1 хвилину для всіх портів SAS HBA з підключеним зовнішнім накопичувачем.
Не виконуйте перевірку топології на обох вузлах одночасно.
Очікуваним результатом є відсутність виявленої помилки для кожного порту з підключеним сховищем.
При виявленні проблеми тест може зупинитися з повідомленням про помилку, що вказує на з'єднання SAS з несправністю, або може показати помилку (? , ! ) при певному з'єднанні.
Примітка: Під час перевірки топології окремі порти мають окремий вихід, що вказує на стан. Шукайте помилки (? , ! ), щоб точно визначити проблемне з'єднання. Вихідні дані CLI не відображаються, доки не буде завершено кожен тест порту.
# Системне шоу NVRAM
Як на активних, так і на резервних вузлах переконайтеся, що батареї Nvram заряджені або заряджаються; і що всі лічильники помилок nvram показують значення нуль.
# alerts show current
Як на активному, так і на резервному вузлі перевірте, чи є активне сповіщення, яке вказує на потенційну проблему. Сповіщення не завжди розподіляються між вузлами, тому перевірте обидва вузли. Якщо ви зіткнулися з неочікуваною проблемою, подайте запит до служби підтримки. Завжди генеруйте пакет підтримки з обох вузлів.
Примітка. Більшість сповіщень видно лише на одному з вузлів. Не кожне сповіщення розподіляється між вузлами.
Приклади сповіщень:
Severity Class Object Message -------- --------------- ------ ---------------------------------------------- CRITICAL HardwareFailure EVT-ENVIRONMENT-00049: The system detected an invalid hardware configuration. -- ------------------------ -------- --------------- ------ ---------------------------------------------- CRITICAL HardwareFailure EVT-ENVIRONMENT-00048: Filesystem can't be enabled due to an invalid hardware configuration. -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HardwareFailure Enclosure=1:Slot=5 EVT-ENVIRONMENT-00047: PCI communication speed is degraded -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HA EVT-HA-00003: Standby node time is off by 15 second(s). -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HardwareFailure Port Index=1 EVT-MPATH-00003: Missing disk connection from system port 6a. -- ------------------------ -------- --------------- ------ ----------------------------------------------
# Статус ГА
Для визначення поточного стану HA можуть використовуватися командні #ha статусу активного вузла та резервного вузла.Якщо статус «Високодоступний», перемикання на відмову вмикається.
Якщо статус «деградував» або один з вузлів не показує стан «онлайн», то відмова між вузлами відключена.
SE@hostname-p0(active:0)## ha status HA System name:hostname-n1.chaos.local HA System status: highly available Node Name Node id Role HA State ------------------------------- ------- ------- -------- hostname-p0.chaos.local 0 active online hostname-p1.chaos.local 1 standby online ------------------------------- ------- ------- --------
# Детальніше про
статус haКоманда #ha статус, детально описаний лише на активному вузлі, може бути використана для отримання більш детальної інформації про статус HA.
Будь-який із наведених нижче виходів, що показує «не в порядку» в розділі «Статус дзеркального відображення», вказує на непрацюючий компонент, а стан системи HA відображається як «погіршений».
Будь-який погіршений стан запобігає перемиканню між вузлами.
Примітка: Ця команда недоступна на резервному вузлі.
SEhostname-p0(active:0)## ha status detailed HA System name: hostname.chaos.local HA System Status: highly available Interconnect Status: ok Primary Heartbeat Status: ok External LAN Heartbeat Status: not ok Hardware compatibility check: ok Software Version Check: ok Node hostname-p0.chaos.local: Role: active HA State: online Node Health: ok Node hostname-p1.chaos.local: Role: standby HA State: online Node Health: ok Mirroring Status: Component Name Status -------------- ------ nvram ok registry ok sms ok ddboost ok cifs ok -------------- ------
# Вбудовані IO-карти
Переконайтеся, що обидва вузли мають ідентичні, підтримувані конфігурації.
# Неправильна конфігурація
корпусуПроведіть тест неправильної конфігурації активного вузла та резервних вузлів, щоб перевірити, чи немає проблем із конфігурацією обладнання.
Довідник КБ https://www.dell.com/support/kbdoc/en-us/463399
Приклади:
Memory DIMMs: Locator Bank Locator Size(GiB) Status ------- ------------ --------- ---------- CHCD1 7 0 missing CHDD1 7 0 missing CHAD0 4 8 wrong size CHBD0 4 8 wrong size IO Cards: Slot Device Status ---- ---------- --------- 10 Hera NVRAM extra 10 Hera NVRAM misplaced ---- ---------- --------- CPUs: No misconfiguration found. Disks: Slot Size(GiB) Type Media Status ---- --------- ---- ----- ------- 2 186 SATA SSD missing ---- --------- ---- ----- -----
# топологія
шоу корпусуПеревірте топологію з обох вузлів.
Подивіться, чи немає помилок між точками з'єднання, і переконайтеся,що всі номери полиць правильні.
- Помилки та недоліки символізуються «?», «!» Або «!!»
Примітка: При цьому виходи топології для кожного вузла повинні бути обернені (дзеркальне відображення) один до одного.
(Stdby:0)## enclosure show topology
Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port
---- - ------------- - ------------- - ------------- - -------------
2a
2b
2c
2d > 5.A.E: 5.A.H ? 4.A.E: 4.A.H > 3.A.E: 3.A.H > 2.A.E: 2.A.H
3a
3b
3c
3d
6a !! 2.B.E: 2.B.H > 3.B.E: 3.B.H > 5.B.E: 5.B.H > ?.B.E: ?.B.H
6b
6c
6d
---- - ------------- - ------------- - ------------- - -------------
(active:1)## enclosure show topology
Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port
---- - ------------- - ------------- - ------------- - -------------
2a
2b
2c
2d > 2.A.H: 2.A.E > 3.A.H: 3.A.E > 4.A.H: 4.A.E > 5.A.H: 5.A.E
3a
3b
3c
3d
6a > 5.B.H: 5.B.E > 4.B.H: 4.B.E > 3.B.H: 3.B.E > 2.B.H: 2.B.E
6b
6c
6d
---- - ------------- - ------------- - ------------- - -------------
# Топологія тесту корпусу вся тривалість 1
Як з активного, так і з резервного вузлів проведіть діагностичний тест тривалістю 1 хвилину для всіх портів SAS HBA з підключеним зовнішнім накопичувачем.
Не виконуйте перевірку топології на обох вузлах одночасно.
Очікуваним результатом є відсутність виявленої помилки для кожного порту з підключеним сховищем.
При виявленні проблеми тест може зупинитися з повідомленням про помилку, що вказує на з'єднання SAS з несправністю, або може показати помилку (? , ! ) при певному з'єднанні.
Примітка: Під час перевірки топології окремі порти мають окремий вихід, що вказує на стан. Шукайте помилки (? , ! ), щоб точно визначити проблемне з'єднання. Вихідні дані CLI не відображаються, доки не буде завершено кожен тест порту.
# enclosure test topology Started: 1471719316 Ended: 1471719498 Duration: 182 Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port ---- - --------------- - --------------- - --------------- - --------------- 2d > 5.A.H:5.A.E > 4.A.H:4.A.E > 3.A.H:3.A.E > 2.A.H:2.A.E ---- - --------------- - --------------- - --------------- - --------------- Error message: ----------------- No error detected -----------------
# Системне шоу NVRAM
Як на активних, так і на резервних вузлах переконайтеся, що батареї Nvram заряджені або заряджаються; і що всі лічильники помилок nvram показують значення нуль.
# system show nvram NVRAM Cards: Card Component Value ---- ----------------------- ---------------------------------------------------------------------- 1 Slot 0 Firmware version 0.0.80 Memory size 7.93 GiB Errors 0 memory (0 uncorrectable), 0 PCI, 0 controller Flash controller Errors 0 Cfg Err, 0 PANIC, 0 Bus Hang, 0 Bad Blk Warn, 0 Bkup Err, 0 Rstr Err Board temperature 37 C CPU temperature 47 C Number of batteries 1 ---- ----------------------- ---------------------------------------------------------------------- NVRAM Batteries: Card Battery Status Charge Charging Time To Temperature Voltage Status Full Charge ---- ------- ------ ------ -------- ----------- ----------- ------- 1 1 ok 94 % enabled 0 mins 34 C 4.016 V ---- ------- ------ ------ -------- ----------- ----------- -------
Resolution
Якщо вам потрібна додаткова допомога, зверніться до постачальника послуг, з яким ви уклали контракт.
Additional Information
.
Affected Products
Data DomainProducts
Data Domain, DD OS 6.0Article Properties
Article Number: 000017861
Article Type: Solution
Last Modified: 05 Jul 2024
Version: 3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.