Kontrola stavu zařízení Data Domain HA (DDHA)
Summary: Cílem tohoto článku je poskytnout pokyny k provedení základní kontroly stavu systému HA po servisní události. Konfigurace systému Data Domain Highly Available (DDHA) se liší v závislosti na použitých modelech Data Domain. ...
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
Systémy DDHA (Data Domain Highly Available) jsou navrženy pro převzetí služeb při selhání mezi uzly. V produkčním prostředí je pouze aktivní uzel, zatímco pohotovostní uzel zaujme místo aktivního uzlu při události selhání (AKTIVNÍ – PASIVNÍ).
Pokud by došlo k selhání, je nezbytné zkontrolovat, že jsou oba uzly DDHA v provozuschopném stavu, a dokončit převzetí služeb při selhání.
Příkazy rozhraní příkazového řádku podrobně popsané v tomto článku pomáhají odhalit možné problémy, které by mohly zabránit úspěšnému převzetí služeb při selhání.
Tato příručka je rozdělena do klíčových oblastí, které je třeba zkontrolovat.
## net show settings
Nastavení síťového portu se liší v závislosti na tom, na kterém uzlu je spuštěn příkaz #net show settings. Nakonfigurované porty v systémech DDHA mají typ „floating“ nebo „fixed“. Spustit
Aktivní uzel:
Ověřte připojení k síti.
Zkontrolujte IP adresy uvedené na každém uzlu a ujistěte se, že každá nakonfigurovaná IP adresa aktivního a pohotovostního uzlu může odeslat příkaz ping na nakonfigurovanou bránu.
Poznámka: Někteří zákazníci mají ve svém prostředí příkaz ping (ICMP) zakázán. V takovém případě požádejte zákazníka, aby potvrdil připojení.
(active:1)# net route show gateway detailed
Odešlete na IP adresy brány příkaz ping u každého nakonfigurovaného připojení ethxx.
# net troubleshooting duplicate-ip
U obou uzlů zkontrolujte přítomnost duplicitních IP adres.
Testování Fiber Channel
Ověřte, že jsou tyto funkce licencovány, a poté je otestujte, abyste ověřili jejich plnou funkčnost (například: Spusťte testovací operace zálohování na VTL)
Automatická podpora a testování výstrah z aktivního i pohotovostního režimu
V případě, že se k přesměrování služby ASUPS do systému Data Domain používá funkce CONNECTEMC (Secure Remote Services), ověřte připojení na obou uzlech pomocí následujícího příkazu.
Časové razítko udává, kdy bylo navázáno poslední připojení.
Odstraňování problémů se systémem souborů HA
# filesys status
Ověřte, že má systém souborů stav „enabled and running“. Může se také zobrazit stav „Cleaning“.
(active:1)# (standby:0)# system upgrade status
Na obou uzlech ověřte, že byly dokončeny všechny upgrady.
(active:1)# (standby:0)#Date
Zajistěte, že se čas a datum na obou uzlech neliší o více než 10 s
Ověřte se zákazníkem, že replikace DD (pokud je nakonfigurována) v aktivním uzlu funguje podle očekávání.
Pokud by došlo k selhání, je nezbytné zkontrolovat, že jsou oba uzly DDHA v provozuschopném stavu, a dokončit převzetí služeb při selhání.
Příkazy rozhraní příkazového řádku podrobně popsané v tomto článku pomáhají odhalit možné problémy, které by mohly zabránit úspěšnému převzetí služeb při selhání.
Tato příručka je rozdělena do klíčových oblastí, které je třeba zkontrolovat.
- Hardware a konfigurace HA
- Síť
- Systém souborů
## net show settings
Nastavení síťového portu se liší v závislosti na tom, na kterém uzlu je spuštěn příkaz #net show settings. Nakonfigurované porty v systémech DDHA mají typ „floating“ nebo „fixed“. Spustit
"net show settings"na obou uzlech a porovnejte výstupy.
- Rozhraní „Floating“: Ověřte, že všechny nakonfigurované porty, alias nebo veth síťové karty (NIC), které jsou povolené a funkční na aktivním uzlu, vykazují stejný stav v pohotovostním uzlu. Očekává se, že každý nakonfigurovaný port, alias nebo veth síťové karty nastavené na typ „floating“ budou mít IP adresu zobrazenou na aktivním uzlu a odpovídající stav N/A na pohotovostním uzlu.
- Rozhraní „Fixed“: Ověřte, že se u všech nakonfigurovaných portů, aliasů nebo veth síťové karty označené jako „fixed“ zobrazuje stav „enabled and running“. Rozhraní „fixed“ nemají identické konfigurace mezi uzly.
- Zkontrolujte, že se zobrazuje propojení HA (veth99) a že jsou povoleny a spuštěny všechny požadované porty. Poznámka: Počet požadovaných připojení portů a umístění slotů pro propojení HA (veth99) závisí na modelu DD
Aktivní uzel:
# net show settings port enabled state DHCP IP address netmask type additional setting ------ ------- ------- ---- ------------------------------------ -------------- ------------ ----------------------------------------------- ethMa yes running no 10.25.18.50 255.255.255.0 fixed 2620:0:170:1608:260:16ff:fe5c:92bc** /64 fe80::260:16ff:fe5c:92bc** /64 ethMb no down ipv4 n/a n/a fixed ethMc no down ipv4 n/a n/a fixed ethMd no down ipv4 n/a n/a fixed eth4a yes running no 10.25.18.63 255.255.255.0 floating 2620:0:170:1608:260:16ff:fe51:8c60** /64 fe80::260:16ff:fe51:8c60** /64 eth4b no down no n/a n/a fixed eth4c no down no n/a n/a fixed eth4d no down no n/a n/a fixed eth5a no down no n/a n/a fixed eth5b yes running no 10.25.18.60 255.255.255.0 floating 2620:0:170:1608:260:16ff:fe52:2951** /64 fe80::260:16ff:fe52:2951** /64 eth5c no down no n/a n/a fixed eth5d no down no n/a n/a fixed eth11a yes running n/a n/a n/a interconnect bonded to veth99 eth11b yes running n/a n/a n/a interconnect bonded to veth99 eth11c yes running n/a n/a n/a interconnect bonded to veth99 eth11d yes running n/a n/a n/a interconnect bonded to veth99 veth99 yes running no d:d:d:d:d:0060:1652:0ecc /80 interconnect lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d fe80::260:16ff:fe52:ecc** /64 ------ ------- ------- ---- ------------------------------------ -------------- ------------ -----------------------------------------------Pohotovostní uzel:
# net show settings port enabled state DHCP IP address netmask type additional setting ------ ------- ------- ---- ------------------------------------ -------------- ------------ ----------------------------------------------- ethMa yes running no 10.25.18.49 255.255.255.0 fixed 2620:0:170:14567:260:16ff:fe5c:dr3** /64 fe80::260:16ff:fe5c3457c** /64 ethMb no down ipv4 n/a n/a fixed ethMc no down ipv4 n/a n/a fixed ethMd no down ipv4 n/a n/a fixed eth4a yes running no n/a 255.255.255.0 floating 2620:0:170:1608:260:1ght6:fe51:4570** /64 fe80::260:16ff:fe51:7890** /64 eth4b no down no n/a n/a fixed eth4c no down no n/a n/a fixed eth4d no down no n/a n/a fixed eth5a no down no n/a n/a fixed eth5b yes running no n/a 255.255.255.0 floating 2620:0:170:160:456:16ff:fe5234561** /64 fe80::260:16ff:fe52:3456** /64 eth5c no down no n/a n/a fixed eth5d no down no n/a n/a fixed eth11a yes running n/a n/a n/a interconnect bonded to veth99 eth11b yes running n/a n/a n/a interconnect bonded to veth99 eth11c yes running n/a n/a n/a interconnect bonded to veth99 eth11d yes running n/a n/a n/a interconnect bonded to veth99 veth99 yes running no d:d:d:d:d:0e456:1652:dft4c /80 interconnect lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d fe80::264:16ff:fec2:ecb** /64 ------ ------- ------- ---- ------------------------------------ -------------- ------------ -----------------------------------------------
Ověřte připojení k síti.
Zkontrolujte IP adresy uvedené na každém uzlu a ujistěte se, že každá nakonfigurovaná IP adresa aktivního a pohotovostního uzlu může odeslat příkaz ping na nakonfigurovanou bránu.
Poznámka: Někteří zákazníci mají ve svém prostředí příkaz ping (ICMP) zakázán. V takovém případě požádejte zákazníka, aby potvrdil připojení.
(active:1)# net route show gateway detailed
IPv4 Default Gateways gateway IP source tables interface address owner ---------- ------ ------ ----------------- ----- 10.25.18.1 static tethMa 10.25.18.50/24 none 10.25.18.1 static teth4a 10.25.18.63/24 none 10.25.18.1 static teth5b 10.25.18.60/24 none ---------- ------ ------ ----------------- -----
Odešlete na IP adresy brány příkaz ping u každého nakonfigurovaného připojení ethxx.
#(active:1)# ping 10.25.18.1 interface ethMa PING 10.25.18.1 (10.25.18.1) from 10.25.18.50 ethMa: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=0.697 ms (active:1)# ping 10.25.18.1 interface eth4a PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms (active:1)# ping 10.25.18.1 interface eth5b PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
# net troubleshooting duplicate-ip
U obou uzlů zkontrolujte přítomnost duplicitních IP adres.
No duplicate IP addresses detected
Testování Fiber Channel
Ověřte, že jsou tyto funkce licencovány, a poté je otestujte, abyste ověřili jejich plnou funkčnost (například: Spusťte testovací operace zálohování na VTL)
# license show or # elicense show ## License Key Feature -- ------------------- ---------------------------------------- 1 WTXV-TSWX-HWDR-RHDX VTL 2 EZXW-SZZF-BGCS-VRZX Block services (Vdisk) 3 .... HA
Automatická podpora a testování výstrah z aktivního i pohotovostního režimu
(active:1)## autosupport test alert-summary OK: Message sent. (active:1)## autosupport test support-notify OK: Message sent. (standby:0)# autosupport test alert-summary OK: Message sent. (standby:0)# autosupport test support-notify OK: Message sent.
V případě, že se k přesměrování služby ASUPS do systému Data Domain používá funkce CONNECTEMC (Secure Remote Services), ověřte připojení na obou uzlech pomocí následujícího příkazu.
Časové razítko udává, kdy bylo navázáno poslední připojení.
sysadmin@hostname# support connectemc show history File Time Transport Result --------------------------------------- --------------------- --------- -------- RSC_CKM00XXX601153_120315_092804166.xml "2015-12-03 09:28:07" HTTP Success RSC_CKM00XXX601153_120315_101257767.xml "2015-12-03 10:13:00" HTTP Success RSC_CKM00XXX601153_120315_111649065.xml "2015-12-03 11:16:53" HTTP Success --------------------------------------- --------------------- --------- -------- Note: It says HTTP above, but it is HTTPS
Odstraňování problémů se systémem souborů HA
# filesys status
Ověřte, že má systém souborů stav „enabled and running“. Může se také zobrazit stav „Cleaning“.
The filesystem is enabled and running. Cleaning started at 2016/08/20 14:12:16: phase 1 of 12 (pre-merge) 0.7% complete, 95911 GiB free; time: phase 0:00:09, total 0:00:09
(active:1)# (standby:0)# system upgrade status
Na obou uzlech ověřte, že byly dokončeny všechny upgrady.
Current Upgrade Status: DD OS upgrade Succeeded End time: 2016.08.20:13:27
(active:1)# (standby:0)#Date
Zajistěte, že se čas a datum na obou uzlech neliší o více než 10 s
-p1(active:1)# date Sat Aug 20 14:34:29 EDT 2016 -p0(standby:0)# date Sat Aug 20 14:34:17 EDT 2016
Ověřte se zákazníkem, že replikace DD (pokud je nakonfigurována) v aktivním uzlu funguje podle očekávání.
# replication status CTX Destination Enabled Connection Sync'ed-as-of-time --- --------------------------------------------------------- ------- ---------------- ------------------ 3 mtree://ddxxx.com/data/col1/eric.dest no idle Fri Nov 6 15:16 4 mtree://ddxxx.com/data/col1/thy-repl yes idle Fri Jul 22 15:38 5 dir://ddxxxx.com/backup/replicate-rtp yes disconnected Fri Jul 22 14:55 6 mtree://ddxxxx.com/data/col1/theman_test yes idle Sat Aug 20 22:11 7 dir://ddxxx.com/backup/lakeland/sym yes Sat Aug 20 13:15 Fri Aug 19 15:09 --- --------------------------------------------------------- ------- ---------------- ----------------
Cause
Hardware a konfigurace HA
Na aktivním i pohotovostním uzlu zkontrolujte, zda je aktivní výstraha poukazující na potenciální problém. Výstrahy se ne vždy sdílí mezi uzly, proto zkontrolujte oba dva. Pokud dojde k neočekávanému problému, vytvořte žádost o podporu. Vždy vygenerujte balíček podpory z obou uzlů.
Poznámka: Většina výstrah se zobrazuje pouze na jednom uzlu. Ne každá výstraha se sdílí mezi uzly.
Pokud je stav „highly available“, je povoleno převzetí služeb při selhání.
Pokud je stav „Degraded“ nebo některý z uzlů nezobrazuje stav „Online“, převzetí služeb při selhání mezi uzly je zakázáno.
# ha status detailed
Příkaz #ha status detailed lze použít k získání podrobnějších informací o stavu HA pouze na aktivním uzlu.
Pokud kterýkoli z níže uvedených výstupů zobrazuje stav „not ok“ v části Mirroring Status, znamená to, že je některá komponenta nefunkční a stav systému HA se zobrazuje jako „degraded“.
Pokud se kdekoli zobrazuje stav „degraded“, převzetí služeb při selhání mezi uzly není možné.
Poznámka: Tento příkaz není k dispozici v pohotovostním uzlu.
# enclosure show io-cards
Ověřte, že oba uzly mají identické podporované konfigurace.
# enclosure show misconfiguration
Proveďte test chybné konfigurace v aktivním a pohotovostním uzlu a zkontrolujte, zda nedochází k problémům s konfigurací hardwaru.
Viz článek znalostní databáze https://www.dell.com/support/kbdoc/en-us/463399
Příklady:
# enclosure show topology
Zkontrolujte topologie z obou uzlů.
Hledejte případné chyby mezi připojovacími body a ujistěte se, že jsou všechna čísla polic správná.
# enclosure test topology all duration 1
Na aktivním i pohotovostním uzlu proveďte 1minutový diagnostický test pro všechny porty SAS HBA s připojeným externím úložištěm.
Neprovádějte testování topologie na obou uzlech současně.
U žádného portu s připojeným úložištěm by se neměla zobrazit žádná chyba.
Pokud je zjištěn problém, test se může zastavit se zprávou o selhání, která může označit připojení SAS za chybné nebo může zobrazit chybu (?, !) u konkrétního připojení.
Poznámka: Během testu topologie mají jednotlivé porty samostatný výstup, který označuje daný stav. Problémové připojení bude označeno chybou (?, !). Dokud se nedokončí každý test portu, nezobrazí se žádný výstup z příkazového řádku.
# system show nvram
U aktivních i pohotovostních uzlů zkontrolujte, zda jsou baterie NVRAM nabité nebo se nabíjejí a zda všechny čítače chyb paměti NVRAM zobrazují hodnotu 0.
# alerts show current
Na aktivním i pohotovostním uzlu zkontrolujte, zda je aktivní výstraha poukazující na potenciální problém. Výstrahy se ne vždy sdílí mezi uzly, proto zkontrolujte oba dva. Pokud dojde k neočekávanému problému, vytvořte žádost o podporu. Vždy vygenerujte balíček podpory z obou uzlů.
Poznámka: Většina výstrah se zobrazuje pouze na jednom uzlu. Ne každá výstraha se sdílí mezi uzly.
Příklady výstrah:
Severity Class Object Message -------- --------------- ------ ---------------------------------------------- CRITICAL HardwareFailure EVT-ENVIRONMENT-00049: The system detected an invalid hardware configuration. -- ------------------------ -------- --------------- ------ ---------------------------------------------- CRITICAL HardwareFailure EVT-ENVIRONMENT-00048: Filesystem can't be enabled due to an invalid hardware configuration. -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HardwareFailure Enclosure=1:Slot=5 EVT-ENVIRONMENT-00047: PCI communication speed is degraded -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HA EVT-HA-00003: Standby node time is off by 15 second(s). -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HardwareFailure Port Index=1 EVT-MPATH-00003: Missing disk connection from system port 6a. -- ------------------------ -------- --------------- ------ ----------------------------------------------
# ha status
Příkaz # ha statuslze použít k určení aktuálního stavu aktivního a pohotovostního uzlu.Pokud je stav „highly available“, je povoleno převzetí služeb při selhání.
Pokud je stav „Degraded“ nebo některý z uzlů nezobrazuje stav „Online“, převzetí služeb při selhání mezi uzly je zakázáno.
SE@hostname-p0(active:0)## ha status HA System name:hostname-n1.chaos.local HA System status: highly available Node Name Node id Role HA State ------------------------------- ------- ------- -------- hostname-p0.chaos.local 0 active online hostname-p1.chaos.local 1 standby online ------------------------------- ------- ------- --------
# ha status detailed
Příkaz #ha status detailed lze použít k získání podrobnějších informací o stavu HA pouze na aktivním uzlu.
Pokud kterýkoli z níže uvedených výstupů zobrazuje stav „not ok“ v části Mirroring Status, znamená to, že je některá komponenta nefunkční a stav systému HA se zobrazuje jako „degraded“.
Pokud se kdekoli zobrazuje stav „degraded“, převzetí služeb při selhání mezi uzly není možné.
Poznámka: Tento příkaz není k dispozici v pohotovostním uzlu.
SEhostname-p0(active:0)## ha status detailed HA System name: hostname.chaos.local HA System Status: highly available Interconnect Status: ok Primary Heartbeat Status: ok External LAN Heartbeat Status: not ok Hardware compatibility check: ok Software Version Check: ok Node hostname-p0.chaos.local: Role: active HA State: online Node Health: ok Node hostname-p1.chaos.local: Role: standby HA State: online Node Health: ok Mirroring Status: Component Name Status -------------- ------ nvram ok registry ok sms ok ddboost ok cifs ok -------------- ------
# enclosure show io-cards
Ověřte, že oba uzly mají identické podporované konfigurace.
# enclosure show misconfiguration
Proveďte test chybné konfigurace v aktivním a pohotovostním uzlu a zkontrolujte, zda nedochází k problémům s konfigurací hardwaru.
Viz článek znalostní databáze https://www.dell.com/support/kbdoc/en-us/463399
Příklady:
Memory DIMMs: Locator Bank Locator Size(GiB) Status ------- ------------ --------- ---------- CHCD1 7 0 missing CHDD1 7 0 missing CHAD0 4 8 wrong size CHBD0 4 8 wrong size IO Cards: Slot Device Status ---- ---------- --------- 10 Hera NVRAM extra 10 Hera NVRAM misplaced ---- ---------- --------- CPUs: No misconfiguration found. Disks: Slot Size(GiB) Type Media Status ---- --------- ---- ----- ------- 2 186 SATA SSD missing ---- --------- ---- ----- -----
# enclosure show topology
Zkontrolujte topologie z obou uzlů.
Hledejte případné chyby mezi připojovacími body a ujistěte se, že jsou všechna čísla polic správná.
- Chyby a závady jsou označeny symboly „?“, „!“ nebo „!!“
Poznámka: Výstupy topologie pro každý uzel by měly být navzájem zrcadlově obrácené.
(Stdby:0)## enclosure show topology
Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port
---- - ------------- - ------------- - ------------- - -------------
2a
2b
2c
2d > 5.A.E: 5.A.H ? 4.A.E: 4.A.H > 3.A.E: 3.A.H > 2.A.E: 2.A.H
3a
3b
3c
3d
6a !! 2.B.E: 2.B.H > 3.B.E: 3.B.H > 5.B.E: 5.B.H > ?.B.E: ?.B.H
6b
6c
6d
---- - ------------- - ------------- - ------------- - -------------
(active:1)## enclosure show topology
Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port
---- - ------------- - ------------- - ------------- - -------------
2a
2b
2c
2d > 2.A.H: 2.A.E > 3.A.H: 3.A.E > 4.A.H: 4.A.E > 5.A.H: 5.A.E
3a
3b
3c
3d
6a > 5.B.H: 5.B.E > 4.B.H: 4.B.E > 3.B.H: 3.B.E > 2.B.H: 2.B.E
6b
6c
6d
---- - ------------- - ------------- - ------------- - -------------
# enclosure test topology all duration 1
Na aktivním i pohotovostním uzlu proveďte 1minutový diagnostický test pro všechny porty SAS HBA s připojeným externím úložištěm.
Neprovádějte testování topologie na obou uzlech současně.
U žádného portu s připojeným úložištěm by se neměla zobrazit žádná chyba.
Pokud je zjištěn problém, test se může zastavit se zprávou o selhání, která může označit připojení SAS za chybné nebo může zobrazit chybu (?, !) u konkrétního připojení.
Poznámka: Během testu topologie mají jednotlivé porty samostatný výstup, který označuje daný stav. Problémové připojení bude označeno chybou (?, !). Dokud se nedokončí každý test portu, nezobrazí se žádný výstup z příkazového řádku.
# enclosure test topology Started: 1471719316 Ended: 1471719498 Duration: 182 Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port ---- - --------------- - --------------- - --------------- - --------------- 2d > 5.A.H:5.A.E > 4.A.H:4.A.E > 3.A.H:3.A.E > 2.A.H:2.A.E ---- - --------------- - --------------- - --------------- - --------------- Error message: ----------------- No error detected -----------------
# system show nvram
U aktivních i pohotovostních uzlů zkontrolujte, zda jsou baterie NVRAM nabité nebo se nabíjejí a zda všechny čítače chyb paměti NVRAM zobrazují hodnotu 0.
# system show nvram NVRAM Cards: Card Component Value ---- ----------------------- ---------------------------------------------------------------------- 1 Slot 0 Firmware version 0.0.80 Memory size 7.93 GiB Errors 0 memory (0 uncorrectable), 0 PCI, 0 controller Flash controller Errors 0 Cfg Err, 0 PANIC, 0 Bus Hang, 0 Bad Blk Warn, 0 Bkup Err, 0 Rstr Err Board temperature 37 C CPU temperature 47 C Number of batteries 1 ---- ----------------------- ---------------------------------------------------------------------- NVRAM Batteries: Card Battery Status Charge Charging Time To Temperature Voltage Status Full Charge ---- ------- ------ ------ -------- ----------- ----------- ------- 1 1 ok 94 % enabled 0 mins 34 C 4.016 V ---- ------- ------ ------ -------- ----------- ----------- -------
Resolution
Pokud potřebujete další pomoc, obraťte se na smluvního poskytovatele služeb.
Additional Information
.
Affected Products
Data DomainProducts
Data Domain, DD OS 6.0Article Properties
Article Number: 000017861
Article Type: Solution
Last Modified: 05 Jul 2024
Version: 3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.