Hälsokontroll för Data Domain HA-enheter (DDHA)
Summary: Den här artikeln är avsedd att ge vägledning för att utföra en grundläggande hälsokontroll av HA-systemet efter en tjänsthändelse. Data Domain Highly Available-konfigurationer (DDHA) varierar beroende på vilka Data Domain-modeller som används. ...
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
Data Domain Highly Availability-system (DDHA) är utformade för redundansväxling mellan noder. Endast den aktiva noden är i produktion medan väntelägesnoden väntar på att en felhändelse ska ersätta den aktiva noden (ACTIVE – PASSIVE).
Det är absolut nödvändigt att kontrollera att båda DDHA-noderna fungerar och slutföra en redundansväxling om ett fel skulle inträffa.
CLI-kommandona som beskrivs i den här artikeln hjälper till att upptäcka möjliga problem som kan förhindra en lyckad redundansväxling.
Den här guiden är uppdelad i viktiga områden som bör kontrolleras.
av HA-nätverk # inställningar för nätshow
Nätverksportinställningarna är olika beroende på vilken nod kommandot #net visa inställningar körs. Konfigurerade portar på DDHA-system är av typen "floating" eller typen "fixed". Kör
Aktiv nod:
Verifiera nätverksanslutning.
Granska IP-adresserna som anges på varje nod och se till att varje konfigurerad IP-adress på den aktiva noden och väntelägesnoderna kan pinga sin konfigurerade gateway.
Obs! Vissa kunder har pingen (ICMP) inaktiverad i sin miljö. Kontakta i så fall kunden för att bekräfta anslutningen.
(aktiv:1)# nätrutt visa gateway detaljerad
Pinga gatewayens IP-adress med varje konfigurerad ethxx.
# netto felsökning duplicera-ip
Från båda noderna söker du efter dubbletter av IP-adresser
Fiber Channel-testning
Kontrollera att dessa funktioner är licensierade och testa sedan dessa funktioner för att verifiera att de fungerar fullt ut (till exempel: Kör testsäkerhetskopiering till VTL)
Automatisk support och varningstest från både aktiv och standby
Om CONNECTEMC (Secure Remote Services) används för att vidarebefordra ASUPS till Data Domain använder du följande kommando för att verifiera anslutningen på båda noderna.
Tidsstämpeln anger när den senaste anslutningen upprättades.
Felsökning
av HA-filsystem # filesys status
Kontrollera att FS är aktiverat och körs. Rengöringsstatus kan också visas.
(Aktiv: 1)#(Vänteläge: 0)# Systemuppgraderingsstatus
Kontrollera att alla uppgraderingar har slutförts från båda noderna.
(aktiv: 1)#(vänteläge: 0)#Datum
Kontrollera att tid och datum matchar på båda noderna inom 10 s
Från den aktiva noden kontrollerar du med kunden att DD-replikeringen (om den är konfigurerad) fungerar som förväntat.
Det är absolut nödvändigt att kontrollera att båda DDHA-noderna fungerar och slutföra en redundansväxling om ett fel skulle inträffa.
CLI-kommandona som beskrivs i den här artikeln hjälper till att upptäcka möjliga problem som kan förhindra en lyckad redundansväxling.
Den här guiden är uppdelad i viktiga områden som bör kontrolleras.
- HA-hårdvara och konfiguration
- Nätverk
- Filsystem
av HA-nätverk # inställningar för nätshow
Nätverksportinställningarna är olika beroende på vilken nod kommandot #net visa inställningar körs. Konfigurerade portar på DDHA-system är av typen "floating" eller typen "fixed". Kör
"net show settings"på båda noderna och jämför utdata.
- "Flytande" gränssnitt: Kontrollera att alla konfigurerade NIC-portar (Network Card), alias eller veth, som visar ett aktiverat och körs läge på den aktiva noden har ett identiskt aktiverat och körs läge på väntelägesnoden. Det förväntas att alla konfigurerade NIC-portar, alias eller Veth som är inställda på typen floating har en IP-adress som visas på den aktiva noden och ett motsvarande N/A på väntelägesnoden.
- "Fasta" gränssnitt: Kontrollera att alla konfigurerade NIC-portar, alias eller virtuella enheter som är märkta som "fasta" visar ett "aktiverat och körs läge". "Fasta" gränssnitt har inte identiska konfigurationer mellan noder
- Kontrollera att HA-sammankopplingen (veth99) visas och att alla nödvändiga portar är aktiverade och körs, Obs! Antalet portanslutningar som krävs och kortplatsen för HA-sammankopplingen (veth99) är DD-modellspecifik
Aktiv nod:
# net show settings port enabled state DHCP IP address netmask type additional setting ------ ------- ------- ---- ------------------------------------ -------------- ------------ ----------------------------------------------- ethMa yes running no 10.25.18.50 255.255.255.0 fixed 2620:0:170:1608:260:16ff:fe5c:92bc** /64 fe80::260:16ff:fe5c:92bc** /64 ethMb no down ipv4 n/a n/a fixed ethMc no down ipv4 n/a n/a fixed ethMd no down ipv4 n/a n/a fixed eth4a yes running no 10.25.18.63 255.255.255.0 floating 2620:0:170:1608:260:16ff:fe51:8c60** /64 fe80::260:16ff:fe51:8c60** /64 eth4b no down no n/a n/a fixed eth4c no down no n/a n/a fixed eth4d no down no n/a n/a fixed eth5a no down no n/a n/a fixed eth5b yes running no 10.25.18.60 255.255.255.0 floating 2620:0:170:1608:260:16ff:fe52:2951** /64 fe80::260:16ff:fe52:2951** /64 eth5c no down no n/a n/a fixed eth5d no down no n/a n/a fixed eth11a yes running n/a n/a n/a interconnect bonded to veth99 eth11b yes running n/a n/a n/a interconnect bonded to veth99 eth11c yes running n/a n/a n/a interconnect bonded to veth99 eth11d yes running n/a n/a n/a interconnect bonded to veth99 veth99 yes running no d:d:d:d:d:0060:1652:0ecc /80 interconnect lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d fe80::260:16ff:fe52:ecc** /64 ------ ------- ------- ---- ------------------------------------ -------------- ------------ -----------------------------------------------Standby-nod:
# net show settings port enabled state DHCP IP address netmask type additional setting ------ ------- ------- ---- ------------------------------------ -------------- ------------ ----------------------------------------------- ethMa yes running no 10.25.18.49 255.255.255.0 fixed 2620:0:170:14567:260:16ff:fe5c:dr3** /64 fe80::260:16ff:fe5c3457c** /64 ethMb no down ipv4 n/a n/a fixed ethMc no down ipv4 n/a n/a fixed ethMd no down ipv4 n/a n/a fixed eth4a yes running no n/a 255.255.255.0 floating 2620:0:170:1608:260:1ght6:fe51:4570** /64 fe80::260:16ff:fe51:7890** /64 eth4b no down no n/a n/a fixed eth4c no down no n/a n/a fixed eth4d no down no n/a n/a fixed eth5a no down no n/a n/a fixed eth5b yes running no n/a 255.255.255.0 floating 2620:0:170:160:456:16ff:fe5234561** /64 fe80::260:16ff:fe52:3456** /64 eth5c no down no n/a n/a fixed eth5d no down no n/a n/a fixed eth11a yes running n/a n/a n/a interconnect bonded to veth99 eth11b yes running n/a n/a n/a interconnect bonded to veth99 eth11c yes running n/a n/a n/a interconnect bonded to veth99 eth11d yes running n/a n/a n/a interconnect bonded to veth99 veth99 yes running no d:d:d:d:d:0e456:1652:dft4c /80 interconnect lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d fe80::264:16ff:fec2:ecb** /64 ------ ------- ------- ---- ------------------------------------ -------------- ------------ -----------------------------------------------
Verifiera nätverksanslutning.
Granska IP-adresserna som anges på varje nod och se till att varje konfigurerad IP-adress på den aktiva noden och väntelägesnoderna kan pinga sin konfigurerade gateway.
Obs! Vissa kunder har pingen (ICMP) inaktiverad i sin miljö. Kontakta i så fall kunden för att bekräfta anslutningen.
(aktiv:1)# nätrutt visa gateway detaljerad
IPv4 Default Gateways gateway IP source tables interface address owner ---------- ------ ------ ----------------- ----- 10.25.18.1 static tethMa 10.25.18.50/24 none 10.25.18.1 static teth4a 10.25.18.63/24 none 10.25.18.1 static teth5b 10.25.18.60/24 none ---------- ------ ------ ----------------- -----
Pinga gatewayens IP-adress med varje konfigurerad ethxx.
#(active:1)# ping 10.25.18.1 interface ethMa PING 10.25.18.1 (10.25.18.1) from 10.25.18.50 ethMa: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=0.697 ms (active:1)# ping 10.25.18.1 interface eth4a PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms (active:1)# ping 10.25.18.1 interface eth5b PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
# netto felsökning duplicera-ip
Från båda noderna söker du efter dubbletter av IP-adresser
No duplicate IP addresses detected
Fiber Channel-testning
Kontrollera att dessa funktioner är licensierade och testa sedan dessa funktioner för att verifiera att de fungerar fullt ut (till exempel: Kör testsäkerhetskopiering till VTL)
# license show or # elicense show ## License Key Feature -- ------------------- ---------------------------------------- 1 WTXV-TSWX-HWDR-RHDX VTL 2 EZXW-SZZF-BGCS-VRZX Block services (Vdisk) 3 .... HA
Automatisk support och varningstest från både aktiv och standby
(active:1)## autosupport test alert-summary OK: Message sent. (active:1)## autosupport test support-notify OK: Message sent. (standby:0)# autosupport test alert-summary OK: Message sent. (standby:0)# autosupport test support-notify OK: Message sent.
Om CONNECTEMC (Secure Remote Services) används för att vidarebefordra ASUPS till Data Domain använder du följande kommando för att verifiera anslutningen på båda noderna.
Tidsstämpeln anger när den senaste anslutningen upprättades.
sysadmin@hostname# support connectemc show history File Time Transport Result --------------------------------------- --------------------- --------- -------- RSC_CKM00XXX601153_120315_092804166.xml "2015-12-03 09:28:07" HTTP Success RSC_CKM00XXX601153_120315_101257767.xml "2015-12-03 10:13:00" HTTP Success RSC_CKM00XXX601153_120315_111649065.xml "2015-12-03 11:16:53" HTTP Success --------------------------------------- --------------------- --------- -------- Note: It says HTTP above, but it is HTTPS
Felsökning
av HA-filsystem # filesys status
Kontrollera att FS är aktiverat och körs. Rengöringsstatus kan också visas.
The filesystem is enabled and running. Cleaning started at 2016/08/20 14:12:16: phase 1 of 12 (pre-merge) 0.7% complete, 95911 GiB free; time: phase 0:00:09, total 0:00:09
(Aktiv: 1)#(Vänteläge: 0)# Systemuppgraderingsstatus
Kontrollera att alla uppgraderingar har slutförts från båda noderna.
Current Upgrade Status: DD OS upgrade Succeeded End time: 2016.08.20:13:27
(aktiv: 1)#(vänteläge: 0)#Datum
Kontrollera att tid och datum matchar på båda noderna inom 10 s
-p1(active:1)# date Sat Aug 20 14:34:29 EDT 2016 -p0(standby:0)# date Sat Aug 20 14:34:17 EDT 2016
Från den aktiva noden kontrollerar du med kunden att DD-replikeringen (om den är konfigurerad) fungerar som förväntat.
# replication status CTX Destination Enabled Connection Sync'ed-as-of-time --- --------------------------------------------------------- ------- ---------------- ------------------ 3 mtree://ddxxx.com/data/col1/eric.dest no idle Fri Nov 6 15:16 4 mtree://ddxxx.com/data/col1/thy-repl yes idle Fri Jul 22 15:38 5 dir://ddxxxx.com/backup/replicate-rtp yes disconnected Fri Jul 22 14:55 6 mtree://ddxxxx.com/data/col1/theman_test yes idle Sat Aug 20 22:11 7 dir://ddxxx.com/backup/lakeland/sym yes Sat Aug 20 13:15 Fri Aug 19 15:09 --- --------------------------------------------------------- ------- ---------------- ----------------
Cause
HA-hårdvara och konfiguration
Kontrollera om det finns en aktiv varning som pekar på ett potentiellt problem på både den aktiva noden och väntelägesnoden. Aviseringar delas inte alltid mellan noder, så kontrollera båda noderna. Om ett oväntat problem uppstår kan du skapa ett supportärende. Generera alltid ett supportpaket från båda noderna.
Obs! De flesta aviseringar visas bara på en av noderna. Alla aviseringar delas inte mellan noder.
Om statusen är "hög tillgänglighet" aktiveras redundans.
Om statusen är "degraderad" eller om en av noderna inte visar "online"-tillstånd inaktiveras redundans mellan noder.
# ha status detaljerad
Kommandot #ha status som anges på den aktiva noden kan endast användas för mer detaljerad information om HA-status.
Någon av nedanstående utdata som visar "inte ok" under avsnittet Speglingsstatus indikerar en komponent som inte fungerar och HA-systemstatusen visas som "degraderad".
Alla degraderade tillstånd förhindrar redundans mellan noder.
Not: Det här kommandot är inte tillgängligt på standby-noden.
# Enclosure Visa IO-kort
Kontrollera att båda noderna har identiska konfigurationer som stöds.
# kapsling visar felaktig konfiguration
Utför ett felkonfigurationstest från den aktiva noden och standby-noderna för att kontrollera om det finns några problem med maskinvarukonfigurationen.
Referens KB https://www.dell.com/support/kbdoc/en-us/463399
Exempel:
# kapsling Visa topologi
Kontrollera topologin från båda noderna.
Leta efter eventuella fel mellan anslutningarna och setill att all hyllnumrering är korrekt.
# Topologi för kapslingstest under hela varaktigheten 1
Från både den aktiva noden och standby-noden utför du ett diagnostiskt test på 1 minut för alla SAS HBA-portar med ansluten extern lagring.
Utför inte topologitestning på båda noderna samtidigt.
Det förväntade resultatet är att inget fel har upptäckts för alla portar med ansluten lagring.
Om ett problem upptäcks kan testet stoppas med ett felmeddelande som anger SAS-anslutningen med ett fel, eller så kan ett fel visas (? , ! ) vid en viss anslutning.
Obs! Under topologitestet har enskilda portar en separat utgång som anger tillståndet. Leta efter fel (? , ! ) för att lokalisera problemanslutningen. Inga CLI-utdata visas förrän porttestet har slutförts.
# System Show NVRAM
Kontrollera att Nvram-batterierna är laddade eller laddas på både aktiva noder och standby-noder och att värdet noll visas för alla nvram-felräknare.
# alerts show current
Kontrollera om det finns en aktiv varning som pekar på ett potentiellt problem på både den aktiva noden och väntelägesnoden. Aviseringar delas inte alltid mellan noder, så kontrollera båda noderna. Om ett oväntat problem uppstår kan du skapa ett supportärende. Generera alltid ett supportpaket från båda noderna.
Obs! De flesta aviseringar visas bara på en av noderna. Alla aviseringar delas inte mellan noder.
Varningsexempel:
Severity Class Object Message -------- --------------- ------ ---------------------------------------------- CRITICAL HardwareFailure EVT-ENVIRONMENT-00049: The system detected an invalid hardware configuration. -- ------------------------ -------- --------------- ------ ---------------------------------------------- CRITICAL HardwareFailure EVT-ENVIRONMENT-00048: Filesystem can't be enabled due to an invalid hardware configuration. -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HardwareFailure Enclosure=1:Slot=5 EVT-ENVIRONMENT-00047: PCI communication speed is degraded -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HA EVT-HA-00003: Standby node time is off by 15 second(s). -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HardwareFailure Port Index=1 EVT-MPATH-00003: Missing disk connection from system port 6a. -- ------------------------ -------- --------------- ------ ----------------------------------------------
# ha status
Kommando- #ha status på den aktiva noden och väntelägesnoden kan användas för att fastställa aktuell HA-status.Om statusen är "hög tillgänglighet" aktiveras redundans.
Om statusen är "degraderad" eller om en av noderna inte visar "online"-tillstånd inaktiveras redundans mellan noder.
SE@hostname-p0(active:0)## ha status HA System name:hostname-n1.chaos.local HA System status: highly available Node Name Node id Role HA State ------------------------------- ------- ------- -------- hostname-p0.chaos.local 0 active online hostname-p1.chaos.local 1 standby online ------------------------------- ------- ------- --------
# ha status detaljerad
Kommandot #ha status som anges på den aktiva noden kan endast användas för mer detaljerad information om HA-status.
Någon av nedanstående utdata som visar "inte ok" under avsnittet Speglingsstatus indikerar en komponent som inte fungerar och HA-systemstatusen visas som "degraderad".
Alla degraderade tillstånd förhindrar redundans mellan noder.
Not: Det här kommandot är inte tillgängligt på standby-noden.
SEhostname-p0(active:0)## ha status detailed HA System name: hostname.chaos.local HA System Status: highly available Interconnect Status: ok Primary Heartbeat Status: ok External LAN Heartbeat Status: not ok Hardware compatibility check: ok Software Version Check: ok Node hostname-p0.chaos.local: Role: active HA State: online Node Health: ok Node hostname-p1.chaos.local: Role: standby HA State: online Node Health: ok Mirroring Status: Component Name Status -------------- ------ nvram ok registry ok sms ok ddboost ok cifs ok -------------- ------
# Enclosure Visa IO-kort
Kontrollera att båda noderna har identiska konfigurationer som stöds.
# kapsling visar felaktig konfiguration
Utför ett felkonfigurationstest från den aktiva noden och standby-noderna för att kontrollera om det finns några problem med maskinvarukonfigurationen.
Referens KB https://www.dell.com/support/kbdoc/en-us/463399
Exempel:
Memory DIMMs: Locator Bank Locator Size(GiB) Status ------- ------------ --------- ---------- CHCD1 7 0 missing CHDD1 7 0 missing CHAD0 4 8 wrong size CHBD0 4 8 wrong size IO Cards: Slot Device Status ---- ---------- --------- 10 Hera NVRAM extra 10 Hera NVRAM misplaced ---- ---------- --------- CPUs: No misconfiguration found. Disks: Slot Size(GiB) Type Media Status ---- --------- ---- ----- ------- 2 186 SATA SSD missing ---- --------- ---- ----- -----
# kapsling Visa topologi
Kontrollera topologin från båda noderna.
Leta efter eventuella fel mellan anslutningarna och setill att all hyllnumrering är korrekt.
- Fel och brister symboliseras med '?', '!' Eller '!!'
Obs! Topologiutdata för varje nod ska vara omvända (spegelbild) av varandra.
(Stdby:0)## enclosure show topology
Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port
---- - ------------- - ------------- - ------------- - -------------
2a
2b
2c
2d > 5.A.E: 5.A.H ? 4.A.E: 4.A.H > 3.A.E: 3.A.H > 2.A.E: 2.A.H
3a
3b
3c
3d
6a !! 2.B.E: 2.B.H > 3.B.E: 3.B.H > 5.B.E: 5.B.H > ?.B.E: ?.B.H
6b
6c
6d
---- - ------------- - ------------- - ------------- - -------------
(active:1)## enclosure show topology
Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port
---- - ------------- - ------------- - ------------- - -------------
2a
2b
2c
2d > 2.A.H: 2.A.E > 3.A.H: 3.A.E > 4.A.H: 4.A.E > 5.A.H: 5.A.E
3a
3b
3c
3d
6a > 5.B.H: 5.B.E > 4.B.H: 4.B.E > 3.B.H: 3.B.E > 2.B.H: 2.B.E
6b
6c
6d
---- - ------------- - ------------- - ------------- - -------------
# Topologi för kapslingstest under hela varaktigheten 1
Från både den aktiva noden och standby-noden utför du ett diagnostiskt test på 1 minut för alla SAS HBA-portar med ansluten extern lagring.
Utför inte topologitestning på båda noderna samtidigt.
Det förväntade resultatet är att inget fel har upptäckts för alla portar med ansluten lagring.
Om ett problem upptäcks kan testet stoppas med ett felmeddelande som anger SAS-anslutningen med ett fel, eller så kan ett fel visas (? , ! ) vid en viss anslutning.
Obs! Under topologitestet har enskilda portar en separat utgång som anger tillståndet. Leta efter fel (? , ! ) för att lokalisera problemanslutningen. Inga CLI-utdata visas förrän porttestet har slutförts.
# enclosure test topology Started: 1471719316 Ended: 1471719498 Duration: 182 Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port ---- - --------------- - --------------- - --------------- - --------------- 2d > 5.A.H:5.A.E > 4.A.H:4.A.E > 3.A.H:3.A.E > 2.A.H:2.A.E ---- - --------------- - --------------- - --------------- - --------------- Error message: ----------------- No error detected -----------------
# System Show NVRAM
Kontrollera att Nvram-batterierna är laddade eller laddas på både aktiva noder och standby-noder och att värdet noll visas för alla nvram-felräknare.
# system show nvram NVRAM Cards: Card Component Value ---- ----------------------- ---------------------------------------------------------------------- 1 Slot 0 Firmware version 0.0.80 Memory size 7.93 GiB Errors 0 memory (0 uncorrectable), 0 PCI, 0 controller Flash controller Errors 0 Cfg Err, 0 PANIC, 0 Bus Hang, 0 Bad Blk Warn, 0 Bkup Err, 0 Rstr Err Board temperature 37 C CPU temperature 47 C Number of batteries 1 ---- ----------------------- ---------------------------------------------------------------------- NVRAM Batteries: Card Battery Status Charge Charging Time To Temperature Voltage Status Full Charge ---- ------- ------ ------ -------- ----------- ----------- ------- 1 1 ok 94 % enabled 0 mins 34 C 4.016 V ---- ------- ------ ------ -------- ----------- ----------- -------
Resolution
Kontakta din kontrakterade tjänsteleverantör om du behöver ytterligare hjälp.
Additional Information
.
Affected Products
Data DomainProducts
Data Domain, DD OS 6.0Article Properties
Article Number: 000017861
Article Type: Solution
Last Modified: 05 Jul 2024
Version: 3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.