Integritätsprüfung für Appliances mit Data Domain HA (DDHA)

Summary: Dieser Artikel enthält Anleitungen zur Durchführung einer grundlegenden HA-Systemintegritätsprüfung nach einem Serviceereignis. DDHA-Konfigurationen (Data Domain Highly Available) variieren je nach den verwendeten Data Domain-Modellen. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Hochverfügbare Data Domain-Systeme (DDHA) sind für ein Failover zwischen Nodes konzipiert.  Nur der aktive Node befindet sich in der Produktion, während der Stand-by-Node auf ein Ausfallereignis wartet und dann den aktiven Node ersetzt (AKTIV – PASSIV). 
Es ist zwingend zu überprüfen, dass beide DDHA-Nodes funktionsfähig sind, und ein Failover durchführen, falls ein Ausfall auftritt. 
Die in diesem Artikel beschriebenen CLI-Befehle helfen dabei, mögliche Probleme aufzudecken, die ein erfolgreiches Failover verhindern könnten. 
Dieser Leitfaden ist in wichtige Bereiche unterteilt, die überprüft werden sollten.
  • HA-Hardware und -Konfiguration
  • Netzwerk
  • Dateisystem
HA-Netzwerk-Troubleshooting
 
# net show settings 
Die Netzwerkporteinstellungen unterscheiden sich je nachdem, auf welchem Node der Befehl #net show settings ausgeführt wird. Konfigurierte Ports auf DDHA-Systemen weisen den Typ „floating“ oder „fixed“ auf.  Führen Sie
 "net show settings"
diese auf beiden Nodes aus und vergleichen Sie die Ausgaben.
  1. „Floating“-Schnittstellen:  Überprüfen Sie, ob jeder konfigurierte Netzwerkkarten(NIC)-Port, Alias oder VETH, der den Status „enabled and running“ auf dem aktiven Node hat, auf dem Stand-by-Node in identischer Weise denn Status „enabled and running“ aufweist.  Es wird erwartet, dass für jeden konfigurierten NIC-Port, Alias oder Veth-Satz vom Typ „Floating“ eine IP-Adresse auf dem aktiven Node und entsprechend „N/A“ auf dem Stand-by-Node angezeigt wird. 
  2. „Feste“ Schnittstellen: Überprüfen Sie, ob jeder konfigurierte NIC-Port, Alias oder VETH, der als „fixed“ gekennzeichnet ist, den Status „enabled and running“ hat. „Feste“ Schnittstellen haben keine identischen Konfigurationen auf beiden Nodes.
  3. Überprüfen Sie, ob „HA interconnect (veth99)“ angezeigt wird und alle erforderlichen Ports aktiviert sind und ausgeführt werden. Hinweis:  Die Anzahl der erforderlichen Portverbindungen und die Steckplatzposition für HA interconnect (veth99) sind DD-modellspezifisch

Aktiver Node:
# net show settings
port     enabled   state     DHCP   IP address                             netmask          type           additional setting
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
ethMa    yes       running   no     10.25.18.50                            255.255.255.0       fixed
                                           2620:0:170:1608:260:16ff:fe5c:92bc**   /64
                                                fe80::260:16ff:fe5c:92bc**        /64
ethMb    no        down      ipv4   n/a                                           n/a          fixed
ethMc    no        down      ipv4   n/a                                           n/a          fixed
ethMd    no        down      ipv4   n/a                                           n/a          fixed
eth4a    yes       running   no     10.25.18.63                            255.255.255.0       floating
                                           2620:0:170:1608:260:16ff:fe51:8c60**   /64
                                               fe80::260:16ff:fe51:8c60**         /64
eth4b    no        down       no     n/a                                          n/a          fixed
eth4c    no        down       no     n/a                                          n/a          fixed
eth4d    no        down       no     n/a                                          n/a          fixed
eth5a    no        down       no     n/a                                          n/a          fixed
eth5b    yes       running   no     10.25.18.60                            255.255.255.0       floating
                                           2620:0:170:1608:260:16ff:fe52:2951**   /64
                                                fe80::260:16ff:fe52:2951**        /64
eth5c    no        down       no     n/a                                          n/a          fixed
eth5d    no        down       no     n/a                                          n/a          fixed
eth11a   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11b   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11c   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11d   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
veth99   yes       running   no     d:d:d:d:d:0060:1652:0ecc                 /80               interconnect   lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d
                                                 fe80::260:16ff:fe52:ecc**   /64
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
Stand-by-Node:
# net show settings
port     enabled   state     DHCP   IP address                             netmask          type           additional setting
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
ethMa    yes       running   no     10.25.18.49                            255.255.255.0    fixed
                                     2620:0:170:14567:260:16ff:fe5c:dr3**  /64
                                               fe80::260:16ff:fe5c3457c**  /64
ethMb    no        down      ipv4   n/a                                    n/a              fixed
ethMc    no        down      ipv4   n/a                                    n/a              fixed
ethMd    no        down      ipv4   n/a                                    n/a              fixed
eth4a    yes       running   no     n/a                                    255.255.255.0    floating
                                    2620:0:170:1608:260:1ght6:fe51:4570**  /64
                                               fe80::260:16ff:fe51:7890**  /64
eth4b    no        down       no     n/a                                   n/a              fixed
eth4c    no        down       no     n/a                                   n/a              fixed
eth4d    no        down       no     n/a                                   n/a              fixed
eth5a    no        down       no     n/a                                   n/a              fixed
eth5b    yes       running    no     n/a                                   255.255.255.0    floating
                                     2620:0:170:160:456:16ff:fe5234561**   /64
                                              fe80::260:16ff:fe52:3456**   /64
eth5c    no        down       no     n/a                                   n/a              fixed
eth5d    no        down       no     n/a                                   n/a              fixed
eth11a   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11b   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11c   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11d   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
veth99   yes       running    no     d:d:d:d:d:0e456:1652:dft4c            /80              interconnect   lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d
                                                 fe80::264:16ff:fec2:ecb** /64
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
 
Überprüfen Sie die Netzwerkverbindung.
Überprüfen Sie die IP-Adressen, die auf jedem Node aufgeführt sind, und stellen Sie sicher, dass jede konfigurierte IP-Adresse auf dem aktiven und dem Stand-by-Nodes das konfigurierte Gateway anpingen kann. 
Hinweis: Bei einigen KundInnen ist der Ping (ICMP) in der Umgebung deaktiviert.  Wenden Sie sich in diesem Fall an die KundInnen, um die Konnektivität zu bestätigen.

 
(active:1)# net route show gateway detailed 
IPv4 Default Gateways
gateway IP   source   tables   interface address   owner
----------   ------   ------   -----------------   -----
10.25.18.1   static   tethMa   10.25.18.50/24      none
10.25.18.1   static   teth4a   10.25.18.63/24      none
10.25.18.1   static   teth5b   10.25.18.60/24      none
----------   ------   ------   -----------------   -----

Pingen Sie die Gateway-IP-Adresse mit jedem konfigurierten ethxx an.
 
#(active:1)# ping 10.25.18.1 interface ethMa
                                                           PING 10.25.18.1 (10.25.18.1) from 10.25.18.50 ethMa: 56(84) bytes of data.
                                                           64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=0.697 ms
(active:1)# ping 10.25.18.1 interface eth4a
                                                           PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data.
                                                           64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
(active:1)# ping 10.25.18.1 interface eth5b
                                                          PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data.
                                                          64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
 
# net troubleshooting duplicate-ip
Suchen Sie auf beiden Nodes nach doppelten IP-Adressen.
No duplicate IP addresses detected

Fibre Channel-Tests
Überprüfen Sie, ob diese Funktionen lizenziert sind, und testen Sie diese Funktionen, um sicherzustellen, dass sie voll funktionsfähig sind (z. B.: Testbackupvorgänge auf der VTL ausführen)
# license show  or # elicense show

##   License Key           Feature
--   -------------------   ----------------------------------------
1    WTXV-TSWX-HWDR-RHDX  VTL
2    EZXW-SZZF-BGCS-VRZX   Block services (Vdisk)
3 .... HA

Autosupport- und Warnmeldungstests für aktiven und Stand-by-Node
 
 (active:1)## autosupport test alert-summary
                              OK: Message sent.
 (active:1)## autosupport test support-notify
                              OK: Message sent.
 
 (standby:0)# autosupport test alert-summary
                              OK: Message sent.
 (standby:0)# autosupport test support-notify
                              OK: Message sent.


Für den Fall, dass CONNECTEMC (Secure Remote Services) verwendet wird, um ASUPS an Data Domain weiterzuleiten, verwenden Sie den folgenden Befehl, um die Konnektivität auf beiden Nodes zu überprüfen.
Der Zeitstempel gibt an, wann die letzte Verbindung hergestellt wurde.
sysadmin@hostname# support connectemc show history
File Time Transport Result
--------------------------------------- --------------------- --------- --------
RSC_CKM00XXX601153_120315_092804166.xml "2015-12-03 09:28:07" HTTP Success
RSC_CKM00XXX601153_120315_101257767.xml "2015-12-03 10:13:00" HTTP Success
RSC_CKM00XXX601153_120315_111649065.xml "2015-12-03 11:16:53" HTTP Success
--------------------------------------- --------------------- --------- --------
Note: It says HTTP above, but it is HTTPS

HA-Dateisystem-Troubleshooting
 
# filesys status
Überprüft, ob das FS aktiviert ist und ausgeführt wird. Der Bereinigungsstatus kann auch angezeigt werden.
The filesystem is enabled and running.
Cleaning started at 2016/08/20 14:12:16: phase 1 of 12 (pre-merge)
  0.7% complete, 95911 GiB free; time: phase  0:00:09, total  0:00:09

 
(aktiv:1)#(standby:0)# system upgrade status
Überprüft auf beiden Nodes, ob alle Upgrades abgeschlossen wurden.
Current Upgrade Status: DD OS upgrade Succeeded
End time: 2016.08.20:13:27
 
(aktiv:1)#(Standby:0)#Date
Sicherstellen, dass Datum und Uhrzeit auf beiden Nodes auf 10 Sekunden genau übereinstimmen
-p1(active:1)# date
Sat Aug 20 14:34:29 EDT 2016
-p0(standby:0)# date
Sat Aug 20 14:34:17 EDT 2016

Überprüfen Sie auf dem aktiven Node mit KundInnen, ob die DD-Replikation (falls konfiguriert) wie erwartet funktioniert.
# replication status
CTX   Destination                                                 Enabled   Connection         Sync'ed-as-of-time
---   ---------------------------------------------------------   -------   ----------------   ------------------
3     mtree://ddxxx.com/data/col1/eric.dest                        no        idle               Fri Nov  6 15:16
4     mtree://ddxxx.com/data/col1/thy-repl                         yes       idle               Fri Jul 22 15:38
5     dir://ddxxxx.com/backup/replicate-rtp                        yes       disconnected       Fri Jul 22 14:55
6     mtree://ddxxxx.com/data/col1/theman_test                     yes       idle               Sat Aug 20 22:11
7     dir://ddxxx.com/backup/lakeland/sym                          yes       Sat Aug 20 13:15   Fri Aug 19 15:09
---   ---------------------------------------------------------   -------   ----------------   ----------------

Cause

HA-Hardware und -Konfiguration
 
# alerts show current

Überprüfen Sie sowohl auf dem aktiven Node als auch auf dem Stand-by-Node, ob eine aktive Warnmeldung vorhanden ist, die auf ein potenzielles Problem hinweist. Warnmeldungen werden nicht immer von Nodes gemeinsam ausgegeben. Überprüfen Sie daher beide Nodes.  Wenn ein unerwartetes Problem auftritt, erstellen Sie eine Supportanfrage. Erzeugen Sie immer ein Support-Bundle von beiden Nodes.
Hinweis:  Die meisten Warnmeldungen werden nur auf einem der Nodes angezeigt. Nicht jede Warnmeldung wird von Nodes gemeinsam angezeigt.
 

Beispiele für Warnmeldungen:

Severity   Class             Object   Message
   --------   ---------------   ------   ----------------------------------------------
CRITICAL      HardwareFailure            EVT-ENVIRONMENT-00049: The system detected an invalid hardware configuration.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
CRITICAL      HardwareFailure            EVT-ENVIRONMENT-00048: Filesystem can't be enabled due to an invalid hardware configuration.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING       HardwareFailure            Enclosure=1:Slot=5   EVT-ENVIRONMENT-00047: PCI communication speed is degraded
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING             HA                   EVT-HA-00003: Standby node time is off by 15 second(s).
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING    HardwareFailure   Port Index=1   EVT-MPATH-00003: Missing disk connection from system port 6a.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------

 

# ha status

Der Befehl #ha status auf dem aktiven Node und dem Stand-by-Node kann verwendet werden, um den aktuellen HA-Status zu bestimmen.
Wenn der Status „highly available“ lautet, ist Failover aktiviert. 
Wenn der Status „degraded“ lautet oder einer der Nodes nicht den Status „online“ anzeigt, ist das Failover zwischen Nodes deaktiviert.

 
SE@hostname-p0(active:0)## ha status
HA System name:hostname-n1.chaos.local
HA System status: highly available
 
Node Name                         Node id   Role      HA State
-------------------------------   -------   -------   --------
hostname-p0.chaos.local   0         active    online
hostname-p1.chaos.local   1         standby   online
-------------------------------   -------   -------   --------

# ha status detailed
Der Befehl #ha status detailed kann nur auf dem aktiven Node für detailliertere Informationen zum HA-Status verwendet werden.
Jede der folgenden Ausgaben, für die im Abschnitt „Mirroring Status“ der Wert „not ok“ angezeigt wird, weist auf eine nicht funktionierende Komponente hin und der HA-Systemstatus wird als „degraded“ angezeigt. 
Jede Komponente mit dem Status „degraded“ verhindert ein Failover zwischen Nodes.

Hinweis: Dieser Befehl ist auf dem Stand-by-Node nicht verfügbar.
 
SEhostname-p0(active:0)## ha status detailed
HA System name: hostname.chaos.local
HA System Status: highly available
Interconnect Status: ok
Primary Heartbeat Status:  ok
External LAN Heartbeat Status: not ok
Hardware compatibility check: ok
Software Version Check:   ok
 
Node hostname-p0.chaos.local:
        Role:      active
        HA State:  online
        Node Health: ok
 
Node hostname-p1.chaos.local:
        Role:     standby
        HA State: online
        Node Health: ok
 
Mirroring Status:
Component Name   Status
--------------   ------
nvram            ok
registry         ok
sms              ok
ddboost          ok
cifs             ok
--------------   ------


# enclosure show io-cards
Überprüft, ob beide Nodes identische, unterstützte Konfigurationen haben.


# enclosure show misconfiguration
Führen Sie einen Fehlkonfigurationstest auf dem aktiven Node und den Stand-by-Nodes durch, um zu überprüfen, ob ein Problem mit der Hardwarekonfiguration vorliegt. 
Referenz KB
https://www.dell.com/support/kbdoc/en-us/463399

 
Beispiele:
Memory DIMMs:
Locator Bank Locator Size(GiB) Status
------- ------------ --------- ----------
CHCD1     7     0     missing
CHDD1     7     0     missing
CHAD0     4     8     wrong size
CHBD0     4     8     wrong size
IO Cards:
Slot   Device       Status
----   ----------   ---------
10     Hera NVRAM   extra
10     Hera NVRAM   misplaced
----   ----------   ---------
CPUs:
    No misconfiguration found.
Disks:
Slot   Size(GiB)   Type   Media   Status
----   ---------   ----   -----   -------
2      186         SATA   SSD     missing
----   ---------   ----   -----   -----
 
# enclosure show topology
Überprüft die Topologie von beiden Nodes. 
Suchen Sie nach Fehlern zwischen den Verbindungspunkten und vergewissern Sie sich,
dass alle Einschubnummerierungen korrekt sind.
- Fehler und Störungen werden mit „?“, „!“ oder „!!“ dargestellt.
Hinweis: Die Topologieausgaben sollten für jeden Node umgekehrt (spiegelbildlich) voneinander sein.
 
(Stdby:0)## enclosure show topology
Port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----   -   -------------   -   -------------   -   -------------   -   -------------
2a
2b
2c
2d     >    5.A.E: 5.A.H   ?   4.A.E: 4.A.H   >    3.A.E: 3.A.H   >    2.A.E: 2.A.H
3a
3b
3c
3d
6a     !!    2.B.E: 2.B.H   >    3.B.E: 3.B.H   >    5.B.E: 5.B.H   >    ?.B.E: ?.B.H
6b
6c
6d
----   -   -------------   -   -------------   -   -------------   -   -------------
 
(active:1)## enclosure show topology
Port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----   -   -------------   -   -------------   -   -------------   -   -------------
2a
2b
2c
2d   >    2.A.H: 2.A.E   >    3.A.H: 3.A.E   >    4.A.H: 4.A.E   >    5.A.H: 5.A.E
3a
3b
3c
3d
6a    >    5.B.H: 5.B.E   >    4.B.H: 4.B.E   >    3.B.H: 3.B.E   >    2.B.H: 2.B.E
6b
6c
6d
----   -   -------------   -   -------------   -   -------------   -   -------------
 
# enclosure test topology all duration 1
Führt auf dem aktiven und dem Stand-by-Node einen einminütigen Diagnosetest für alle SAS-HBA-Ports mit angeschlossenem externem Storage durch.
Führen Sie Topologietests nicht auf beiden Nodes gleichzeitig durch. 
Das erwartete Ergebnis ist, dass für jeden Anschluss mit angeschlossenem Storage kein Fehler erkannt wird. 
Wenn ein Problem gefunden wird, kann der Test mit einer Fehlermeldung beendet werden, die für die SAS-Verbindung einen Fehler angibt, oder ein Fehlersymbol (? , ! ) neben einer bestimmten Verbindung anzeigt
.

 
Hinweis: Während des Topologietests wird für einzelne Ports eine separate Ausgabe mit dem Status erzeugt. Suchen Sie nach Fehlersymbolen (? , ! ), um die fehlerhafte Verbindung zu ermittelnEs wird keine CLI-Ausgabe angezeigt, bis jeder Porttest abgeschlossen ist. 
 
# enclosure test topology  
Started: 1471719316
Ended: 1471719498
Duration: 182
Port      enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----  -  ---------------  -  ---------------  -  ---------------  -  ---------------
2d    >    5.A.H:5.A.E    >    4.A.H:4.A.E    >    3.A.H:3.A.E    >    2.A.H:2.A.E
----  -  ---------------  -  ---------------  -  ---------------  -  ---------------
Error message:
-----------------
No error detected
-----------------

# system show nvram
Stellen Sie sowohl auf aktiven als auch auf Stand-by-Nodes sicher, dass NVRAM-Akkus geladen sind oder geladen werden und dass alle NVRAM-Fehlerzähler den Wert Null anzeigen.
 
# system show nvram
NVRAM Cards:
        Card   Component                 Value
        ----   -----------------------   ----------------------------------------------------------------------
        1      Slot                      0
               Firmware version          0.0.80
               Memory size               7.93 GiB
               Errors                    0 memory (0 uncorrectable), 0 PCI, 0 controller
               Flash controller Errors   0 Cfg Err, 0 PANIC, 0 Bus Hang, 0 Bad Blk Warn, 0 Bkup Err, 0 Rstr Err
               Board temperature         37 C
               CPU temperature           47 C
               Number of batteries       1
        ----   -----------------------   ----------------------------------------------------------------------
NVRAM Batteries:
        Card   Battery   Status   Charge   Charging   Time To       Temperature   Voltage
                                           Status     Full Charge
        ----   -------   ------   ------   --------   -----------   -----------   -------
        1      1         ok       94 %     enabled    0 mins        34 C          4.016 V
        ----   -------   ------   ------   --------   -----------   -----------   -------

Resolution

Wenn weitere Unterstützung erforderlich ist, wenden Sie sich an den von Ihnen beauftragten Serviceanbieter.

Additional Information

.

Affected Products

Data Domain

Products

Data Domain, DD OS 6.0
Article Properties
Article Number: 000017861
Article Type: Solution
Last Modified: 05 Jul 2024
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.