Data Domain HA (DDHA)アプライアンスのヘルス チェック

Summary: この記事は、サービス イベント後に基本的なHAシステムのヘルス チェックを実行するためのガイダンスの提供を目的としています。Data Domainの高可用性(DDHA)構成は、使用するData Domainモデルによって異なります。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Data Domain高可用性システム(DDHA)は、ノード間でフェールオーバーするように設計されています。  スタンバイ ノードがアクティブ ノードに取って代わるために障害イベントを待機している(アクティブ - パッシブ)間は、アクティブ ノードのみが本番稼働状態です。
障害が発生した場合は、両方のDDHAノードが正常に作動していることを確認し、フェールオーバーを完了する必要があります。
この記事で詳しく説明されているCLIコマンドは、正常なフェールオーバーを妨げる可能性のある問題を明らかにするのに役立ちます。
このガイドは、チェックすべき主要な分野に分かれています。
  • HAのハードウェアと構成
  • ネットワーク
  • ファイルシステム
HAネットワークのトラブルシューティング
 
# net show settings
ネットワーク ポートの設定は、#net show settingsコマンドを実行するノードによって異なります。DDHAシステム上の構成済みポートは、「フローティング」タイプまたは「固定」タイプです。  実行
 "net show settings"
を両方のノードで実行し、出力を比較します。
  1. 「フローティング」インターフェイス:  アクティブ ノードで有効かつ実行中の状態を表示する、構成済みのネットワーク カード(NIC)ポート、エイリアス、またはvethが、スタンバイ ノードでも同じ有効かつ実行中の状態であることを確認します。  構成済みのNICポート、エイリアス、またはVethがフローティング タイプに設定されている場合、アクティブ ノードにはIPアドレスが表示され、スタンバイ ノードには対応するN/Aが表示されると予想されます。 
  2. 「固定」インターフェイス:「fixed」とタグ付けされた構成済みのNICポート、エイリアス、vethに「enabled and running state」と表示されていることを確認します。「固定」インターフェイスの構成はノード間で同一ではありません。
  3. HA相互接続(veth99)が表示され、必要なすべてのポートが有効で実行されていることを確認します。メモ: HA相互接続(veth99)に必要なポート接続の数とスロットの位置は、DDモデルによって異なります

アクティブ ノード:
# net show settings
port     enabled   state     DHCP   IP address                             netmask          type           additional setting
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
ethMa    yes       running   no     10.25.18.50                            255.255.255.0       fixed
                                           2620:0:170:1608:260:16ff:fe5c:92bc**   /64
                                                fe80::260:16ff:fe5c:92bc**        /64
ethMb    no        down      ipv4   n/a                                           n/a          fixed
ethMc    no        down      ipv4   n/a                                           n/a          fixed
ethMd    no        down      ipv4   n/a                                           n/a          fixed
eth4a    yes       running   no     10.25.18.63                            255.255.255.0       floating
                                           2620:0:170:1608:260:16ff:fe51:8c60**   /64
                                               fe80::260:16ff:fe51:8c60**         /64
eth4b    no        down       no     n/a                                          n/a          fixed
eth4c    no        down       no     n/a                                          n/a          fixed
eth4d    no        down       no     n/a                                          n/a          fixed
eth5a    no        down       no     n/a                                          n/a          fixed
eth5b    yes       running   no     10.25.18.60                            255.255.255.0       floating
                                           2620:0:170:1608:260:16ff:fe52:2951**   /64
                                                fe80::260:16ff:fe52:2951**        /64
eth5c    no        down       no     n/a                                          n/a          fixed
eth5d    no        down       no     n/a                                          n/a          fixed
eth11a   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11b   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11c   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
eth11d   yes       running   n/a    n/a                                           n/a          interconnect   bonded to veth99
veth99   yes       running   no     d:d:d:d:d:0060:1652:0ecc                 /80               interconnect   lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d
                                                 fe80::260:16ff:fe52:ecc**   /64
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
スタンバイ ノード:
# net show settings
port     enabled   state     DHCP   IP address                             netmask          type           additional setting
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
ethMa    yes       running   no     10.25.18.49                            255.255.255.0    fixed
                                     2620:0:170:14567:260:16ff:fe5c:dr3**  /64
                                               fe80::260:16ff:fe5c3457c**  /64
ethMb    no        down      ipv4   n/a                                    n/a              fixed
ethMc    no        down      ipv4   n/a                                    n/a              fixed
ethMd    no        down      ipv4   n/a                                    n/a              fixed
eth4a    yes       running   no     n/a                                    255.255.255.0    floating
                                    2620:0:170:1608:260:1ght6:fe51:4570**  /64
                                               fe80::260:16ff:fe51:7890**  /64
eth4b    no        down       no     n/a                                   n/a              fixed
eth4c    no        down       no     n/a                                   n/a              fixed
eth4d    no        down       no     n/a                                   n/a              fixed
eth5a    no        down       no     n/a                                   n/a              fixed
eth5b    yes       running    no     n/a                                   255.255.255.0    floating
                                     2620:0:170:160:456:16ff:fe5234561**   /64
                                              fe80::260:16ff:fe52:3456**   /64
eth5c    no        down       no     n/a                                   n/a              fixed
eth5d    no        down       no     n/a                                   n/a              fixed
eth11a   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11b   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11c   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
eth11d   yes       running    n/a    n/a                                   n/a              interconnect   bonded to veth99
veth99   yes       running    no     d:d:d:d:d:0e456:1652:dft4c            /80              interconnect   lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d
                                                 fe80::264:16ff:fec2:ecb** /64
------   -------   -------   ----   ------------------------------------   --------------   ------------   -----------------------------------------------
 
ネットワーク接続を確認する
各ノードにリストされているIPを確認し、アクティブ ノードおよびスタンバイ ノードの各構成済みIPアドレスが、それぞれの構成済みゲートウェイにpingを実行できることを確認します。 
注:一部のお客様は、環境内でping (ICMP)を無効にしています。  この場合、お客様と連携して接続を確認します。

 
(active:1)# net route show gateway detailed 
IPv4 Default Gateways
gateway IP   source   tables   interface address   owner
----------   ------   ------   -----------------   -----
10.25.18.1   static   tethMa   10.25.18.50/24      none
10.25.18.1   static   teth4a   10.25.18.63/24      none
10.25.18.1   static   teth5b   10.25.18.60/24      none
----------   ------   ------   -----------------   -----

構成済みの各ethxxでゲートウェイIPアドレスにpingを実行します。
 
#(active:1)# ping 10.25.18.1 interface ethMa
                                                           PING 10.25.18.1 (10.25.18.1) from 10.25.18.50 ethMa: 56(84) bytes of data.
                                                           64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=0.697 ms
(active:1)# ping 10.25.18.1 interface eth4a
                                                           PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data.
                                                           64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
(active:1)# ping 10.25.18.1 interface eth5b
                                                          PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data.
                                                          64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
 
# net troubleshooting duplicate-ip
両方のノードで、重複するIPを確認します
No duplicate IP addresses detected

ファイバー チャネル テスト
これらの機能がライセンスされていることを確認し、これらの機能をテストして、完全に機能することを確認します(例:VTLへのテスト バックアップ操作の実行)
# license show  or # elicense show

##   License Key           Feature
--   -------------------   ----------------------------------------
1    WTXV-TSWX-HWDR-RHDX  VTL
2    EZXW-SZZF-BGCS-VRZX   Block services (Vdisk)
3 .... HA

アクティブとスタンバイの両方からの自動サポートとアラートのテスト
 
 (active:1)## autosupport test alert-summary
                              OK: Message sent.
 (active:1)## autosupport test support-notify
                              OK: Message sent.
 
 (standby:0)# autosupport test alert-summary
                              OK: Message sent.
 (standby:0)# autosupport test support-notify
                              OK: Message sent.


ConnectEMC (Secure Remote Services)を使用してASUPSをData Domainに転送する場合は、次のコマンドを使用して両方のノードの接続を確認します。
タイムスタンプは、最後の接続がいつ確立されたかを示します。
sysadmin@hostname# support connectemc show history
File Time Transport Result
--------------------------------------- --------------------- --------- --------
RSC_CKM00XXX601153_120315_092804166.xml "2015-12-03 09:28:07" HTTP Success
RSC_CKM00XXX601153_120315_101257767.xml "2015-12-03 10:13:00" HTTP Success
RSC_CKM00XXX601153_120315_111649065.xml "2015-12-03 11:16:53" HTTP Success
--------------------------------------- --------------------- --------- --------
Note: It says HTTP above, but it is HTTPS

HAファイルシステムのトラブルシューティング
 
# filesysのステータス
FSが有効で実行中であることを確認します。クリーニング ステータスも表示できます。
The filesystem is enabled and running.
Cleaning started at 2016/08/20 14:12:16: phase 1 of 12 (pre-merge)
  0.7% complete, 95911 GiB free; time: phase  0:00:09, total  0:00:09

 
(アクティブ:1)#(スタンバイ:0)# システム アップグレード ステータス
両方のノードで、すべてのアップグレードが完了していることを確認します。
Current Upgrade Status: DD OS upgrade Succeeded
End time: 2016.08.20:13:27
 
(アクティブ:1)#(スタンバイ:0)#日付
両方のノードで時刻と日付が10秒以内に一致していることを確認する
-p1(active:1)# date
Sat Aug 20 14:34:29 EDT 2016
-p0(standby:0)# date
Sat Aug 20 14:34:17 EDT 2016

アクティブ ノードから、DDレプリケーション(構成されている場合)が想定どおりに作動していることをお客様に確認します。
# replication status
CTX   Destination                                                 Enabled   Connection         Sync'ed-as-of-time
---   ---------------------------------------------------------   -------   ----------------   ------------------
3     mtree://ddxxx.com/data/col1/eric.dest                        no        idle               Fri Nov  6 15:16
4     mtree://ddxxx.com/data/col1/thy-repl                         yes       idle               Fri Jul 22 15:38
5     dir://ddxxxx.com/backup/replicate-rtp                        yes       disconnected       Fri Jul 22 14:55
6     mtree://ddxxxx.com/data/col1/theman_test                     yes       idle               Sat Aug 20 22:11
7     dir://ddxxx.com/backup/lakeland/sym                          yes       Sat Aug 20 13:15   Fri Aug 19 15:09
---   ---------------------------------------------------------   -------   ----------------   ----------------

Cause

HAのハードウェアと構成
 
# alerts show current

アクティブ ノードとスタンバイ ノードの両方で、潜在的な問題を示すアクティブなアラートがあるかどうかを確認します。アラートはノード間で常に共有されるとは限らないため、両方のノードを確認してください。  予期しない問題が発生した場合は、サポート ケースを提出します。常に両方のノードからサポート バンドルを生成します。
メモ:  ほとんどのアラートは、1つのノードでのみ表示されます。すべてのアラートがノード間で共有されるわけではありません。
 

アラートの例:

Severity   Class             Object   Message
   --------   ---------------   ------   ----------------------------------------------
CRITICAL      HardwareFailure            EVT-ENVIRONMENT-00049: The system detected an invalid hardware configuration.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
CRITICAL      HardwareFailure            EVT-ENVIRONMENT-00048: Filesystem can't be enabled due to an invalid hardware configuration.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING       HardwareFailure            Enclosure=1:Slot=5   EVT-ENVIRONMENT-00047: PCI communication speed is degraded
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING             HA                   EVT-HA-00003: Standby node time is off by 15 second(s).
--   ------------------------   --------   ---------------   ------   ----------------------------------------------
WARNING    HardwareFailure   Port Index=1   EVT-MPATH-00003: Missing disk connection from system port 6a.
--   ------------------------   --------   ---------------   ------   ----------------------------------------------

 

# ha status

アクティブ ノードとスタンバイ ノードでコマンド#ha statusを使用して、現在のHAステータスを確認できます。
ステータスが「highly available」の場合、フェールオーバーが有効になっています。
ステータスが「degraded」の場合、またはいずれかのノードが「online」状態を示していない場合は、ノード間のフェールオーバーが無効になっています。

 
SE@hostname-p0(active:0)## ha status
HA System name:hostname-n1.chaos.local
HA System status: highly available
 
Node Name                         Node id   Role      HA State
-------------------------------   -------   -------   --------
hostname-p0.chaos.local   0         active    online
hostname-p1.chaos.local   1         standby   online
-------------------------------   -------   -------   --------

# ha status detailed
HAステータスに関するより詳細な情報を得るには、アクティブ ノード上でのみ#ha status detailedコマンドを使用することができます。
[Mirroring Status]セクションに「not ok」と表示される以下の出力は、コンポーネントが機能していないことを示し、HAシステム ステータスは「degraded」と表示されます。
縮退状態になると、ノード間のフェールオーバーができなくなります。

メモ:このコマンドは、スタンバイ ノードでは使用できません。
 
SEhostname-p0(active:0)## ha status detailed
HA System name: hostname.chaos.local
HA System Status: highly available
Interconnect Status: ok
Primary Heartbeat Status:  ok
External LAN Heartbeat Status: not ok
Hardware compatibility check: ok
Software Version Check:   ok
 
Node hostname-p0.chaos.local:
        Role:      active
        HA State:  online
        Node Health: ok
 
Node hostname-p1.chaos.local:
        Role:     standby
        HA State: online
        Node Health: ok
 
Mirroring Status:
Component Name   Status
--------------   ------
nvram            ok
registry         ok
sms              ok
ddboost          ok
cifs             ok
--------------   ------


# enclosure show io-cards
両方のノードが同一で、サポートされている構成であることを確認します。


# enclosure show misconfiguration
アクティブ ノードとスタンバイ ノードから構成ミス テストを実行し、ハードウェア構成に問題がないか確認します。
参照KB
https://www.dell.com/support/kbdoc/en-us/463399

 
例:
Memory DIMMs:
Locator Bank Locator Size(GiB) Status
------- ------------ --------- ----------
CHCD1     7     0     missing
CHDD1     7     0     missing
CHAD0     4     8     wrong size
CHBD0     4     8     wrong size
IO Cards:
Slot   Device       Status
----   ----------   ---------
10     Hera NVRAM   extra
10     Hera NVRAM   misplaced
----   ----------   ---------
CPUs:
    No misconfiguration found.
Disks:
Slot   Size(GiB)   Type   Media   Status
----   ---------   ----   -----   -------
2      186         SATA   SSD     missing
----   ---------   ----   -----   -----
 
# enclosure show topology
両方のノードからトポロジーを確認します。
接続ポイント間にエラーがないことを確認し、
すべてのシェルフの番号付けが正しいことを確認します。
- エラーや障害は「?」、「!」、または「!!」でシンボル表示されます。
注:各ノードのトポロジー出力は、互いに反転している(ミラー イメージ)必要があります。
 
(Stdby:0)## enclosure show topology
Port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----   -   -------------   -   -------------   -   -------------   -   -------------
2a
2b
2c
2d     >    5.A.E: 5.A.H   ?   4.A.E: 4.A.H   >    3.A.E: 3.A.H   >    2.A.E: 2.A.H
3a
3b
3c
3d
6a     !!    2.B.E: 2.B.H   >    3.B.E: 3.B.H   >    5.B.E: 5.B.H   >    ?.B.E: ?.B.H
6b
6c
6d
----   -   -------------   -   -------------   -   -------------   -   -------------
 
(active:1)## enclosure show topology
Port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----   -   -------------   -   -------------   -   -------------   -   -------------
2a
2b
2c
2d   >    2.A.H: 2.A.E   >    3.A.H: 3.A.E   >    4.A.H: 4.A.E   >    5.A.H: 5.A.E
3a
3b
3c
3d
6a    >    5.B.H: 5.B.E   >    4.B.H: 4.B.E   >    3.B.H: 3.B.E   >    2.B.H: 2.B.E
6b
6c
6d
----   -   -------------   -   -------------   -   -------------   -   -------------
 
# enclosure test topology all duration 1
アクティブ ノードとスタンバイ ノードの両方から、外部ストレージが接続されているすべてのSAS HBAポートに対して1分間の診断テストを実行します。
両方のノードでトポロジー テストを同時に実行しないでください。
想定される結果は、ストレージが接続されている各ポートでエラーが検出されないことです。
問題が見つかった場合、SAS接続に障害があることを示すエラー メッセージが表示されてテストが停止することもあれば、特定の接続でエラー(? 、! )が表示されることもあります


注:トポロジー テスト中、個々のポートには、状態を示す個別の出力があります。エラー (? 、! )を探して、問題のある接続を特定します。  各ポート テストが完了するまで、CLI出力は表示されません。 
 
# enclosure test topology  
Started: 1471719316
Ended: 1471719498
Duration: 182
Port      enc.ctrl.port       enc.ctrl.port       enc.ctrl.port       enc.ctrl.port
----  -  ---------------  -  ---------------  -  ---------------  -  ---------------
2d    >    5.A.H:5.A.E    >    4.A.H:4.A.E    >    3.A.H:3.A.E    >    2.A.H:2.A.E
----  -  ---------------  -  ---------------  -  ---------------  -  ---------------
Error message:
-----------------
No error detected
-----------------

# system show nvram
アクティブ ノードとスタンバイ ノードの両方で、NVRAMバッテリーが充電済みまたは充電中であること、およびすべてのNVRAMエラー カウンターの値がゼロであることを確認します。
 
# system show nvram
NVRAM Cards:
        Card   Component                 Value
        ----   -----------------------   ----------------------------------------------------------------------
        1      Slot                      0
               Firmware version          0.0.80
               Memory size               7.93 GiB
               Errors                    0 memory (0 uncorrectable), 0 PCI, 0 controller
               Flash controller Errors   0 Cfg Err, 0 PANIC, 0 Bus Hang, 0 Bad Blk Warn, 0 Bkup Err, 0 Rstr Err
               Board temperature         37 C
               CPU temperature           47 C
               Number of batteries       1
        ----   -----------------------   ----------------------------------------------------------------------
NVRAM Batteries:
        Card   Battery   Status   Charge   Charging   Time To       Temperature   Voltage
                                           Status     Full Charge
        ----   -------   ------   ------   --------   -----------   -----------   -------
        1      1         ok       94 %     enabled    0 mins        34 C          4.016 V
        ----   -------   ------   ------   --------   -----------   -----------   -------

Resolution

さらにサポートが必要な場合は、契約しているサービス プロバイダーにお問い合わせください。

Additional Information

が連携しない場合があります。

Affected Products

Data Domain

Products

Data Domain, DD OS 6.0
Article Properties
Article Number: 000017861
Article Type: Solution
Last Modified: 05 Jul 2024
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.