Data Domain HA (DDHA)アプライアンスのヘルス チェック
Summary: この記事は、サービス イベント後に基本的なHAシステムのヘルス チェックを実行するためのガイダンスの提供を目的としています。Data Domainの高可用性(DDHA)構成は、使用するData Domainモデルによって異なります。
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
Data Domain高可用性システム(DDHA)は、ノード間でフェールオーバーするように設計されています。 スタンバイ ノードがアクティブ ノードに取って代わるために障害イベントを待機している(アクティブ - パッシブ)間は、アクティブ ノードのみが本番稼働状態です。
障害が発生した場合は、両方のDDHAノードが正常に作動していることを確認し、フェールオーバーを完了する必要があります。
この記事で詳しく説明されているCLIコマンドは、正常なフェールオーバーを妨げる可能性のある問題を明らかにするのに役立ちます。
このガイドは、チェックすべき主要な分野に分かれています。
# net show settings
ネットワーク ポートの設定は、#net show settingsコマンドを実行するノードによって異なります。DDHAシステム上の構成済みポートは、「フローティング」タイプまたは「固定」タイプです。 実行
アクティブ ノード:
ネットワーク接続を確認する
各ノードにリストされているIPを確認し、アクティブ ノードおよびスタンバイ ノードの各構成済みIPアドレスが、それぞれの構成済みゲートウェイにpingを実行できることを確認します。
注:一部のお客様は、環境内でping (ICMP)を無効にしています。 この場合、お客様と連携して接続を確認します。
(active:1)# net route show gateway detailed
構成済みの各ethxxでゲートウェイIPアドレスにpingを実行します。
# net troubleshooting duplicate-ip
両方のノードで、重複するIPを確認します
ファイバー チャネル テスト
これらの機能がライセンスされていることを確認し、これらの機能をテストして、完全に機能することを確認します(例:VTLへのテスト バックアップ操作の実行)
アクティブとスタンバイの両方からの自動サポートとアラートのテスト
ConnectEMC (Secure Remote Services)を使用してASUPSをData Domainに転送する場合は、次のコマンドを使用して両方のノードの接続を確認します。
タイムスタンプは、最後の接続がいつ確立されたかを示します。
HAファイルシステムのトラブルシューティング
# filesysのステータス
FSが有効で実行中であることを確認します。クリーニング ステータスも表示できます。
(アクティブ:1)#(スタンバイ:0)# システム アップグレード ステータス
両方のノードで、すべてのアップグレードが完了していることを確認します。
(アクティブ:1)#(スタンバイ:0)#日付
両方のノードで時刻と日付が10秒以内に一致していることを確認する
アクティブ ノードから、DDレプリケーション(構成されている場合)が想定どおりに作動していることをお客様に確認します。
障害が発生した場合は、両方のDDHAノードが正常に作動していることを確認し、フェールオーバーを完了する必要があります。
この記事で詳しく説明されているCLIコマンドは、正常なフェールオーバーを妨げる可能性のある問題を明らかにするのに役立ちます。
このガイドは、チェックすべき主要な分野に分かれています。
- HAのハードウェアと構成
- ネットワーク
- ファイルシステム
# net show settings
ネットワーク ポートの設定は、#net show settingsコマンドを実行するノードによって異なります。DDHAシステム上の構成済みポートは、「フローティング」タイプまたは「固定」タイプです。 実行
"net show settings"を両方のノードで実行し、出力を比較します。
- 「フローティング」インターフェイス: アクティブ ノードで有効かつ実行中の状態を表示する、構成済みのネットワーク カード(NIC)ポート、エイリアス、またはvethが、スタンバイ ノードでも同じ有効かつ実行中の状態であることを確認します。 構成済みのNICポート、エイリアス、またはVethがフローティング タイプに設定されている場合、アクティブ ノードにはIPアドレスが表示され、スタンバイ ノードには対応するN/Aが表示されると予想されます。
- 「固定」インターフェイス:「fixed」とタグ付けされた構成済みのNICポート、エイリアス、vethに「enabled and running state」と表示されていることを確認します。「固定」インターフェイスの構成はノード間で同一ではありません。
- HA相互接続(veth99)が表示され、必要なすべてのポートが有効で実行されていることを確認します。メモ: HA相互接続(veth99)に必要なポート接続の数とスロットの位置は、DDモデルによって異なります
アクティブ ノード:
# net show settings port enabled state DHCP IP address netmask type additional setting ------ ------- ------- ---- ------------------------------------ -------------- ------------ ----------------------------------------------- ethMa yes running no 10.25.18.50 255.255.255.0 fixed 2620:0:170:1608:260:16ff:fe5c:92bc** /64 fe80::260:16ff:fe5c:92bc** /64 ethMb no down ipv4 n/a n/a fixed ethMc no down ipv4 n/a n/a fixed ethMd no down ipv4 n/a n/a fixed eth4a yes running no 10.25.18.63 255.255.255.0 floating 2620:0:170:1608:260:16ff:fe51:8c60** /64 fe80::260:16ff:fe51:8c60** /64 eth4b no down no n/a n/a fixed eth4c no down no n/a n/a fixed eth4d no down no n/a n/a fixed eth5a no down no n/a n/a fixed eth5b yes running no 10.25.18.60 255.255.255.0 floating 2620:0:170:1608:260:16ff:fe52:2951** /64 fe80::260:16ff:fe52:2951** /64 eth5c no down no n/a n/a fixed eth5d no down no n/a n/a fixed eth11a yes running n/a n/a n/a interconnect bonded to veth99 eth11b yes running n/a n/a n/a interconnect bonded to veth99 eth11c yes running n/a n/a n/a interconnect bonded to veth99 eth11d yes running n/a n/a n/a interconnect bonded to veth99 veth99 yes running no d:d:d:d:d:0060:1652:0ecc /80 interconnect lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d fe80::260:16ff:fe52:ecc** /64 ------ ------- ------- ---- ------------------------------------ -------------- ------------ -----------------------------------------------スタンバイ ノード:
# net show settings port enabled state DHCP IP address netmask type additional setting ------ ------- ------- ---- ------------------------------------ -------------- ------------ ----------------------------------------------- ethMa yes running no 10.25.18.49 255.255.255.0 fixed 2620:0:170:14567:260:16ff:fe5c:dr3** /64 fe80::260:16ff:fe5c3457c** /64 ethMb no down ipv4 n/a n/a fixed ethMc no down ipv4 n/a n/a fixed ethMd no down ipv4 n/a n/a fixed eth4a yes running no n/a 255.255.255.0 floating 2620:0:170:1608:260:1ght6:fe51:4570** /64 fe80::260:16ff:fe51:7890** /64 eth4b no down no n/a n/a fixed eth4c no down no n/a n/a fixed eth4d no down no n/a n/a fixed eth5a no down no n/a n/a fixed eth5b yes running no n/a 255.255.255.0 floating 2620:0:170:160:456:16ff:fe5234561** /64 fe80::260:16ff:fe52:3456** /64 eth5c no down no n/a n/a fixed eth5d no down no n/a n/a fixed eth11a yes running n/a n/a n/a interconnect bonded to veth99 eth11b yes running n/a n/a n/a interconnect bonded to veth99 eth11c yes running n/a n/a n/a interconnect bonded to veth99 eth11d yes running n/a n/a n/a interconnect bonded to veth99 veth99 yes running no d:d:d:d:d:0e456:1652:dft4c /80 interconnect lacp hash xor-L3L4: eth11a,eth11b,eth11c,eth11d fe80::264:16ff:fec2:ecb** /64 ------ ------- ------- ---- ------------------------------------ -------------- ------------ -----------------------------------------------
ネットワーク接続を確認する
各ノードにリストされているIPを確認し、アクティブ ノードおよびスタンバイ ノードの各構成済みIPアドレスが、それぞれの構成済みゲートウェイにpingを実行できることを確認します。
注:一部のお客様は、環境内でping (ICMP)を無効にしています。 この場合、お客様と連携して接続を確認します。
(active:1)# net route show gateway detailed
IPv4 Default Gateways gateway IP source tables interface address owner ---------- ------ ------ ----------------- ----- 10.25.18.1 static tethMa 10.25.18.50/24 none 10.25.18.1 static teth4a 10.25.18.63/24 none 10.25.18.1 static teth5b 10.25.18.60/24 none ---------- ------ ------ ----------------- -----
構成済みの各ethxxでゲートウェイIPアドレスにpingを実行します。
#(active:1)# ping 10.25.18.1 interface ethMa PING 10.25.18.1 (10.25.18.1) from 10.25.18.50 ethMa: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=0.697 ms (active:1)# ping 10.25.18.1 interface eth4a PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms (active:1)# ping 10.25.18.1 interface eth5b PING 10.25.18.1 (10.25.18.1) from 10.25.18.63 eth4a: 56(84) bytes of data. 64 bytes from 10.25.18.1: icmp_seq=0 ttl=255 time=1.31 ms
# net troubleshooting duplicate-ip
両方のノードで、重複するIPを確認します
No duplicate IP addresses detected
ファイバー チャネル テスト
これらの機能がライセンスされていることを確認し、これらの機能をテストして、完全に機能することを確認します(例:VTLへのテスト バックアップ操作の実行)
# license show or # elicense show ## License Key Feature -- ------------------- ---------------------------------------- 1 WTXV-TSWX-HWDR-RHDX VTL 2 EZXW-SZZF-BGCS-VRZX Block services (Vdisk) 3 .... HA
アクティブとスタンバイの両方からの自動サポートとアラートのテスト
(active:1)## autosupport test alert-summary OK: Message sent. (active:1)## autosupport test support-notify OK: Message sent. (standby:0)# autosupport test alert-summary OK: Message sent. (standby:0)# autosupport test support-notify OK: Message sent.
ConnectEMC (Secure Remote Services)を使用してASUPSをData Domainに転送する場合は、次のコマンドを使用して両方のノードの接続を確認します。
タイムスタンプは、最後の接続がいつ確立されたかを示します。
sysadmin@hostname# support connectemc show history File Time Transport Result --------------------------------------- --------------------- --------- -------- RSC_CKM00XXX601153_120315_092804166.xml "2015-12-03 09:28:07" HTTP Success RSC_CKM00XXX601153_120315_101257767.xml "2015-12-03 10:13:00" HTTP Success RSC_CKM00XXX601153_120315_111649065.xml "2015-12-03 11:16:53" HTTP Success --------------------------------------- --------------------- --------- -------- Note: It says HTTP above, but it is HTTPS
HAファイルシステムのトラブルシューティング
# filesysのステータス
FSが有効で実行中であることを確認します。クリーニング ステータスも表示できます。
The filesystem is enabled and running. Cleaning started at 2016/08/20 14:12:16: phase 1 of 12 (pre-merge) 0.7% complete, 95911 GiB free; time: phase 0:00:09, total 0:00:09
(アクティブ:1)#(スタンバイ:0)# システム アップグレード ステータス
両方のノードで、すべてのアップグレードが完了していることを確認します。
Current Upgrade Status: DD OS upgrade Succeeded End time: 2016.08.20:13:27
(アクティブ:1)#(スタンバイ:0)#日付
両方のノードで時刻と日付が10秒以内に一致していることを確認する
-p1(active:1)# date Sat Aug 20 14:34:29 EDT 2016 -p0(standby:0)# date Sat Aug 20 14:34:17 EDT 2016
アクティブ ノードから、DDレプリケーション(構成されている場合)が想定どおりに作動していることをお客様に確認します。
# replication status CTX Destination Enabled Connection Sync'ed-as-of-time --- --------------------------------------------------------- ------- ---------------- ------------------ 3 mtree://ddxxx.com/data/col1/eric.dest no idle Fri Nov 6 15:16 4 mtree://ddxxx.com/data/col1/thy-repl yes idle Fri Jul 22 15:38 5 dir://ddxxxx.com/backup/replicate-rtp yes disconnected Fri Jul 22 14:55 6 mtree://ddxxxx.com/data/col1/theman_test yes idle Sat Aug 20 22:11 7 dir://ddxxx.com/backup/lakeland/sym yes Sat Aug 20 13:15 Fri Aug 19 15:09 --- --------------------------------------------------------- ------- ---------------- ----------------
Cause
HAのハードウェアと構成
アクティブ ノードとスタンバイ ノードの両方で、潜在的な問題を示すアクティブなアラートがあるかどうかを確認します。アラートはノード間で常に共有されるとは限らないため、両方のノードを確認してください。 予期しない問題が発生した場合は、サポート ケースを提出します。常に両方のノードからサポート バンドルを生成します。
メモ: ほとんどのアラートは、1つのノードでのみ表示されます。すべてのアラートがノード間で共有されるわけではありません。
ステータスが「highly available」の場合、フェールオーバーが有効になっています。
ステータスが「degraded」の場合、またはいずれかのノードが「online」状態を示していない場合は、ノード間のフェールオーバーが無効になっています。
# ha status detailed
HAステータスに関するより詳細な情報を得るには、アクティブ ノード上でのみ#ha status detailedコマンドを使用することができます。
[Mirroring Status]セクションに「not ok」と表示される以下の出力は、コンポーネントが機能していないことを示し、HAシステム ステータスは「degraded」と表示されます。
縮退状態になると、ノード間のフェールオーバーができなくなります。
メモ:このコマンドは、スタンバイ ノードでは使用できません。
# enclosure show io-cards
両方のノードが同一で、サポートされている構成であることを確認します。
# enclosure show misconfiguration
アクティブ ノードとスタンバイ ノードから構成ミス テストを実行し、ハードウェア構成に問題がないか確認します。
参照KB https://www.dell.com/support/kbdoc/en-us/463399
例:
# enclosure show topology
両方のノードからトポロジーを確認します。
接続ポイント間にエラーがないことを確認し、すべてのシェルフの番号付けが正しいことを確認します。
# enclosure test topology all duration 1
アクティブ ノードとスタンバイ ノードの両方から、外部ストレージが接続されているすべてのSAS HBAポートに対して1分間の診断テストを実行します。
両方のノードでトポロジー テストを同時に実行しないでください。
想定される結果は、ストレージが接続されている各ポートでエラーが検出されないことです。
問題が見つかった場合、SAS接続に障害があることを示すエラー メッセージが表示されてテストが停止することもあれば、特定の接続でエラー(? 、! )が表示されることもあります。
注:トポロジー テスト中、個々のポートには、状態を示す個別の出力があります。エラー (? 、! )を探して、問題のある接続を特定します。 各ポート テストが完了するまで、CLI出力は表示されません。
# system show nvram
アクティブ ノードとスタンバイ ノードの両方で、NVRAMバッテリーが充電済みまたは充電中であること、およびすべてのNVRAMエラー カウンターの値がゼロであることを確認します。
# alerts show current
アクティブ ノードとスタンバイ ノードの両方で、潜在的な問題を示すアクティブなアラートがあるかどうかを確認します。アラートはノード間で常に共有されるとは限らないため、両方のノードを確認してください。 予期しない問題が発生した場合は、サポート ケースを提出します。常に両方のノードからサポート バンドルを生成します。
メモ: ほとんどのアラートは、1つのノードでのみ表示されます。すべてのアラートがノード間で共有されるわけではありません。
アラートの例:
Severity Class Object Message -------- --------------- ------ ---------------------------------------------- CRITICAL HardwareFailure EVT-ENVIRONMENT-00049: The system detected an invalid hardware configuration. -- ------------------------ -------- --------------- ------ ---------------------------------------------- CRITICAL HardwareFailure EVT-ENVIRONMENT-00048: Filesystem can't be enabled due to an invalid hardware configuration. -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HardwareFailure Enclosure=1:Slot=5 EVT-ENVIRONMENT-00047: PCI communication speed is degraded -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HA EVT-HA-00003: Standby node time is off by 15 second(s). -- ------------------------ -------- --------------- ------ ---------------------------------------------- WARNING HardwareFailure Port Index=1 EVT-MPATH-00003: Missing disk connection from system port 6a. -- ------------------------ -------- --------------- ------ ----------------------------------------------
# ha status
アクティブ ノードとスタンバイ ノードでコマンド#ha statusを使用して、現在のHAステータスを確認できます。ステータスが「highly available」の場合、フェールオーバーが有効になっています。
ステータスが「degraded」の場合、またはいずれかのノードが「online」状態を示していない場合は、ノード間のフェールオーバーが無効になっています。
SE@hostname-p0(active:0)## ha status HA System name:hostname-n1.chaos.local HA System status: highly available Node Name Node id Role HA State ------------------------------- ------- ------- -------- hostname-p0.chaos.local 0 active online hostname-p1.chaos.local 1 standby online ------------------------------- ------- ------- --------
# ha status detailed
HAステータスに関するより詳細な情報を得るには、アクティブ ノード上でのみ#ha status detailedコマンドを使用することができます。
[Mirroring Status]セクションに「not ok」と表示される以下の出力は、コンポーネントが機能していないことを示し、HAシステム ステータスは「degraded」と表示されます。
縮退状態になると、ノード間のフェールオーバーができなくなります。
メモ:このコマンドは、スタンバイ ノードでは使用できません。
SEhostname-p0(active:0)## ha status detailed HA System name: hostname.chaos.local HA System Status: highly available Interconnect Status: ok Primary Heartbeat Status: ok External LAN Heartbeat Status: not ok Hardware compatibility check: ok Software Version Check: ok Node hostname-p0.chaos.local: Role: active HA State: online Node Health: ok Node hostname-p1.chaos.local: Role: standby HA State: online Node Health: ok Mirroring Status: Component Name Status -------------- ------ nvram ok registry ok sms ok ddboost ok cifs ok -------------- ------
# enclosure show io-cards
両方のノードが同一で、サポートされている構成であることを確認します。
# enclosure show misconfiguration
アクティブ ノードとスタンバイ ノードから構成ミス テストを実行し、ハードウェア構成に問題がないか確認します。
参照KB https://www.dell.com/support/kbdoc/en-us/463399
例:
Memory DIMMs: Locator Bank Locator Size(GiB) Status ------- ------------ --------- ---------- CHCD1 7 0 missing CHDD1 7 0 missing CHAD0 4 8 wrong size CHBD0 4 8 wrong size IO Cards: Slot Device Status ---- ---------- --------- 10 Hera NVRAM extra 10 Hera NVRAM misplaced ---- ---------- --------- CPUs: No misconfiguration found. Disks: Slot Size(GiB) Type Media Status ---- --------- ---- ----- ------- 2 186 SATA SSD missing ---- --------- ---- ----- -----
# enclosure show topology
両方のノードからトポロジーを確認します。
接続ポイント間にエラーがないことを確認し、すべてのシェルフの番号付けが正しいことを確認します。
- エラーや障害は「?」、「!」、または「!!」でシンボル表示されます。
注:各ノードのトポロジー出力は、互いに反転している(ミラー イメージ)必要があります。
(Stdby:0)## enclosure show topology
Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port
---- - ------------- - ------------- - ------------- - -------------
2a
2b
2c
2d > 5.A.E: 5.A.H ? 4.A.E: 4.A.H > 3.A.E: 3.A.H > 2.A.E: 2.A.H
3a
3b
3c
3d
6a !! 2.B.E: 2.B.H > 3.B.E: 3.B.H > 5.B.E: 5.B.H > ?.B.E: ?.B.H
6b
6c
6d
---- - ------------- - ------------- - ------------- - -------------
(active:1)## enclosure show topology
Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port
---- - ------------- - ------------- - ------------- - -------------
2a
2b
2c
2d > 2.A.H: 2.A.E > 3.A.H: 3.A.E > 4.A.H: 4.A.E > 5.A.H: 5.A.E
3a
3b
3c
3d
6a > 5.B.H: 5.B.E > 4.B.H: 4.B.E > 3.B.H: 3.B.E > 2.B.H: 2.B.E
6b
6c
6d
---- - ------------- - ------------- - ------------- - -------------
# enclosure test topology all duration 1
アクティブ ノードとスタンバイ ノードの両方から、外部ストレージが接続されているすべてのSAS HBAポートに対して1分間の診断テストを実行します。
両方のノードでトポロジー テストを同時に実行しないでください。
想定される結果は、ストレージが接続されている各ポートでエラーが検出されないことです。
問題が見つかった場合、SAS接続に障害があることを示すエラー メッセージが表示されてテストが停止することもあれば、特定の接続でエラー(? 、! )が表示されることもあります。
注:トポロジー テスト中、個々のポートには、状態を示す個別の出力があります。エラー (? 、! )を探して、問題のある接続を特定します。 各ポート テストが完了するまで、CLI出力は表示されません。
# enclosure test topology Started: 1471719316 Ended: 1471719498 Duration: 182 Port enc.ctrl.port enc.ctrl.port enc.ctrl.port enc.ctrl.port ---- - --------------- - --------------- - --------------- - --------------- 2d > 5.A.H:5.A.E > 4.A.H:4.A.E > 3.A.H:3.A.E > 2.A.H:2.A.E ---- - --------------- - --------------- - --------------- - --------------- Error message: ----------------- No error detected -----------------
# system show nvram
アクティブ ノードとスタンバイ ノードの両方で、NVRAMバッテリーが充電済みまたは充電中であること、およびすべてのNVRAMエラー カウンターの値がゼロであることを確認します。
# system show nvram NVRAM Cards: Card Component Value ---- ----------------------- ---------------------------------------------------------------------- 1 Slot 0 Firmware version 0.0.80 Memory size 7.93 GiB Errors 0 memory (0 uncorrectable), 0 PCI, 0 controller Flash controller Errors 0 Cfg Err, 0 PANIC, 0 Bus Hang, 0 Bad Blk Warn, 0 Bkup Err, 0 Rstr Err Board temperature 37 C CPU temperature 47 C Number of batteries 1 ---- ----------------------- ---------------------------------------------------------------------- NVRAM Batteries: Card Battery Status Charge Charging Time To Temperature Voltage Status Full Charge ---- ------- ------ ------ -------- ----------- ----------- ------- 1 1 ok 94 % enabled 0 mins 34 C 4.016 V ---- ------- ------ ------ -------- ----------- ----------- -------
Resolution
さらにサポートが必要な場合は、契約しているサービス プロバイダーにお問い合わせください。
Additional Information
が連携しない場合があります。
Affected Products
Data DomainProducts
Data Domain, DD OS 6.0Article Properties
Article Number: 000017861
Article Type: Solution
Last Modified: 05 Jul 2024
Version: 3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.