DataDomain:高可用性(HA)システムでのOSアップグレード ガイド
摘要: Data Domain「高可用性」(DDHA)アプライアンスにおける、Data Domain Operation System (DDOS)のアップグレード プロセスに関する概要。
说明
計画的メンテナンスによるダウンタイムを削減するために、HAアーキテクチャにはシステム ローリング アップグレードが含まれています。ローリング アップグレードでは、最初にスタンバイ ノードをアップグレードしてから、予想されるHAフェールオーバーを使用して、サービスをアクティブ ノードからスタンバイ ノードに移動することができます。最後に、以前のアクティブ ノードがアップグレードされ、スタンバイ ノードとしてHAクラスターに再度追加されます。すべてのプロセスが1つのコマンドで実行される。
別の手動アップグレード アプローチは、「ローカル アップグレード」です。最初にスタンバイ ノードを手動でアップグレードしてから、アクティブ ノードを手動でアップグレードします。 最後に、スタンバイ ノードがHAクラスターに再度追加されます。ローカル アップグレードは、通常のアップグレードまたは問題の修正のいずれかの場合に実行できます。
アクティブ ノードにおけるすべてのシステム アップグレード操作でデータ変換が必要な場合、両方のシステムが同じレベルにアップグレードされ、HA状態が完全に復元されるまで、開始できない場合があります。
DDOS 5.7以降では、HAシステムの次の2種類のアップグレード方法がサポートされています。
-
ローリング アップグレード:1つのコマンドで両方のHAノードを自動的にアップグレードします。アップグレード後、サービスは他のノードに移動します。
-
ローカルアップグレード:HAノードを1つずつ手動でアップグレードします。サービスはアップグレード後も同じノードに保持されます。
アップグレードのためのシステムの準備:
-
HAシステムのステータスが「高可用性」であることを確認します。
GUIにログインして、[Home]>[Dashboard]に移動します。
- DDOS RPMファイルをアクティブノードに配置し、アップグレードをこのノードから開始する必要があります。
GUIにログインして、[Home]>[Dashboard]に移動します。
- アクティブ ノードへのRPMファイルのアップロード
アップロード後、RPMファイルが一覧表示されます。
- アクティブ ノードで事前チェックを実行してください。エラーが発生した場合は、アップグレードを中止する必要があります。
また、アップグレードを開始する前に、GC、データ移動、レプリケーション無効にして(手順6)、これらのジョブによりアップグレード中にDDFSシャットダウンの時間が長くならないようにしてください。DDFSシャットダウンの時間を短縮することで、クライアントへの影響を最小限に抑えることができます。これらのワークロードは、クライアントのバックアップ/リストア操作には影響しません。
必要に応じて、アップグレードが完了した後、対応する 有効化コマンドを使用して、これらのサービスを再開できます。詳細については、管理ガイドを参照してください。
HAシステムには、厳密には必要ない手動チェックとコマンドが管理ガイドに記載されています。現在、シングル ノード システムのテストとして再起動前のテストが推奨されています。ただし、以下の#5「HAフェールオーバー」には、フェールオーバー プロセス中の自動再起動がすでに含まれているため、HAシステムでは再起動は必要ありません。
- オプション。ローリング アップグレードを実行する前に、アクティブ ノードでHAフェールオーバーを手動で2回実行することをお勧めします。これを行う目的は、フェールオーバー機能をテストするためです。この操作により、アクティブ ノードが再起動されますので注意してください。
まず、GC、データ移動、レプリケーションを無効にして、フェールオーバーの準備をします。GUIを使用して実行する方法については、管理ガイドを参照してください。これらのサービスは、クライアントのバックアップ/リストア ワークロードには影響しません。次に、「HAフェールオーバー」に進みます。

(HAシステムのステータスが再び「highly available」になったら、2回目の「HAフェールオーバー」を実行し、両方のノードがオンラインになるまで待ちます)。
HAフェールオーバー後、停止したサービスは、対応する有効化コマンドを使用して再開できます。詳細については、管理ガイドを参照してください。
上記のフェールオーバー テストはオプションであり、アップグレードの直前に実行する必要はありません。フェールオーバー テストは、アップグレードの前に(2週間前など)実行できるため、後のアップグレードではメンテナンス期間を短縮できます。DDFSサービスのフェイルオーバーのダウンタイムは、10分程度です(DDoSバージョンやその他の要因によっては、短縮または延長される場合があります)。DDOSバージョン7.4以降では、継続的なDDOS SWの機能拡張により、リリースごとのダウンタイムが短縮されます。
- 問題なく事前チェックが完了した場合は、アクティブ ノードでローリング アップグレードを続行します。
- ローリング アップデートが完了するまで待ちます。その前に、HAフェールオーバー操作をトリガーしないでください。
上記のコマンドの実行中におけるDDFSの可用性:
-
最初にスタンバイ ノードをアップグレードし、新しいバージョンに再起動します。様々な要因にもよりますが、20分から30分程度かかります。この期間中、パフォーマンスの低下なしに、アクティブ ノード上でDDFSサービスが稼働しています。
-
新しいDDOSが適用されると、システムはDDFSサービスをアップグレードされたスタンバイ ノードにフェールオーバーします。所要時間は約10分です(時間は様々な要因により前後します)。
-
重要な要因の1つは、DAE FWのアップグレードです。構成されているDAEの数によっては、ダウンタイムが約20分増加する場合があります。DAE FWアップグレードが必要かどうかを判断する方法については、ナレッジベース記事「Data Domain:外部エンクロージャ ファームウェアのアップグレードでHAローリング アップグレードが失敗することがある(英語)」を参照してください。DDOS 7.5以降では、オンライン アップグレードDAE FWを有効にするための機能拡張が行われ、この懸念が解消されていることに注意してください。
-
アップグレード時間に影響を与える可能性のある要因については、Dellサポートにご相談ください。クライアントOS、アプリケーション、クライアントとHAシステム間のプロトコルによっては、フェールオーバー後すぐにクライアント ワークロードを手動で再開する必要がある場合があります。例えば、DDBoostクライアントを使用していて、フェールオーバー時間が10分を超える場合、クライアントのタイムアウトが発生し、ユーザーはワークロードを手動で再開する必要があります。ただし、クライアントでは通常、タイムアウト値と再試行回数を設定するための調整が可能です。
-
フェールオーバー期間中は、DDFSサービスがダウンしていることに注意してください。アップグレードされたノードで「filesys status」コマンドの出力を監視することで、このDDFSサービスが再開されたかどうかを確認できます。7.4以降のDDOSバージョンでは、DDOSコードの拡張により、ダウンタイムがますます減少することが予想されています。
フェールオーバー後、以前アクティブだったノードがアップグレードされる。 アップグレードが適用されると、新しいバージョンで再起動し、スタンバイノードとしてHAクラスターに再参加します。前述の#IIで既に再開されているDDFSサービスは、このプロセス中には影響を受けません。
確認:
- ローリング アップグレードが完了した後、スタンバイ前ノードのIPアドレスを介してGUIにログインする必要があります。この場合は「node1」です。
- 予期しないアラートがないか確認してください。
- この時点で、ローリング アップグレードは正常に完了しています。
CLIを使用したローリング アップグレード:
アップグレードのためのシステムの準備:
- HAシステムのステータスが「高可用性」であることを確認してください。
#ha status
HA System name: HA-system
HA System status: highly available ç
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node0 0 active online
Node1 1 standby online
----------------------------- ------- ------- --------
- DDOS RPMファイルをアクティブノードに配置し、アップグレードをこのノードから開始する必要があります。
#ha status
HA System name: HA-system
HA System status: highly available
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node0 0 active online ß Node0 is active node
Node1 1 standby online
----------------------------- ------- ------- --------
- アクティブ ノードへのRPMファイルのアップロード
Client-server # scp <rpm file> sysadmin@HA-system.active_node:/ddr/var/releases/
Password: (customer defined it.)
(From client server, target path is “/ddr/var/releases”)
Active-node # system package list
File Size (KiB) Type Class Name Version ------------------ ---------- ------ ---------- ----- ------- x.x.x.x-12345.rpm 2927007.3 System Production DD OS x.x.x.x ------------------ ---------- ------ ---------- ----- -------
- アクティブ ノードで事前チェックを実行してください。エラーが発生した場合は、アップグレードを中止する必要があります。
Active-node # system upgrade precheck <rpm file>
Upgrade precheck in progress:
Node 0: phase 1/1 (Precheck 100%) , Node 1: phase 1/1 (Precheck 100%)
Upgrade precheck found no issues.
また、アップグレードを開始する前に、GC、データ移動、レプリケーションを無効にして(手順6)、これらのジョブによりアップグレード中にDDFSシャットダウンの時間が長くならないようにしてください。DDFSシャットダウンの時間を短縮することで、クライアントへの影響を最小限に抑えることができます。これらのワークロードは、クライアントのバックアップ/リストア操作には影響ありません。これらのサービスは必要に応じて、対応するイネーブルメントコマンドを使用してアップグレードが完了した後に再開できます。詳細については、ログ ファイルを参照してください。
Active-node # filesys clean stop
Active-node # cloud clean stop
Active-node # data-movement suspend
Active-node # data-movement stop to-tier active
Active-node # replication disable all
上記の操作が行われたかどうかを確認するための「監視」コマンドがいくつかあることに注意してください。
Active-node # filesys clean watch
Active-node # cloud clean watch
Active-node # data-movement watch
HAシステムには、厳密には必要ない手動チェックとコマンドが管理ガイドに記載されています。現在、シングル ノード システムのテストとして再起動前のテストが推奨されています。ただし、以下の#5「HAフェールオーバー」には、フェールオーバー プロセス中の自動再起動がすでに含まれているため、HAシステムでは再起動は必要ありません。
- オプション。ローリング アップグレードを実行する前に、アクティブ ノードでHAフェールオーバーを手動で2回実行することをお勧めします。これを行う目的は、フェールオーバー機能をテストするためです。この操作により、アクティブ ノードが再起動されますので注意してください。
まず、GC、データ移動、レプリケーションを無効にして、フェールオーバーの準備をします。これらのサービスは、クライアントのバックアップ/リストア ワークロードには影響しません。次に、「HAフェールオーバー」を実行します。
これを実行するコマンドは次のとおりです。
Active-node # filesys clean stop
Active-node # cloud clean stop
Active-node # data-movement suspend
Active-node # data-movement stop to-tier active
Active-node # replication disable all
上記の操作が行われたかどうかを確認するための「監視」コマンドがいくつかあることに注意してください。
Active-node # filesys clean watch
Active-node # cloud clean watch
Active-node # data-movement watch
次に、フェールオーバー コマンドを実行します。
Active-node # ha failoverこの操作により、このノードからフェールオーバーが開始されます。ローカル ノードが再起動します。
Do you want to proceed? (yes|no) [no]: yes
Failover operation initiated. Run 'ha status' to monitor the status
(HAシステムのステータスが再び「highly available」になったら、2回目の「HAフェールオーバー」を実行し、両方のノードがオンラインになるまで待機します)。
HAフェールオーバー後、停止したサービスは、対応する有効化コマンドを使用して再開できます。詳細については管理ガイドを参照してください。
上記のフェールオーバー テストはオプションであり、アップグレードの直前に実行する必要はありません。フェールオーバー テストは、アップグレードの前に(2週間前など)実行できるため、後のアップグレードではメンテナンス期間を短縮できます。DDFSサービスのフェイルオーバーのダウンタイムは、10分程度です(DDoSバージョンやその他の要因によっては前後します)。DDOSバージョン7.4以降では、継続的なDDOS SWの機能拡張により、リリースごとにダウンタイムが短くなります。
- 問題なく事前チェックが完了した場合は、アクティブ ノードでローリング アップグレードを続行します。
Active-node # system upgrade start <rpm file> 「system upgrade」コマンドは、Data Domain OSをアップグレードします。 アップグレード中は、ファイル アクセス
が中断されます。 アップグレード後、システムは自動的に再起動します。
Are you sure? (yes|no) [no]: yes ok, proceeding. Upgrade in progress: Node Severity Issue Solution ---- -------- ------------------------------ -------- 0 WARNING 1 component precheck script(s) failed to complete 0 INFO Upgrade time est: 60 mins 1 WARNING 1 component precheck script(s) failed to complete 1 INFO Upgrade time est: 80 mins ---- -------- ------------------------------ -------- Node 0: phase 2/4 (Install 0%) , Node 1: phase 1/4 (Precheck 100%) Upgrade phase status legend: DU : Data Upgrade FO : Failover .. PC : Peer Confirmation VA : Volume Assembly Node 0: phase 3/4 (Reboot 0%) , Node 1: phase 4/4 (Finalize 5%) FO Upgrade has started. System will reboot.
上記のコマンドの実行中におけるDDFSの可用性:
-
最初にスタンバイ ノードをアップグレードし、新しいバージョンに再起動します。様々な要因にもよりますが、20分から30分程度かかります。この期間中、パフォーマンスの低下なしに、アクティブ ノード上でDDFSサービスが稼働しています。
-
新しいDDOSが適用されると、システムはDDFSサービスをアップグレードされたスタンバイ ノードにフェールオーバーします。所要時間は約10分です(時間は様々な要因により前後します)。
-
重要な要因の1つは、DAE FWのアップグレードです。構成されているDAEの数によっては、ダウンタイムが約20分増加する場合があります。DAE FWアップグレードが必要かどうかを判断する方法については、ナレッジベース記事「Data Domain:外部エンクロージャ ファームウェアのアップグレードでHAローリング アップグレードが失敗することがある(英語)」を参照してください。DDOS 7.5以降では、オンライン アップグレードDAE FWを有効にするための機能拡張が行われ、この懸念が解消されていることに注意してください。
-
アップグレード時間に影響を与える可能性のある要因については、Dellサポートにご相談ください。クライアントOS、アプリケーション、クライアントとHAシステム間のプロトコルによっては、フェールオーバー後すぐにクライアント ワークロードを手動で再開する必要がある場合があります。例えば、DDBoostクライアントを使用していて、フェールオーバー時間が10分を超える場合、クライアントのタイムアウトが発生し、ユーザーはワークロードを手動で再開する必要があります。ただし、クライアントでは通常、タイムアウト値と再試行時間を設定するための調整可能な設定が用意されています。
-
-
フェールオーバー後、以前アクティブだったノードがアップグレードされる。 アップグレードが適用されると、新しいバージョンで再起動し、スタンバイノードとしてHAクラスターに再参加します。前述の#IIで既に再開されているDDFSサービスは、このプロセス中には影響を受けません。
- スタンバイ ノード(node1)が再起動し、アクセス可能になった後、スタンバイ ノードにログインすると、アップグレードのステータス/進行状況を監視できます。
Node1 # system upgrade status
Current Upgrade Status: DD OS upgrade In Progress
Node 0: phase 3/4 (Reboot 0%)
Node 1: phase 4/4 (Finalize 100%) waiting for peer confirmation
- ローリング アップデートが完了するまで待ちます。その前に、HAフェールオーバー操作をトリガーしないでください。
Node1 # system upgrade status
Current Upgrade Status: DD OS upgrade Succeeded
End time: 20xx.xx.xx:xx:xx
- HAステータスを確認し、両方のノードがオンラインで、HAシステム ステータスが「highly available」であることを確認してください。
Node1 # ha status detailed
HA System name: HA-system
HA System Status: highly available
Interconnect Status: ok
Primary Heartbeat Status: ok
External LAN Heartbeat Status: ok
Hardware compatibility check: ok
Software Version Check: ok
Node Node1:
Role: active
HA State: online
Node Health: ok
Node Node0:
Role: standby
HA State: online
Node Health: ok
Mirroring Status:
Component Name Status
-------------- ------
nvram ok
registry ok
sms ok
ddboost ok
cifs ok
-------------- ------
確認:
- 両方のノードのDDOSバージョンが同じであることを確認してください。
Node1 # system show version
Data Domain OS x.x.x.x-12345
Node0 # system show version
Data Domain OS x.x.x.x-12345
- 予期しないアラートがないか確認してください。
Node1 # alert show current
Node0 # alert show current
- この時点で、ローリング アップグレードは正常に完了しています。
注:アップグレードで問題が発生した場合は、Data Domainサポートにお問い合わせの上、詳細な手順とサポートを受けてください。
DDHAペアのローカル アップグレード:
ローカル アップグレードは、概ね次のように機能します。
アップグレードのためのシステムの準備:
- HAシステム ステータスを確認します。ステータスが「degraded」であっても、ローカル アップグレードはこの状況で動作する可能性があります。
#ha status HA System name: HA-system HA System status: highly available <- Node Name Node id Role HA State ----------------------------- ------- ------- -------- Node0 0 active online Node1 1 standby online ----------------------------- ------- ------- --------
- DDOS RPMファイルを両方のノードに配置し、アップグレードをスタンバイ ノードから開始する必要があります。
#ha status
HA System name: HA-system
HA System status: highly available
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node0 0 active online
Node1 1 standby online <- Node1 is standby node
----------------------------- ------- ------- --------
- RPMファイルを両方のノードにアップロードします。
Client-server # scp <rpm file> sysadmin@HA- system.active_node:/ddr/var/releases/
Client-server # scp <rpm file> sysadmin@HA-system.standby_node:/ddr/var/releases/
Password: (customer defined it.)
(From client server, target path is “/ddr/var/releases”)
Active-node # system package list File Size (KiB) Type Class Name Version ------------------ ---------- ------ ---------- ----- ------- x.x.x.x-12345.rpm 2927007.3 System Production DD OS x.x.x.x ------------------ ---------- ------ ---------- ----- ------ Standby-node # system package list File Size (KiB) Type Class Name Version ------------------ ---------- ------ ---------- ----- ------- x.x.x.x-12345.rpm 2927007.3 System Production DD OS x.x.x.x ------------------ ---------- ------ ---------- ----- ------
- HAステータスが「highly available」の場合は、アクティブ ノードで事前チェックを実行してください。エラーが発生した場合は、アップグレードを中止する必要があります。
Active-node # system upgrade precheck <rpm file>
Upgrade precheck in progress: Node 0: phase 1/1 (Precheck 100%) , Node 1: phase 1/1 (Precheck 100%) Upgrade precheck found no issues.
HAステータスが「degraded」の場合は、両方のノードで事前チェックを行う必要があります。
Active-node # system upgrade precheck <rpm file> local
Upgrade precheck in progress:
Node 0: phase 1/1 (Precheck 100%)
Upgrade precheck found no issues.
Standby-node # system upgrade precheck <rpm file> local
Upgrade precheck in progress:
Node 1: phase 1/1 (Precheck 100%)
Upgrade precheck found no issues.
- スタンバイ ノードをオフラインにします。
Standby-node # ha offline
This operation will cause the ha system to no longer be highly available.
Do you want to proceed? (yes|no) [no]: yes
Standby node is now offline.
(メモ:オフライン操作に失敗した場合、またはHAステータスが「degraded」の場合は、ローカル アップグレードを続行してください。以降の手順で障害が処理される可能性があります)。
- スタンバイ ノードのステータスがオフラインであることを確認します。
Standby-node # ha status
HA System name: HA-system
HA System status: degraded
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node1 1 standby offline
Node0 0 active degraded
----------------------------- ------- ------- --------
- スタンバイ ノードでアップグレードを実行します。この操作により、スタンバイ ノードの再起動が行われます。
The 'system upgrade' command upgrades the Data Domain OS. アップグレード中は、ファイル アクセス
が中断されます。 アップグレード後、システムは自動的に再起動します。
Are you sure? (yes|no) [no]: yes
ok, proceeding.
The 'local' flag is highly disruptive to HA systems and should be used only as a repair operation.
Are you sure? (yes|no) [no]: yes
ok, proceeding.
アップグレードが進行中:
Node 1: phase 3/4 (Reboot 0%)
Upgrade has started. システムが再起動します。
- スタンバイ ノードはDDOSの新しいバージョンで再起動しますが、オフラインのままになります。
- システムのアップグレード ステータスを確認してください。OSのアップグレードが完了するまで、30分以上かかる場合があります。
Standby-node # system upgrade status
Current Upgrade Status: DD OS upgrade Succeeded
End time: 20xx.xx.xx:xx:xx
- HAシステムのステータスを確認し、スタンバイ ノード(この場合はnode1)がオフラインで、HAステータスが「degraded」であることを確認してください。
Standby-node # ha status
HA System name: HA-system
HA System status: degraded
Node Name Node id Role HA State
----------------------------- ------- ------- --------
Node1 1 standby offline
Node0 0 active degraded
----------------------------- ------- ------- --------
- アクティブ ノードでローカル アップグレードを実行します。この操作により、アクティブ ノードが再起動されます。
Active-node # system upgrade start <rpm file> local
The 'system upgrade' command upgrades the Data Domain OS. File access
is interrupted during the upgrade. The system reboots automatically
after the upgrade.
Are you sure? (yes|no) [no]: yes
ok, proceeding.
The 'local' flag is highly disruptive to HA systems and should be used only as a repair operation.
Are you sure? (yes|no) [no]: yes
ok, proceeding.
Upgrade in progress:
Node Severity Issue Solution
---- -------- ------------------------------ --------
0 WARNING 1 component precheck
script(s) failed to complete
0 INFO Upgrade time est: 60 mins
---- -------- ------------------------------ --------
Node 0: phase 3/4 (Reboot 0%)
Upgrade has started. System will reboot.
- システムのアップグレード ステータスを確認してください。OSのアップグレードが完了するまで、30分以上かかる場合があります。
Active-node # system upgrade status
Current Upgrade Status: DD OS upgrade Succeeded
End time: 20xx.xx.xx:xx:xx
- アクティブノードのアップグレードが完了した後も、HAシステムの状態は依然として低下しています。次のコマンドを実行してスタンバイ ノードをオンラインにすると、スタンバイ ノードが再起動されます。
Standby-node # ha online The operation will reboot this node. Do you want to proceed? (yes|no) [no]: yes Broadcast message from root (Wed Oct 14 22:38:53 2020): The system is going down for reboot NOW! **** Error communicating with management service.(メモ:前の手順で「ha offline」が実行されていない場合は、この手順を無視してください)。
- スタンバイ ノードが再起動し、クラスターに再参加します。その後、HAステータスは再び「highly available」になります。
Active-node # ha status detailed
HA System name: Ha-system
HA System Status: highly available
Interconnect Status: ok
Primary Heartbeat Status: ok
External LAN Heartbeat Status: ok
Hardware compatibility check: ok
Software Version Check: ok
Node node0:
Role: active
HA State: online
Node Health: ok
Node node1:
Role: standby
HA State: online
Node Health: ok
Mirroring Status:
Component Name Status
-------------- ------
nvram ok
registry ok
sms ok
ddboost ok
cifs ok
-------------- ------
確認:
- 両方のノードのDDOSバージョンが同じであることを確認してください。
Node1 # system show version
Data Domain OS x.x.x.x-12345
Node0 # system show version
Data Domain OS x.x.x.x-12345
- 予期しないアラートがないか確認してください。
Node1 # alert show current
Node0 # alert show current
- この時点で、ローリング アップグレードは正常に完了しています。
其他信息
ローリング アップグレード:
-
アップグレード中にフェールオーバーが1回実行されるため、ロールがスワップされることに注意してください。
-
アップグレード情報は引き続きinfra.logに記録されますが、ha.logに追加情報が出力される場合があります。
-
アップグレードの進行状況は、システム アップグレード ウォッチで監視できます。
ローカル ノードのアップグレード:
-
ローカル ノードのアップグレードでは、HAフェールオーバーは実行されません。
-
その結果、アクティブ ノードのアップグレード/再起動/再起動後のアップグレード アクティビティーが実行される間、ダウンタイムが延長され、バックアップ/リストアがタイムアウトして失敗する可能性があります。ローカル アップグレードのためにメンテナンス タイム ウィンドウを割り当てる必要があります。
-
HAシステムのステータスが「Degraded」であっても、ローカル アップグレードを続行できます。
-
何らかの理由で、ローリング アップグレードが予期せず失敗することがあります。この状況では、ローカル アップグレードを修正方法と見なすことができる。