Avamar：容量管理の概念とトレーニング

摘要: この記事は、Avamarユーザーを対象としており、オペレーティングシステムの容量管理を扱っています。この記事は、Avamarシステム管理者、またはAvamarグリッドの正常性をモニターする担当者で、オペレーティングシステムとユーザー容量レベルの管理方法について実務的に理解する必要があるユーザーを対象とします。

本文适用于本文不适用于本文并非针对某种特定的产品。本文并非包含所有产品版本。

症状

Data Domainに関連する容量管理の課題については、『Avamar and Data Domain System Integration Guide』の「Reclaiming storage on a full Data Domain system」セクションを参照してください。お使いの操作環境に関連するガイドは、「DellサポートサイトでAvamarのマニュアルを見つける方法」を参照してください。

この記事の目的：

/data*パーティションに格納されているデータのタイプを要約する。
「オペレーティングシステム容量」の概念を説明し、これを「ユーザー容量」（「GSAN容量」とも呼ばれる）の概念と比較する。
Avamarをユーザー容量の制限近くまで実行すべきではない理由を説明する。
チェックポイントのオーバーヘッドを引き起こす要因を挙げる。
データパーティションの使用率をモニターする方法を説明する。
オペレーティングシステム容量が制御不能になった場合に発生する症状を説明する。
「 MSG_ERR_DISKFULL 」メッセージの一般的な原因を列挙する。
オペレーティングシステム容量が大きく、通常のシステム運用に影響する場合に使用されるリカバリー方法の概要を説明する。
ユーザー容量がユーザー容量制限を超過した場合に発生する症状を説明する。
ユーザー容量が高い状況からのリカバリー方法について説明する。

この記事では、読者が『Avamar Operational Best Practices Guide』の「Managing Capacity」セクションを理解していることを前提としています。

お使いの操作環境に関連するガイドは、「DellサポートサイトでAvamarのマニュアルを見つける方法」を参照してください。

「オペレーティングシステム容量」が大きすぎる場合に影響する、あるいはその症状として発生する一般的な問題は次のとおりです。

チェックポイントの検証(hfscheck)が失敗した。
ガベージコレクションの実行に失敗し、
チェックポイントの作成に失敗した。

「ユーザー容量」が大きすぎる場合と密接に関連する共通の症状は次のとおりです。

バックアップに失敗した。
受信レプリケーションジョブが失敗する。
管理者インターフェイスでは、バックアップウィンドウ中にシステムが「Admin」モードで表示される。

原因

「解決方法」セクションを参照してください。

解决方案

Avamarグリッドにはどのようにしてデータが格納されていますか？

Avamar容量管理では、すべてのAvamarデータノードの/data*パーティションに格納されているデータが考慮されます。次のようなデータで構成されます。

重複排除バックアップデータ
RAINパリティーデータ
チェックポイントのオーバーヘッドデータ

RAINパリティーとチェックポイントデータはどちらも、RAIDとレプリケーションに加えてAvamarで使用可能な冗長性のレイヤーです。

ガベージコレクションや非同期のストライプ処理などのメンテナンスタスクを正しく実行するには、データパーティションの空き領域も必要です。

次に、Avamarストレージノード上のデータパーティション内で使用可能な物理ストレージスペースをグラフィック表示します。

Avamar容量の内訳

データパーティションにはどのようにしてデータが格納されていますか？

前掲の図は、データパーティションでスペースがどのように使用されているかを簡単に表しています。

左側の100%の値は、データパーティション内のオペレーティングシステムで使用可能な物理スペースの合計量として定義されています。

いずれかのデータパーティションが合計領域の85%以上を消費している場合、ガベージコレクションは実行できません。

100%ユーザー容量マーカー（読み取り専用制限）は、データパーティション内の全容量の65%までが重複排除データの保存に使用可能であることを示しています。この100%のユーザー容量マーカーの下のスペースは、管理者UIに表示されるサーバー使用率の値に相当します。任意のノード上の任意のデータパーティションに格納されている重複排除データの量が65%に達すると、Avamarシステムは読み取り専用になり、それ以降のバックアップデータは拒否されます。

Avamar Administrator UIから、ユーザーはバックアップによって消費された領域を確認できますが、オペレーティングシステムのデータパーティションで消費された領域は確認できないことが分かります。

「ユーザー容量」の制限近くまでAvamarシステムを実行してはいけない理由は何ですか？

高い「ユーザー容量」とチェックポイントオーバーヘッドの関係は、システムが上限に近付くにつれて、バックアップデータがわずかに増加しただけでもチェックポイントオーバーヘッドの大幅な増加につながるというものです。

このようなことが起こる理由の詳細については、この記事の範囲を超えていますが、覚えておくべき重要な点は次のとおりです。Avamarシステムのユーザー容量が100%に近づくと、チェックポイントオーバーヘッドで使用できるオペレーティングシステム容量が少なくなります。

上の図に示すように、フルシステムでは、チェックポイントオーバーヘッドは、データパーティション内のオペレーティングシステムの合計領域の20%に制限されます。

Avamarシステムを高いレベルの「ユーザー容量」で確実に実行するには、次の基準を満たしている必要があります。

システムは、毎日変更されるデータを低率（1%以下）で保有している必要があります。
容量は安定した状態である必要があります（『Avamar Operational Best Practices Guide』の「Managing Capacity」セクションを参照）。お使いの操作環境に関連するガイドは、次の場所にあります。「DellサポートサイトでAvamarのマニュアルを見つける方法」
メンテナンスタスクは毎日正常に完了する必要があります。

これらのステートメントのいずれかがtrueからfalseに変化した場合、チェックポイントオーバーヘッドが徐々に、または急激に増加して、深刻な運用上の問題につながることが予想されます。

チェックポイントオーバーヘッドを引き起こす要因：

次の要因によって、チェックポイントオーバーヘッドが増加する可能性があります。

ストライプの非同期処理（デフォルトでは有効）
システムに格納されているチェックポイントの数
チェックポイントの検証が毎日正常に完了していない
Avamar Serverが再利用する場合の空のストライプの仕組み（サーバーの使用率が高くなると、より重大になります）
日次バックアップ変化率 <

システム管理者は、これらの要因に対して特定のレベルの制御を行うことができます。非同期処理の設定はサポート専用ですが、管理者は余分なチェックポイントを削除し、チェックポイントの障害を調査して、サーバー使用率と日次データ変化率の改善を図ることができます。

データパーティションの使用率をモニターする方法

オペレーティングシステムのデータパーティションの使用率を正しくモニターする方法は、Avamar Utility Nodeから次のAvamarコマンドを使用することです。

例えば、


admin@utilitynode:~/>: avmaint nodelist | grep fs-percent
        fs-percent-full="7.8"
        fs-percent-full="6.3"
        fs-percent-full="6.4"
        fs-percent-full="6.4"
        fs-percent-full="7.6"
        fs-percent-full="6.2"
        fs-percent-full="6.1"
        fs-percent-full="6.6"
        fs-percent-full="7.8"
        fs-percent-full="6.4"
        fs-percent-full="6.5"
        fs-percent-full="6.8"

この出力には、オペレーティングシステムの容量使用率の正確な状態が示されます。データノードがファイルプールを使用するグリッドでは、Linuxの df コマンドは意味がありません。これは、ストライプがファイルプールに事前に割り振られており、ストライプの多くが使用されていない可能性があるためです。

オペレーティングシステム容量の使用率が制御不能になった場合はどうなりますか？

ユーザーの観点から見ると、データパーティションの使用率が制御不能になったことに初めて気づくのは、使用率が85%を超えたときです。

ガベージコレクションは実行できなくなり、「 MSG_ERR_DISKFULL 」というエラーメッセージで失敗します。

ここで多くの場合、誤解が生じます。ユーザーは多くの場合、メッセージ「 MSG_ERR_DISKFULL 」を、システムにバックアップ用の領域がなくなったという意味で解釈します。

しかし、この解釈は正しくありません。ユーザーは通常、Avamar Administrator UIでサーバー使用率の値を確認し、許容できる値（たとえば60%）を見つけます。

ユーザーは、Avamar UIのバックアップ管理インターフェイスからバックアップの削除を試みることができます。ユーザー容量レベルが高い場合でも、ガベージコレクションを実行できず、期限切れのデータチャンクをシステムから削除できないため、バックアップを削除しても状況は緩和されません。

オペレーティングシステム容量が大きい問題とユーザー容量が大きい問題の両方が発生している場合は、最初に大容量オペレーティングシステムの問題の解決に焦点を当てます。

オペレーティングシステムの容量使用率が高い場合、システムでチェックポイントを作成するためのスペースが不足する場合があります。

MSG_ERR_DISKFULLメッセージが表示される原因とは

最も一般的な原因としては、チェックポイントオーバーヘッドが非常に高くなっていることが挙げられます。チェックポイントオーバーヘッド増加の一般的な原因は次のとおりです。

チェックポイントの検証(hfscheck)が繰り返し失敗した。
hfscheck障害には、考えられる根本原因が多数あります（突然のキャンセル、ソフトウェア障害など）。
システムがフル稼働しすぎて、日次データ変化率が高くなっている。
データ変化率を処理し、データを格納するために、システムにより多くのデータノードが必要である。
設定されたサイズよりも多くのデータやクライアントをバックアップするようにシステムが構成されている。
格納されているチェックポイントが多すぎる（Avamarはデフォルトでは2つのチェックポイントを格納し、そのどちらかが検証されています）。
システム管理者が過剰なチェックポイントを作成した。
メンテナンスが最近実行されたが、デフォルトのチェックポイントの保存は再開されなかった。

MSR_ERR_DISKFULLのシナリオを解決するには、次の記事を参照してください。「データパーティションオペレーティングシステムの容量 > 89%が原因で、Avamarのメンテナンスタスクが「MSG_ERR_DISKFULL」で失敗する」

オペレーティングシステム容量が大きい問題を調査および緩和するための処置

1.最後のhfscheckがいつ終了したかを判断します。これを実行するには、Avamar AdministratorまたはAvamar Utility Nodeのコマンドラインのいずれかを使用します。

Avamar Administratorで、［Server］ > ［Checkpoint Management］タブに移動します。
［Checkpoint Validation］列に表示されている最新の日時を確認します。これは、過去24時間以内に発生しているはずです。

または

Avamar Utility Nodeのコマンドラインを使用して、コマンドcplistを実行します。

以下はCLI出力の例です。

admin@utilitynode:~/>: cplist

cp.20110114111419 Fri Jan 14 11:14:19 2011   valid rol ---  nodes   3/3 stripes   1131
cp.20110114194457 Fri Jan 14 19:44:57 2011   valid --- ---  nodes   3/3 stripes   1131

ここに表示されている検証済みチェックポイントのうち、最新のものは1月14日11:14です。「valid」マーカーの直後に、フラグで指定できます。システムで設定されたhfscheckのタイプに応じて、フラグはrolまたはhfsのようになります。この例ではrol (rolling hfscheck)になっています。

最新の検証済みチェックポイントとして24時間よりも前の時刻が示されている場合は、その原因を確認します。これは、HFScheckが実行されなかった、または失敗したことが原因である可能性があります。

2.HFScheckが実行されたか、失敗したかを確認します。

Avamar Utility Nodeで「status.dpn」を実行し、「Last hfscheck」を含む行を見つけます。

例えば、

Last hfscheck: finished Sat Jan 15, 11:07:17 2011 after 06m 41s >> checked 528 of 528 stripes (OK)

終了日時とステータス（上の行ではステータスは「OK」と表示）をメモしておきます。

注：「sched.sh」スクリプトを使用して、HFScheckが最後に実行された日時、および成功したかどうかを確認することもできます。

hfscheckジョブが失敗した場合は、すぐに調査する必要があります。

hfscheckが最近実行されていない場合は、Avamar Utility Node「dpnctl status maint」で次のコマンドを実行して、メンテナンススケジューラーが有効になっていることを確認します。

admin@utilitynode:~/>: dpnctl status maint

Identity added: /home/admin/.ssh/dpnid (/home/admin/.ssh/admin_key)
dpnctl: INFO: Maintenance windows scheduler status: enabled.

メンテナンスWindowsスケジューラーがダウン、無効化、または中断されている場合は、コマンド「dpnctl start maint」を使用して有効にします。
必要に応じて、新しいチェックポイントを取得してhfscheckを実行するか、次にスケジュールされたメンテナンスウィンドウが完了するまで待ちます。

hfscheckが正常に完了すると（問題があれば対処するか、メンテナンススケジューラーを再起動した後）、最も古いチェックポイントが「ロールオフ」され、オペレーティングシステムの容量が大幅に削減されます。

オペレーティングシステム容量がそれでも大きすぎて、ガベージコレクションがMSG_ERR_DISKFULLメッセージで失敗し続ける場合は、Dellテクニカルサポートチームの支援を受けてください。
それ以外で、オペレーティングシステム容量がガベージコレクションを完了させるのに十分低い場合は、「ユーザー容量」を削減し、「サーバー使用率」の値を低くします。

大きいユーザー容量を軽減する処理

オペレーティングシステム容量とは異なり、ユーザー容量レベルは、Avamarシステム管理者によってより簡単に、直接的に影響を受けます。

1.ガベージコレクションを毎日実行し、バックアップによって中断されないようにする。

ガベージコレクションが定期的または確実に実行されないと、適切なサイズのシステムでもすぐにユーザー容量が大きくなるため、これは最も重要なポイントです。

前述のように、メンテナンスウィンドウが有効になっていることを確認し、capacity.shスクリプトとsched.shスクリプトを使用して、ガベージコレクションが実行されていること、およびデータが削除されていることを確認します。

Avamar v7.xより前のバージョンでは、ガベージコレクションの「制限」期間中はバックアップを実行できませんでした。

Avamar v7.xで導入されたハッシュ参照ビットマップ機能を使用すると、ガベージコレクションのメンテナンスアクティビティー中にバックアップを実行できます。この機能では、これらの「マップ」がリセットできるように、バックアップが実行されない「静かな」時間が1日あたり少なくとも5分間必要です。

この機能に関するコンテンツには、次の記事へのリンクからアクセスできます。「Avamar v7以降 : データの使用中に「ハッシュ参照ビットマップ」が原因でクリーンアップできない「スキップハッシュ」を報告するガベージコレクション」」

2.グリッドへの新しいクライアントの追加を停止する。

Avamarグリッドが容量に近づいたら、状況の悪化を防ぐために、新しいクライアントの追加を直ちに停止する必要があります。

サーバー使用率の低いレベルで実行されている別のAvamarグリッドがある場合は、満杯になりつつあるサーバーではなく、そのグリッドに新しいクライアントを追加することを検討してください。

3.ストレージスペースを特に多く使用しているクライアントを確認する。

容量の問題に対処するには、どのクライアントが最も多くのデータをAvamarシステムに追加しているかを特定する必要があります。

capacity.shスクリプト（Avamar Utility Nodeのコマンドラインから実行）を使用して、変更率が最も高いクライアントを特定することもできます。

Dellの登録ユーザーは、次の記事へのリンクからコンテンツにアクセスできます。capacity.shスクリプトの使用方法の詳細については、「Avamar：capacity.sh スクリプトを使用して容量を管理する方法」を参照してください。

多くの場合、「最も負荷の高い」クライアントは、SQLデータベースまたはEメールサーバーをバックアップするクライアントであるため、これらに特に注意してください。

4.保存ポリシーを見直す。

変化率の高いクライアントを特定したら、保存ポリシーを見直して、ストレージ要件を許容可能なレベルに引き下げられるかどうかを確認します。

注：保存ポリシーは14日以上に設定することをお勧めします。

ある程度古いシステムで、最も長く保持されているバックアップを期限切れにする処理が始まると、保存ポリシーを削減した後で、ガベージコレクションによって毎日削除されるデータ量が増加することが予想されます。capacity.shを使用してこの傾向をモニターします。

Avamarシステムがまだ、バックアップの期限切れ処理を開始できるほど古くない場合は、保存ポリシーを変更して、最も古いバックアップの期限切れ処理を開始できるようにする必要があります。

規制要件により保存ポリシーを減らすことができない場合は、Avamarシステムを拡張するか、クライアントを別の使用率の低いAvamarシステムに移行することを検討する必要があります。

5.代替Avamarシステムにクライアントを移行する

別のAvamarシステムが使用可能な場合は、Avamar Client Managerインターフェイスを使用して、変化率の大きい、または変化率の高いクライアントを、使用率の高いシステムからより低いシステムに移行する可能性を検討してください。

注：

新しいAvamar Serverは、移行するAvamar Clientに十分なストレージを必要とします。
重複排除の効率性を利用するために、同様のタイプのデータを持つクライアントを同じAvamarシステムに保存します。
この戦略は、Avamarシステムが同じLAN上に存在する場合に最適です。

6.古いバックアップを削除する。

ユーザー容量レベルが重大(>90%)である場合は、バックアップ管理インターフェイスを使用するか、またはmodify-snapupsツールを使用して古いバックアップを期限切れにする必要があります。

Dellユーザーは、次の記事へのリンクからコンテンツにアクセスできます。「Avamar Capacity Management：「modify-snapups」ツールを使用してバックアップを一括で削除または期限切れにする方法」

バックアップを削除しても、サーバーの使用率レベルがすぐに低下することはありません。バックアップ削除の効果は、ガベージコレクションの次回の実行時にデータの削除を開始できるようになることです。古いバックアップを削除することは、短期的な回避策です。バックアップは、今後数日間のうちに置き換えられます。バックアップが削除された場合は、保存ポリシーの調整も行う必要があります。

7.capacity.shを使用してデータの変更をモニターする。

バックアップが削除され、保存ポリシーが変更された後、capacity.shスクリプトを使用して、システム上のデータ変更の量を厳密にモニターします。モニターを始めると、「削除された」データの値が増加して、「正味の変化」の値が負になっていくはずです。最終的には、超過したデータがシステムからクリアされると、「削除された」値が通常のレベルに戻り始めます。「削除済み」の値を引き続き監視します。

正味変化の値が負にならない場合は、ガベージコレクションログを確認して、ガベージコレクションの実行時間と、メンテナンス期間中にガベージコレクションが達成している作業量を確認します。

Dellユーザーは、次の記事へのリンクからコンテンツにアクセスできます。capacity.shスクリプトの使用方法の詳細については、「Avamar：capacity.sh スクリプトを使用して容量を管理する方法」を参照してください。

8.Avamarシステムを拡張する。

多くの場合、Avamarシステムで使用率が高くなる原因は、自然かつ想定内のデータの増加です。本番バックアップを続行するには、より多くのスペースを使用可能にする必要があります。

その方法は、Avamarシステムのタイプによって異なります。

シングルノードシステムおよびAvamar Virtual Edition（AVE）システム

これらを拡張することはできません。2番目の大規模なAvamarシステムを発注するとともに、Dell Professional Servicesに対して、小規模システムから大規模システムへのシステム移行の実行を要求します。プロフェッショナルサービスには、Dellアカウントマネージャーを介して連絡を取ることができます。

新しいシステムは、ソースよりも多くのストレージスペースを提供している場合、シングルノード、AVE、マルチノードシステムのいずれかになる可能性があります。

マルチノードシステム

これらのシステムは、最大16個のデータノードまで拡張可能です。詳細については、Dellアカウントマネージャーにお問い合わせください。通常のサポートチャネルではノードの追加は実行されないため、この作業をリクエストするためにサービスリクエストを開かないでください。

Data Domainの統合

Data Domainシステムをバックエンドストレージデバイスとして統合することは、Avamarへのバックアップを行うクライアントが使用可能な容量を拡張するための便利な方法です。Dellアカウントマネージャーと、オプションについて話し合います。

其他信息

便利なツール

status.dpn
capacity.sh
Avalanche
DPNの概要レポート
replcnt.sh
Avamar Client Manager

ベストプラクティス：

Avamar Serverの使用率（ユーザー容量）の値が80%を超えないようにしてください。
ユーザー容量を削減することで、追加されたデータ量の予期しない変更に対する耐障害性を提供し、予期しないエラーやメンテナンスタスクに関する短期的な問題が発生した場合に、システムが使用不能になることを防止できます。
80%を超えるユーザー容量を実行しているAvamarシステムでは、メンテナンスタスクが正常に完了し、システムが読み取り専用にならないようにするために、システム管理者による入念なモニタリングが必要です。

受影响的产品

Avamar

产品

Avamar

文章编号: 000079977

文章类型: Solution

上次修改时间: 07 6月 2024

版本: 18

Avamar：容量管理の概念とトレーニング

症状

原因

解决方案

Avamarグリッドにはどのようにしてデータが格納されていますか？

データパーティションにはどのようにしてデータが格納されていますか？

「ユーザー容量」の制限近くまでAvamarシステムを実行してはいけない理由は何ですか？

チェックポイントオーバーヘッドを引き起こす要因：

データパーティションの使用率をモニターする方法

オペレーティングシステム容量の使用率が制御不能になった場合はどうなりますか？

MSG_ERR_DISKFULLメッセージが表示される原因とは

オペレーティングシステム容量が大きい問題を調査および緩和するための処置

大きいユーザー容量を軽減する処理

其他信息

受影响的产品

产品

文章属性

从其他戴尔用户那里查找问题的答案

支持服务

文章属性

从其他戴尔用户那里查找问题的答案

支持服务

Avamar：容量管理の概念とトレーニング

详细文章

症状

原因

解决方案

其它信息

受影响的产品

症状

原因

解决方案

Avamarグリッドにはどのようにしてデータが格納されていますか？

データ パーティションにはどのようにしてデータが格納されていますか？

「ユーザー容量」の制限近くまでAvamarシステムを実行してはいけない理由は何ですか？

チェックポイント オーバーヘッドを引き起こす要因：

データ パーティションの使用率をモニターする方法

オペレーティング システム容量の使用率が制御不能になった場合はどうなりますか？

MSG_ERR_DISKFULLメッセージが表示される原因とは

オペレーティング システム容量が大きい問題を調査および緩和するための処置

大きいユーザー容量を軽減する処理

其他信息

受影响的产品

产品

文章属性

从其他戴尔用户那里查找问题的答案

支持服务

文章属性

从其他戴尔用户那里查找问题的答案

支持服务

データパーティションにはどのようにしてデータが格納されていますか？

チェックポイントオーバーヘッドを引き起こす要因：

データパーティションの使用率をモニターする方法

オペレーティングシステム容量の使用率が制御不能になった場合はどうなりますか？

オペレーティングシステム容量が大きい問題を調査および緩和するための処置