Isilon:Isilonクラスターがデータ ロスのリスクがあるかどうかを判断する方法
Summary: Isilonクラスターがデータ ロスのリスクがあるかどうかを判断する方法。
Symptoms
概要
リスク期間(WOR)は、クラスター、ノード プール、またはディスク プール内の十分な数のデバイスに障害が発生し、保護レベルに達した場合に発生します。この状態は、「保護中」または「過保護」とも呼ばれます。クラスターまたはプールがWARにある場合、データ ロスはまだ発生していません。ただし、追加のデバイスに障害が発生した場合は、データ ロスが発生する可能性があります。データ ロスが発生するかどうかは、さまざまな要因によって異なります。これらの要因には、次のものが含まれます。FlexProtectが完了する前に障害が発生したデバイスが追加された場合、または障害が発生したデバイスが問題の唯一のデータ ソースであった場合。
この記事では、クラスターでの保護レベルの仕組みと、クラスターがデータ ロスに対してWOR状態にあるかどうかを確認する方法について説明します。
WOR の計算上、「障害」とは「ダウン」または「使用不能」状態のデバイスを意味します。「soft_failed」のデバイスは、保護レベルにカウントされません。「ダウン」または「使用不能」デバイスの数を確認する方法については、後述の「手順」セクションを参照してください。
メモ
保護レベルとして指定された数よりも多くのデバイスで障害が発生する状態は、「過剰保護」と呼ばれます。この状態では、クラスターまたはノード プール/ディスク プールに格納されているすべてのデータを正常に再作成できなくなります。
詳細
OneFSは、N+Mデータ保護モデルを使用します。N+M表記では、Nはノード数を表します。Mは、クラスターがデータを失うことなく処理できる同時ノード数、ドライブ数、ノード プール/ディスク プール数を表します。たとえば、N+2保護を使用すると、クラスターまたはプールは、異なるノード上の2台のドライブを失うか、2つのノードを完全に失う可能性があります。
OneFS 6.5以降では、N+M:B保護モデルもサポートされています。N+M:B表記では、Nはノード数を表します。Mは、ダウンまたは障害が発生したドライブの数を表します。Bは、クラスターまたはノード プール/ディスク プールがデータを失うことなく処理できるダウンまたは障害が発生したノードの数を表します。たとえば、N+3:1の保護を使用すると、クラスターまたはプールで3台のドライブまたは1個のノードを失うことなく、データを失うことはありません。
1つのノード内に複数のダウンまたは障害が発生したドライブは、WORの計算上、(複数のドライブ障害ではなく)常に単一ノード障害を表します。ここでは、N+3:1の保護で8ノード クラスターを使用する例をいくつか示します。
- 例 1:単一クラスターでは、それぞれ別のノードで3台のドライブに障害が発生します。これにより、クラスターはWOR(「保護時」)になります。
- 例 2:単一クラスターで、同じノード内の2台のドライブに障害が発生しました。ドライブは同じノード内にあるため、障害は単一ノード障害としてカウントされます。また、この状況では、クラスターがWOR(保護時)状態になります。
データ保護レベルとその計算方法の詳細については、『 OneFS管理ガイド』を参照してください。
あぶない!
クラスターが WOR 状態であると疑われる場合、またはその判断を下した場合は、さらなるアクションを実行する前に、Dell テクニカル サポートにお問い合わせください。
重要!
ドライブまたはノードに障害が発生した場合に、WORが発生することがあります。ただし、Isilonエンジニアリングでは、FlexProtect操作が正常に完了するまで、障害が発生したドライブまたはノードをクラスター内に保持することを推奨しています。デバイスに障害が発生しても、一部またはすべてのデータ ブロックが読み取り可能な場合があります。ドライブまたはノードをクラスターに参加させたままにしておくと、障害が発生したデバイスからデータをリカバリーする必要が生じた場合に柔軟に対応できます。
Cause
クラスターまたはノード プール/ディスク プールが現在WORにあるかどうかを確認するには、まずクラスターまたはプールで構成されている保護のレベルを確認します。次に、障害が発生したノードとドライブの数を確認します。WOR の計算上、「障害」とは「ダウン」または「使用不能」状態のデバイスを意味します。次の該当するセクションの指示に従ってください。
Resolution
手順
OneFS 7.2、8.0、9.0以降
- OneFS Web管理インターフェイスで、 File System > Storage Pools > SmartPoolsに移動します。
- [Tiers & Node Pools]テーブルの[Requested Protection]列から現在の保護レベルを取得します。
- ノードへのSSH接続を開き、「root」アカウントを使用してログインします。
- 次のコマンドを実行して、「ダウン」または「使用不可」になっているデバイスの数を確認します。
isi_group_info
出力は次のようになります。ダウン デバイスまたはデッド デバイスがある場合は、出力に「down」または「dead」と示されます。
ダウンしているノードの例: efs.gmp.group: {3-4:0-8、5:0-6,8、9:1-2,4-6,8、12:0-11、ダウン: 6 }
ダウン ドライブの例: efs.gmp.group: {1:0-11、2:0-9,11、3:0-11、4:0-10、5:0-11、6:0-11、ダウン: 2:10、4:11、soft_failed: 2:10、4:11 }
使用不能ドライブの例: efs.gmp.group: {1:0-11、2:0-9,11、3:0-11、4:0-11、5:0-11、6:0-11、dead: 2:10 }
OneFS 7.1
- OneFS Web管理インターフェイスで、 File System Management > Storage Pools > SmartPoolsに移動します。
- [Node Pools]テーブルの[Requested Protection]列から現在の保護レベルを取得します。
- ノードへのSSH接続を開き、「root」アカウントを使用してログインします。
- 次のコマンドを実行して、「ダウン」または「使用不可」になっているデバイスの数を確認します。
isi_group_info
出力は次のようになります。ダウン デバイスまたはデッド デバイスがある場合は、出力に「down」または「dead」と示されます。
ダウンしているノードの例: efs.gmp.group: {3-4:0-8、5:0-6,8、9:1-2,4-6,8、12:0-11、ダウン: 6 }
ダウン ドライブの例: efs.gmp.group: {1:0-11、2:0-9,11、3:0-11、4:0-10、5:0-11、6:0-11、ダウン: 2:10、4:11、soft_failed: 2:10、4:11 }
使用不能ドライブの例: efs.gmp.group: {1:0-11、2:0-9,11、3:0-11、4:0-11、5:0-11、6:0-11、dead: 2:10 }
ダウンまたはdeadデバイスがドライブかノードかを把握する方法など、出力の解釈の詳細については、次を参照してください。「OneFSグループの変更について」または 「グループの変更を解釈する方法」を参照してください。
OneFS 7.0
- OneFS Web管理インターフェイスで、 File System Management > SmartPools > Summaryに移動します。
- [Tiers & Node Pools]テーブルの[Protection]列から現在の保護レベルを取得します。
- ノードへのSSH接続を開き、「root」アカウントを使用してログインします。
- 次のコマンドを実行して、「ダウン」または「使用不可」になっているデバイスの数を確認します。
isi_group_info
出力は次のようになります。ダウン デバイスまたはデッド デバイスがある場合は、出力に「down」または「dead」と示されます。
ダウンしているノードの例: efs.gmp.group: {3-4:0-8、5:0-6,8、9:1-2,4-6,8、12:0-11、ダウン: 6 }
ダウン ドライブの例: efs.gmp.group: {1:0-11、2:0-9,11、3:0-11、4:0-10、5:0-11、6:0-11、ダウン: 2:10、4:11、soft_failed: 2:10、4:11 }
使用不能ドライブの例: efs.gmp.group: {1:0-11、2:0-9,11、3:0-11、4:0-11、5:0-11、6:0-11、dead: 2:10 }
OneFS 6.5
- OneFS Web管理インターフェイスで、 ファイル システム > SmartPools > Disk Poolsに移動します。
- Default Protection列から現在の保護レベルを取得します。
- ノードへのSSH接続を開き、「root」アカウントを使用してログインします。
- 次のコマンドを実行して、「ダウン」または「使用不可」になっているデバイスの数を確認します。
isi_group_info
出力は次のようになります。ダウン デバイスまたはデッド デバイスがある場合は、出力に「down」または「dead」と示されます。
ダウンしているノードの例: efs.gmp.group: {3-4:0-8、5:0-6,8、9:1-2,4-6,8、12:0-11、ダウン: 6 }
ダウン ドライブの例: efs.gmp.group: {1:0-11、2:0-9,11、3:0-11、4:0-10、5:0-11、6:0-11、ダウン: 2:10、4:11、soft_failed: 2:10、4:11 }
使用不能ドライブの例: efs.gmp.group: {1:0-11、2:0-9,11、3:0-11、4:0-11、5:0-11、6:0-11、dead: 2:10 }