1 Rookie
•
16 メッセージ
0
442
VxRail ディスク障害試験について
VxRailの検証機を使用して、ディスク障害試験を実施したいと考えております。
しかし、稼働中にディスクを抜くようなリスクのある行為は当然したくありません。
vSANにおけるディスク障害試験としては、以下のURLのようにvsanDiskFaultInjection.pycを実行することで疑似的にディスク障害を起こす方法がありますが、これをVxRailで実施してもよいのでしょうか?もしくは他に推奨の方法がありましたらご教示お願いいたします。
<Simulating Failure Scenarios>
https://core.vmware.com/resource/vsan-70-u2-proof-concept-guide#simulating-failure-scenarios
DELL-Naoyuki K
4 Operator
4 Operator
•
1.8K メッセージ
1
2023年1月16日 23:00
VxRail の PoCやラボでの障害検証においては、私自身はよくそのコマンドを利用していますね。とくにVxRailとして問題が発生した、ということはないです。
VxRailはハードウェア側の機能で疑似的にディスクを切り離す、といったことができないため物理作業無しで実施するためにはそのコマンド以外には思い浮かびませんでした。
なお、疑似ディスク障害から疑似交換スクリプトを流そうとすると、VxRailの場合は交換前のDisk SNを記憶しているため、同じディスクで交換しなおす、ということはできませんのでご注意ください。
Seiichi Yumura
1 Rookie
1 Rookie
•
16 メッセージ
1
2023年1月16日 23:00
さっそくのご回答ありがとうございます。
コマンド経由で実績をお持ちということで、弊社もそのようにさせていただこうと思います!
DELL-Naoyuki K
4 Operator
4 Operator
•
1.8K メッセージ
0
2023年1月16日 23:00
ちなみにですが、(Dell公式の)VxRail PoC Guide 内の Disk Failure の項目では物理抜去でテストする想定となっていました。
kwmt
4 Operator
4 Operator
•
877 メッセージ
1
2023年1月16日 23:00
kaneda さんの説明にもありますが vsanDiskFaultInjection.pyc を実施すると「疑似ディスク障害から疑似交換スクリプトを流そうとすると、VxRailの場合は交換前のDisk SNを記憶しているため、同じディスクで交換しなおす、ということはできません」となる、≒ 疑似障害だけど対象ドライブは(そのままでは)再度組み込めない、ということになり、結構面倒です。
以前検証環境でこのあたりを試した際は、
予めキャパシティドライブを数本抜いた状態で RASR で初期化してからセットアップ、その後、 vsanDiskFaultInjection.pyc で疑似障害を発生させて、その後は抜いておいたドライブを交換用ドライブとして交換操作を実施、という流れで行いました。
個人的には「稼働中にディスクを抜くようなリスクのある行為」はそれほど vSAN においてはリスクはなく、Absent (一時的な不明状態) とマークされ、IO メンバーから外されますが、
ドライブを戻せば即再認識されます(既定では一時間以上放置するとデータの再構成が始まってしまうので、障害状態を確認する想定であれば長くとも45分前後で戻すのが良いかと)。
※ vsanDiskFaultInjection.pyc を実施した際は Degraded としてマークされ即時データの再構成が開始されたはず
想定する障害と、検証したい復旧方法にも依存し、手間は異なりますが検証環境であればどちらのパターンでも問題はないです。
Seiichi Yumura
1 Rookie
1 Rookie
•
16 メッセージ
0
2023年1月16日 23:00
追加情報ありがとうございます。
vsanDiskFaultInjection.pycを使用する場合はご指摘いただいたテクニックを参考にしたいと思います。
稼働中にディスクを抜く行為もそれほどリスクがないということについても承知いたしました。
どちらの方法をとるかは社内で検討させていただきます。
とても参考になりました。ありがとうございます。
kwmt
4 Operator
4 Operator
•
877 メッセージ
0
2023年10月31日 02:09
だいぶ遅れての追加回答となりますが、今日案件ミーティングで kaneda さんと話している中で、
>※ vsanDiskFaultInjection.pyc を実施した際は Degraded としてマークされ即時データの再構成が開始されたはず
と記した以前の私のコメント、vSAN としての挙動と VxRail Manager 管理下の Disk 状態の挙動でちょっとごっちゃになっておりましたので以下に整理します。
----
vsanDiskFaultInjection.pyc の実施時のオプションで、-u などで hot unplug 状態 (ディスク抜いた想定) にするのみであれば vSAN 上の Absent で、VxRail Manager 上でも Disk に故障がマークされることは無いようです。
検証後は -c オプションで対象ドライブの状態をもとに戻せば問題がないです。
以前私が実施した際は即時リビルドを試すため -p で permanent error 状態で即 Degraded を発生させ、このときは VxRail Manager 上でも管理下の Disk に対して故障がマークされ、戻すのが手間だった、という事を思い出しました。