ドライブの交換が必要になるのは、I/Oエラーがある場合、またはソフトウェアデファインド ストレージがドライブに障害または使用不可のマークを付けた場合です
Summary: I/Oエラーのため、またはソフトウェアデファインド ストレージ(SDS)ソリューションによってドライブが「障害発生」または「使用不可」とマークされている場合、ユーザーはドライブの交換を要求することができます。
Instructions
Ceph(Linux)、vSAN(VMware)、Nutanixなど、さまざまなSDSソリューションがあります。複数の同一構成のサーバーがネットワークを介して結合され、ストレージ クラスターが作成されます。サーバーは、PERCではなくホスト バス アダプター(HBA)を使用して構成されているため、ドライブは「現状のまま」オペレーティング システムに提示されます。オペレーティング システムは、HBAの介入なしに、各サーバーのすべてのドライブを直接管理します。ドライブは、Dellモニタリング ツール(iDRACやOMSAなど)およびePSAオフライン診断で「正常」と表示されます。ドライブのSMARTCTLデータには、未訂正の読み取りおよび書き込みエラーがある場合とない場合があります。SMARTテスト(ショート、ロング、および長時間)に合格し、ドライブは「正常」とリストされます。
ソフトウェアデファインド ストレージ ソリューション(SDS)は、ホスト バス アダプター(HBA)を使用してドライブへの物理的な接続を提供することで、ストレージ関連のすべての制御をハードウェアからソフトウェアに移行します。
RAIDコントローラー(PERC)は、仮想ディスクの巡回読み取りや整合性チェックなど、ドライブ上でいくつかのプロアクティブなメンテナンス アクティビティーを実行します。SDSソリューションはPERCの代わりにホスト バス アダプター(HBA)を使用するため、ソフトウェアがこれらすべてのプロアクティブなメンテナンス アクティビティを実行するようになりました。
ユーザーは、SDSがドライブを「障害発生または使用不可」とマークしたり、ドライブのI/Oエラーをリストしたりすると報告する場合があります。iDRACやOMSAなどのDellモニタリング ツールは、ドライブが正常で動作可能であると報告しています。
「SMARTMON」や「SMARTCTL」などのツールでは、示された1つ以上のドライブにエラーがリストされる場合がありますが、ドライブ全体の正常性は「HEALTHY」または「OK」と表示されます。
この不一致は、次の要因によるものです。
- iDRACには、コンポーネントの正常性ステータスが表示されます。ドライブ ファームウェアが正常であると報告した場合、iDRACにも同じことが反映されます。ドライブ ファームウェアが予測エラー状態であると示している場合、iDRACにも反映されます。
- すべてのドライブは、多少の不良ブロックや修正不能なエラーに耐え、機能に影響を与えることなく動作を継続できます。不良ブロックのしきい値は、ドライブの製造元によってドライブ ファームウェアにプログラムされており、標準的な数値や割合ではありません。
- ドライブ上の不良ブロックまたは修正不能エラーの合計数が予測エラーまたは障害しきい値を超えるまで、ドライブは動作し続けます。
- ドライブ上のオフセット アドレスは不良ブロックとしてマークされ、その特定のアドレスで書き込み操作が失敗した場合にのみデータが再配置されます。ドライブ ファームウェアは、セクターを不良ブロックとしてマークすることによる読み取りエラーを考慮しません。
- オペレーティング システム レベルでログに記録された I/O エラーは、Lifecycle ログに反映されない場合があります。
このようなシナリオでは、ドライブは機能しており、動作パラメータ内に十分収まっています。ハードウェア交換の対象外であり、ハードウェア交換も必要ありません。ここで推奨されるアクション計画は、ソフトウェア レイヤーから必要なメンテナンス アクティビティを実行して問題を解決することです。
このようなシナリオでは、影響を受ける 1 つ以上のサーバーから完全なオペレーティング システム ログ バンドルまたはレポートをキャプチャします。Dell SST(保証契約の対象の場合)またはオペレーティング システム ベンダーが次の対応手順についてアドバイスする必要があるため、ログのレビューを依頼します。
Dell SSTまたはオペレーティング システム ベンダーは、次の詳細を決定します。
- オペレーティング システム カーネルによって記録されたI/Oエラーの合計(存在する場合)。
- エラーがログに記録されたデバイス(1つまたは複数)。
- 破損のタイプ: ファイルまたはメタデータ レベル(存在する場合)
- ストレージ サービスがクラッシュしましたか? 「はい」の場合、その理由は何ですか?
- このようなエラーを解決するための対応処置は、SDSで使用できます。