ドライブの交換が必要になるのは、I/Oエラーがある場合、またはソフトウェアデファインド ストレージがドライブに障害または使用不可のマークを付けた場合です

Summary: I/Oエラーのため、またはソフトウェアデファインド ストレージ(SDS)ソリューションによってドライブが「障害発生」または「使用不可」とマークされている場合、ユーザーはドライブの交換を要求することができます。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Ceph(Linux)、vSAN(VMware)、Nutanixなど、さまざまなSDSソリューションがあります。複数の同一構成のサーバーがネットワークを介して結合され、ストレージ クラスターが作成されます。サーバーは、PERCではなくホスト バス アダプター(HBA)を使用して構成されているため、ドライブは「現状のまま」オペレーティング システムに提示されます。オペレーティング システムは、HBAの介入なしに、各サーバーのすべてのドライブを直接管理します。ドライブは、Dellモニタリング ツール(iDRACやOMSAなど)およびePSAオフライン診断で「正常」と表示されます。ドライブのSMARTCTLデータには、未訂正の読み取りおよび書き込みエラーがある場合とない場合があります。SMARTテスト(ショート、ロング、および長時間)に合格し、ドライブは「正常」とリストされます。

 

ソフトウェアデファインド ストレージ ソリューション(SDS)は、ホスト バス アダプター(HBA)を使用してドライブへの物理的な接続を提供することで、ストレージ関連のすべての制御をハードウェアからソフトウェアに移行します。

 

RAIDコントローラー(PERC)は、仮想ディスクの巡回読み取りや整合性チェックなど、ドライブ上でいくつかのプロアクティブなメンテナンス アクティビティーを実行します。SDSソリューションはPERCの代わりにホスト バス アダプター(HBA)を使用するため、ソフトウェアがこれらすべてのプロアクティブなメンテナンス アクティビティを実行するようになりました。

 

ユーザーは、SDSがドライブを「障害発生または使用不可」とマークしたり、ドライブのI/Oエラーをリストしたりすると報告する場合があります。iDRACやOMSAなどのDellモニタリング ツールは、ドライブが正常で動作可能であると報告しています。

 

「SMARTMON」や「SMARTCTL」などのツールでは、示された1つ以上のドライブにエラーがリストされる場合がありますが、ドライブ全体の正常性は「HEALTHY」または「OK」と表示されます。

 

 

この不一致は、次の要因によるものです。

  • iDRACには、コンポーネントの正常性ステータスが表示されます。ドライブ ファームウェアが正常であると報告した場合、iDRACにも同じことが反映されます。ドライブ ファームウェアが予測エラー状態であると示している場合、iDRACにも反映されます。
  • すべてのドライブは、多少の不良ブロックや修正不能なエラーに耐え、機能に影響を与えることなく動作を継続できます。不良ブロックのしきい値は、ドライブの製造元によってドライブ ファームウェアにプログラムされており、標準的な数値や割合ではありません。
  • ドライブ上の不良ブロックまたは修正不能エラーの合計数が予測エラーまたは障害しきい値を超えるまで、ドライブは動作し続けます。
  • ドライブ上のオフセット アドレスは不良ブロックとしてマークされ、その特定のアドレスで書き込み操作が失敗した場合にのみデータが再配置されます。ドライブ ファームウェアは、セクターを不良ブロックとしてマークすることによる読み取りエラーを考慮しません。
  • オペレーティング システム レベルでログに記録された I/O エラーは、Lifecycle ログに反映されない場合があります。

 

このようなシナリオでは、ドライブは機能しており、動作パラメータ内に十分収まっています。ハードウェア交換の対象外であり、ハードウェア交換も必要ありません。ここで推奨されるアクション計画は、ソフトウェア レイヤーから必要なメンテナンス アクティビティを実行して問題を解決することです。

 

このようなシナリオでは、影響を受ける 1 つ以上のサーバーから完全なオペレーティング システム ログ バンドルまたはレポートをキャプチャします。Dell SST(保証契約の対象の場合)またはオペレーティング システム ベンダーが次の対応手順についてアドバイスする必要があるため、ログのレビューを依頼します。

 

Dell SSTまたはオペレーティング システム ベンダーは、次の詳細を決定します。

  • オペレーティング システム カーネルによって記録されたI/Oエラーの合計(存在する場合)。
  • エラーがログに記録されたデバイス(1つまたは複数)。
  • 破損のタイプ: ファイルまたはメタデータ レベル(存在する場合)
  • ストレージ サービスがクラッシュしましたか? 「はい」の場合、その理由は何ですか?
  • このようなエラーを解決するための対応処置は、SDSで使用できます。

 

メモ: Dell SSTまたはオペレーティング システム ベンダーに関する上記のポイントは、すべてを網羅したリストではありません。彼らの調査には、他にもいくつかの参照またはデータポイントがある可能性があります。

 

Affected Products

Rack Servers
Article Properties
Article Number: 000219050
Article Type: How To
Last Modified: 21 ذو الحجة 1446
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.