PowerFlex:デバイスがまだ使用中で正常であるにもかかわらず、SDSデバイスがエラーを報告する
Summary: MDMはSDSからデバイス エラーを報告しますが、問題のSDSまたはDAXデバイスはクラスターによって使用されており、正常です。
Symptoms
MDMは、S.M.A.R.T.属性に基づいてSDSまたはDAXデバイス エラーを報告します。I/Oの問題が発生するまで、ドライブは取り出されません。
MDM events.txt
SDSデバイスの例:
2018-06-18 14:16:10.290 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR Device failure state reported on SDS: SIO-NODE3, Device: /dev/sdu
DAXデバイスの例:
2021-06-06 21:11:25.765 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax1.0. 2021-06-06 21:11:25.784 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax0.0. 2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax3.0. 2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax2.0.
I/Oの問題が発生すると、SDSはドライブを取り出します。以下に同様のエラーを示します。
2018-06-19 01:28:38.662 SDS_DEV_ERROR_REPORT ERROR Device error reported on SDS: SIO-NODE3, Device: /dev/sdb. 2018-06-19 01:28:38.962 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.
エラー メッセージの違いに注意してください。
- SDS_DEV_MOVED_TO_FAILURE_STATE <<<--- device not failed - SDS_DEV_ERROR_REPORT <<<--- device failed
システムは、その特定のデバイスへのI/O破棄/エラーを表示し、DATA_DEGRADEDになり、再構築が発生します。
ホストのハードウェア診断をiDRACから確認すると、ディスクに次のような予測障害が発生していることが分かります。
この影響は、表面的なもの(MDMイベントがいっぱいになる)から、再構築を引き起こすドライブ障害まで多岐にわたります。
Cause
SDSノード上のLIAエージェントは、SDSによって使用されるストレージ デバイスのS.M.A.R.T.属性をサンプリングします。このデータをMDMに渡し、検出された問題について報告しますが、データに対するアクションは実行しません。
S.M.A.R.T.ステータスには次の2つの値しかないため、アクションは実行されません。「しきい値を超えていません」および「しきい値を超えました」。多くの場合、これらはそれぞれ「ドライブOK」または「ドライブ障害」として表されます。
「しきい値超過」の値は、将来ドライブに障害が発生する可能性が高い、つまりドライブに障害が発生する可能性があることを示します。特定のセクターに書き込めない、メーカーが主張するよりもパフォーマンスが遅いなど、致命的または微妙な場合があります。
Resolution
手動ハードウェア診断を実行して、問題のSDSまたはDAXデバイスを交換する必要があるかどうかを判断します。必要に応じて、ハードウェア ベンダーに問い合わせてください。
問題が発生するバージョン
ScaleIO 2.x.x
VxFlex OS 3.0.x
PowerFlex 3.5.x
PowerFlex 3.6.0.x-3.6.1.x
修正バージョン
PowerFlex 3.6.0.3では、LIAサンプリング設計が改善されました。
MDMイベントの誤検出は、PowerFlex 3.6.2で修正されました。