「VPLEX:ストレージアレイからのSCSIチェック状態3/11/0により、ディスクがhardware deadとマークされる
Summary: 基盤となるストレージアレイからのSCSIセンス コード3/11/0が原因で、VPLEXはディスクをdeadとマークします。
Symptoms
このイベントは、VPLEXが基盤となるストレージ アレイLUNへの読み取り要求を実行したときに、アレイがLUNのそのブロックでI/Oを処理できない場合にトリガーされます。これにより、3/11/0チェック状態(アレイ上の不良ブロック)がトリガーされます
これは、次のような大量の読み取りI/Oが発生する状況でよく見られます。
- VPLEXエクステント/デバイスの移行
- バックアップ オペレーション
- データベースの整合性チェック
VPLEXストレージボリュームは「hardware-dead」とマークされていますが、ストレージアレイ インターフェイスには正常と表示されます
cliコマンドの出力例 ll /clusters/cluster-2/storage-elements/storage-volumes/storage-volume name>
VPlexcli:/> ll /clusters/cluster-2/storage-elements/storage-volumes/VNX_LUN_25
/clusters/cluster-2/storage-elements/storage-volumes/VNX_LUN_25:
Name Value
----------------------------- ------------------------------------------------
application-consistent false
block-count 1073741824
block-size 4K
capacity 4T
description -
free-chunks []
health-indications [hardware dead] <<
health-state critical-failure <<
io-status dead <<
itls 0x50001442a03c0810/0x5006016b08603879/9,
0x50001442a03c0811/0x5006016308603879/9,
largest-free-chunk 0B
locality -
operational-status error <<
provision-type legacy
storage-array-name EMC-CLARiiON-123456789
storage-volumetype normal
system-id VPD83T3:xxxxxxxxxxxxxxxxxxxxx
thin-capable false
thin-rebuild true
total-free-space 0B
underlying-storage-block-size 512
use unusable <<
used-by [extent_VNX_LUN_25]
vendor-specific-name DGC
VPLEXデバイス/エクステントの移行(モビリティー ジョブ)が特定の割合で停止する。
cliコマンドの出力例 ll data-migrations/device-migrations/<device_migration_name>
VPlexcli:/> ll data-migrations/device-migrations/D__Migrate_LUN_1
/data-migrations/device-migrations/D__Migrate_LUN_1:
Name Value
--------------- ----------------------------
from-cluster cluster-1
percentage-done 7
source device_VNX_LUN25_1
source-exported -
start-time -
status error <<
target device_SYMM_DEV1234_1
target-exported -
to-cluster cluster-2
transfer-size 2M
type full
ホストは、VPLEXストレージがオフラインになるか、使用不能とマークされ、VPLEXストレージボリュームも重大な障害またはハードウェア使用不能とマークされます。
ファームウェアログに記録されているサンプルデータ、amf/45 disk VPD83T3:xxxxxxxxxxxxxxx: read failure: marking this in-use disk dead
VPLEXファームウェア ログに、3/11/0のSCSIセンス コード エントリーでストリーミングまたは断続的なscsi/27(Check Condition)が表示されます。これは「Medium Error - unrecovered read error「
インシデント時のファームウェア ログに記載されているサンプル出力、2016/06/09 02:46:23.67: scsi/27 tgt VPD83T3:6006016011663200b058c25a984de511 cmd 0x28 status 0x2 valid 0 resp 0x70 seg 0x0 bits 0x0 key 0x3 info 0x0 alen 10 csi 0x0 asc 0x11 ascq 0x0 fru 0x0 sks 0x0
2016/06/09 02:46:23.68: scsi/27 tgt VPD83T3:6006016011663200b058c25a984de511 cmd 0x28 status 0x2 valid 0 resp 0x70 seg 0x0 bits 0x0 key 0x3 info 0x0 alen 10 csi 0x0 asc 0x11 ascq 0x0 fru 0x0 sks 0x0
2016/06/09 02:46:23.69: scsi/27 tgt VPD83T3:6006016011663200b058c25a984de511 cmd 0x28 status 0x2 valid 0 resp 0x70 seg 0x0 bits 0x0 key 0x3 info 0x0 alen 10 csi 0x0 asc 0x11 ascq 0x0 fru 0x0 sks 0x0
この問題を確認するには、常に次のことが当てはまります。key = 0x3asc = 0x11ascq = 0x0
Cause
VPLEXがストレージアレイにI/O読み取り要求(0x28)を送信すると、アレイはI/O要求を正常に処理できず、「回復不能な読み取りエラー」についてチェック条件3/11/0で応答します。
VPLEXはストレージアレイ上の不良ブロックからの読み取りを試みますが、ストレージアレイはこのI/Oを処理できないため、VPLEXはストレージをdeadとしてマークします
これは配列または配列コード固有ではありません
この原因はVPLEXの外部にあり、LUNを使用するストレージアレイの問題です。
Resolution
SCSIチェック条件3/11/0をVPLEXに送信しているストレージアレイは、それぞれのアレイ ベンダーが調査する必要があります。この問題は、ストレージアレイの「リカバリー不能な読み取り」の問題により、アレイが読み取りI/O要求を処理できないことが原因で発生します。
VNXサポートと連携 する必要があります 。
VPLEX管理サーバーで次のcliコマンドを実行すると、3/11/0チェック条件の影響を受ける上位50個の論理ユニットのリストを取得できます。grep "key 0x3 " /var/log/VPlex/cli/firmware.log_* | awk '{print $3,$5,$18,$19,$26,$27,$28,$29}' | sort | uniq -c | sort -nr | head -50
例:
service@ManagementServer:~> grep "key 0x3 " /var/log/VPlex/cli/firmware.log_* | awk '{print $3,$5,$18,$19,$26,$27,$28,$29}' | sort | uniq -c | sort -nr | head -50
388408 scsi/27 VPD83T3:60060160116632000000000000000001 key 0x3 asc 0x11 ascq 0x0
45135 scsi/27 VPD83T3:60060160116632000000000000000002 key 0x3 asc 0x11 ascq 0x0
44451 scsi/27 VPD83T3:60060160116632000000000000000003 key 0x3 asc 0x11 ascq 0x0
35412 scsi/27 VPD83T3:60060160116632000000000000000004 key 0x3 asc 0x11 ascq 0x0
30158 scsi/27 VPD83T3:60060160116632000000000000000005 key 0x3 asc 0x11 ascq 0x0
24589 scsi/27 VPD83T3:60060160116632000000000000000006 key 0x3 asc 0x11 ascq 0x0
21579 scsi/27 VPD83T3:60060160116632000000000000000007 key 0x3 asc 0x11 ascq 0x0
EMC以外のアレイの場合は、ストレージアレイに存在する問題を解決するために、それぞれのアレイ ベンダーと連携します。
Additional Information
これはストレージアレイのブロックレイヤーの問題であり、ストレージアレイ自体でアクションを実行することによってのみ解決できます
これはVPLEXの問題ではなく、VPLEXがバックエンド アレイから見た症状を報告しています。
「storage-volume resurrect --force」の使用はここでは無効です
このコマンドは、現在のIOステータスや基盤となるストレージ アレイの問題に関係なく、使用不能なストレージボリュームをVPLEXで強制的に「alive」として表示します。
このコマンドは、基盤となるストレージアレイへの次のIOが失敗するまで、ストレージボリュームを強制的にオンラインに戻します。
基盤となるストレージアレイで3/11/0の問題が発生している同じデータ ブロックをホストが要求すると、ストレージボリュームは再び使用不能としてマークされます
これは予期された動作であり、VPLEXの問題を示すものではありません
問題のあるストレージボリュームをストレージアレイからホストに直接提示すると(VPLEXをバイパス)、ホストが一部のデータを使用できるようになる場合があります。ただし、このアクションは、データ破損の可能性をホストに直接提示します。ホストでは、3/11/0チェック条件の問題で、特定のブロックからの読み取りの問題が引き続き発生しています。