「VPLEX:バックエンド パフォーマンスの問題によるVPlex分散デバイスでの深刻な書き込みレイテンシー
Summary: この記事では、VPLEX RAID-1デバイスのバックエンド パフォーマンスの問題が発生した場合にミラー分離機能を使用する方法について説明します。
Symptoms
ホストで深刻な書き込みレイテンシーが発生しており、パフォーマンスDUが発生する可能性があります
VPlex側からは、ステータスが0x2aまたは0x8aのホスト中止(stdf/10イベント)のストリームがある場合があります。これは、ホストが書き込みIOを中止していることを意味します:
128.221.252.67/cpu0/log:5988:W/"00601672b5b475554-2":126043:<6>2019/01/10 19:39:09.68: stdf/10 scsi tmf [中止タスク] fcp ITLQ: [10:00:00:00:C9:C9:AB:DC(0x10000000c9c9abdc)A0-FC00(0x5000144260756500)0x8000000000000 0x243] vol dd_vol taskElapsedTime(usec)5339 dormantQCnt 0 enabledQCnt 0 status 2a000000000000605:400ac80000002
128.221.252.67/cpu0/log: 5988: W/"00601672b5b475554-2":126043:<6>2019/01/10 19:39:09.68:stdf/10 scsi tmf [中止タスク]fcp ITLQで: [10:00:00:00:C9:C9:AB:DC(0x10000000c9c9abdc)A0-FC00(0x5000144260756500)0x8000000000000 0x243] vol dd_vol taskElapsedTime(usec)5339 dormantQCnt 0 enabledQCnt 0 status 2a000000000000605:400ac80000002
128.221.252.67/cpu0/log: 5988: W/"00601672b5b475554-2":126043:<6>2019/01/10 19:39:09.68:stdf/10 scsi tmf [中止タスク]fcp ITLQで: [10:00:00:00:C9:C9:AB:DC (0x10000000c9c9abdc) A0-FC00 (0x5000144260756500) 0x8000000000000 0x243] vol dd_vol taskElapsedTime(usec) 5339 dormantQCnt 0 enabledQCnt 0 status 2a000000000000605:400ac80000002
影響を受けるホストに提示された仮想ボリュームに対応するストレージ ボリュームに対するバックエンド タイムアウト(scsi/140イベント)のストリーム:
firmware.log_20181019000922:128.221.253.36/cpu0/log:5988: W/"0060166fc49615528-1":304763:<4>2019/01/10 19:39:09.68:scsi/140 Scsiコマンド0x7ec67ce41278タイムアウト、オペコード0x2a luid VPD83T3:60000><304764 20181019000922 0x5006016c47e02548 0x000f000000000000 firmware.log 0xc0014487873b8800 00000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000002019/01/10 19:39:09.68:scsi/140 Scsiコマンド0x7ec67b9c99f0タイムアウト、オペコード0x2a luid VPD83T3: 60000 0x5006016d47e02548 0xc0014487873b8900 VPD83T3 0x2a 0x7ec67f032f90><304765 20181019000922 0x5006016c47e02548 0x004f000000000000 firmware.log 0xc0014487873b8800 000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000x000f0000000000
影響を受けるストレージ ボリュームに対して、パフォーマンス低下イベント(amf/249イベント)も確認できます
128.221.253.67/cpu0/log: 5988: W/"0060166fd1a610335-2": 2359857:<4>2019/01/10 19:39:09.6: amf/249 Amf sop_xxxxのパフォーマンスが低下しました。平均書き込みI/Oレイテンシーが0.0ミリ秒から216.197ミリ秒に増加し、許容制限の200ミリ秒を超えました
128.221.253.67/cpu0/log: 5988: W/"0060166fd1a610335-2": 2359857:<4>2019/01/10 19:39:09.6: amf/249 Amf sop_xxxxのパフォーマンスが低下しました。平均書き込みI/Oレイテンシーが0.0ミリ秒から216.197ミリ秒に増加し、許容制限の200ミリ秒を超えました
128.221.253.67/cpu0/log: 5988: W/"0060166fd1a610335-2": 2359857:<4>2019/01/10 19:39:09.6: amf/249 Amf sop_xxxxのパフォーマンスが低下しました。平均書き込みI/Oレイテンシーが0.0ミリ秒から216.197ミリ秒に増加し、許容制限の200ミリ秒を超えました
パフォーマンスの低いストレージボリューム上に構築された RAID-1 ミラーレッグは、RAID-1 デバイス全体のパフォーマンスを低下させ、このデバイスを使用するアプリケーションへの I/O レイテンシを増加させる可能性があります。これは、書き込みI/Oが両方のレッグ(どちらか一方はパフォーマンスの悪いレッグ)で確認された後にのみ書き込まれるためです
Cause
Resolution
VPlexcli:/>device mirror-isolation enable
VPlexcli:/>device mirror-isolation show
Cluster Enabled Auto unisolation Isolation Interval Unisolation Interval
--------- ------- ---------------- ------------------ --------------------
cluster-1 true true 60 14400
cluster-2 true true 60 14400
この機能は、パフォーマンスの低いRAID-1レッグを自動的に分離します(I/Oの実行を停止します)。これはクラスターごとに有効になります。
長所:
- 自動機能により、パフォーマンスの低い部分を問題発生後すぐに(通常は数分以内に)切り分ける
- デバイスが分離解除されると、再構築は自動的に行われ、デバイス レッグが分離されている間に発生した変更のみが再構築されます。これは通常、再同期に数分しかかかりません
- この機能は、簡単かつ迅速に有効または無効にすることができます
- デバイス レッグが分離されている間は、最上位のデバイスに冗長性がなくなります
- デバイス レッグが分離されると、VPLEXは4時間の間そのレッグの分離解除をチェックしません(これにより、断続的なパフォーマンスの問題が断続的なパフォーマンス インパクトを引き起こす状況を回避できます)
ミラー分離機能の詳細については、『VPLEX Admin Guide』を参照してください
ミラー分離を使用すると、パフォーマンスの問題のみが軽減されるため、パフォーマンスへの影響が停止されます。ただし、パフォーマンス低下の根本原因をさらに調査する必要があります。バックエンド アレイ チームとバックエンド ファブリック チームが関与して、この問題をさらに調査する必要があります
メモ:
KB 530520「VPLEX: ファブリックまたはアレイ コントローラーで単一コンポーネントに障害が発生すると、VPLEXを介してストレージにアクセスするホストで継続的なパフォーマンスDUが発生する可能性があります。
Additional Information
| https://downloads.dell.com/TranslatedPDF/PT-BR_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/ZH-CN_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/AR-EG_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/DE_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/ES_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/FR_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/KO_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/JA_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/IT_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/NL_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/PT_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/RU_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/SV_KB530258.pdf |