VPLEX:後端效能問題造成 VPlex 分散式裝置嚴重寫入延遲
Summary: 本文討論如何運用鏡像隔離功能來解決 VPLEX RAID-1 裝置的後端效能問題。
Symptoms
主機遇到嚴重的寫入延遲,這可能會導致效能 DU。
在 VPlex 端,可能會有狀態為 0x2a 或 0x8a 的主機中止 (stdf/10 事件)。這表示主機正在中止寫入 IOs:
128.221.252.67/cpu0/log:5988:W/“00601672b5b475554-2”:126043:<6>2019/01/10 19:39:09.68: fcp ITLQ 上的 stdf/10 Scsi Tmf [中止工作]:[10:00:00:00:C9:C9:AB:DC (0x10000000c9c9abdc) A0-FC00 (0x5000144260756500) 0x8000000000000 0x243] 卷 dd_vol 任務已用時間 (usec) 5339 休眠 QCnt 0 已啟用 QCnt 0 狀態 2a00000000000605:400ac80000002
128.221.252.67/cpu0/log:5988:W/“00601672b5b475554-2”:126043:<6>2019/01/10 19:39:09.68: fcp ITLQ 上的 stdf/10 Scsi Tmf [中止任務]:[10:00:00:00:C9:C9:AB:DC (0x10000000c9c9abdc) A0-FC00 (0x5000144260756500) 0x8000000000000 0x243] 卷 dd_vol 任務已用時間 (usec) 5339 休眠 QCnt 0 已啟用 QCnt 0 狀態 2a00000000000605:400ac80000002
128.221.252.67/cpu0/log:5988:W/“00601672b5b475554-2”:126043:<6>2019/01/10 19:39:09.68: fcp ITLQ 上的 stdf/10 Scsi Tmf [中止任務]:[10:00:00:00:C9:C9:AB:DC (0x10000000c9c9abdc) A0-FC00 (0x5000144260756500) 0x8000000000000 0x243] 卷 dd_vol 任務經過時間 (usec) 5339 休眠 QCnt 0 已啟用 QCnt 0 狀態 2a00000000000605:400ac80000002
儲存磁碟區的後端逾時串流 (scsi/140 事件),對應至受影響的主機所顯示的虛擬磁碟區:
firmware.log_20181019000922:128.221.253.36/cpu0/log:5988:W/“0060166fc49615528-1”:304763:<4>2019/01/10 19:39:09.68: scsi/140 Scsi 命令 0x7ec67ce41278 逾時,作業碼 0x2a luid VPD83T3:6000 304764<> 20181019000922 0x5006016c47e02548 0x000f000000000000 firmware.log 0xc0014487873b8800 00000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000002019/01/10 19:39:09.09. 68:SCSI/140 Scsi 命令 0x7ec67b9c99f0 逾時,作業碼 0x2a luid VPD83T3:60000000000000000000000000000000 nexus x fcp i 0xc0014487873b8800 t 0x5006016c47e02548 0x004f000000000000 firmware.log_20181019000922:128.221.253.36/cpu0/log:5988:W/“0060166fc49615528-1”:304765::<4>2019/01/10 19:39:09.68: scsi/140 Scsi 命令 0x7ec67f032f90 逾時,作業碼 0x2a luid VPD83T3:60000 0x5006016d47e02548 0xc0014487873b8900 000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000x000f0000000000
受影響的儲存磁碟區也可能觀察到效能下降事件 (AMF/249 事件)。
128.221.253.67/cpu0/log:5988:W/“0060166fd1a610335-2”:2359857:<4>2019/01/10 19:39:09.6:amf/249 amf sop_xxxx性能下降。平均寫入 I/O 延遲從 0.0 毫秒增加到 216.197 毫秒,高於可接受的 200 毫秒限制。
128.221.253.67/cpu0/log:5988:W/“0060166fd1a610335-2”:2359857:<4>2019/01/10 19:39:09.6:amf/249 amf sop_xxxx性能下降。平均寫入 I/O 延遲從 0.0 毫秒增加到 216.197 毫秒,高於可接受的 200 毫秒限制。
128.221.253.67/cpu0/log:5988:W/“0060166fd1a610335-2”:2359857:<4>2019/01/10 19:39:09.6:amf/249 amf sop_xxxx性能下降。平均寫入 I/O 延遲從 0.0 毫秒增加到 216.197 毫秒,高於可接受的 200 毫秒限制。
在性能不佳的存儲卷上構建的 RAID-1 鏡腿可能會降低整個 RAID-1 設備的性能,並增加使用此設備的應用程式的 I/O 延遲。這是因為寫入 I/O 只有在兩條腿上都得到確認後才會寫入 (其中一個是表現不佳的腿)
Cause
Resolution
VPlexcli:/>裝置鏡像隔離啟用
VPlexcli:/>裝置鏡像隔離顯示
叢集已啟用自動解除隔離隔離間隔解除隔離
間隔 --------- ------- ---------------- ------------------ --------------------
cluster-1 true true 60 14400
cluster-2 true true 60 14400
此功能會自動隔離 [停止執行 I/O 的] 效能不佳的 RAID-1 連接埠。它會根據叢集啟用。
優點:
- 自動功能,可在問題發生後迅速隔離效能不佳的支腿 [通常在幾分鐘內]
- 當裝置變成單一隔離時,重建會自動發生,且只會重新建置隔離裝置支線時發生的變更。這通常只需要幾分鐘即可重新同步
- 可以輕鬆快速地啟用和禁用該功能
- 當設備分支被隔離時,頂級設備不再具有冗餘
- 隔離裝置支線後,VPLEX 在 4 小時內不會檢查以解除隔離支線 [這可避免間歇性效能問題造成間歇性效能影響的情況]
如需鏡像隔離功能的進一步詳細資料,請參閱 VPLEX 管理員指南。
使用鏡像隔離只能緩解性能問題,從而停止對性能的影響。但是,性能下降的根本原因需要進一步調查。後端陣列和後端網狀架構團隊應參與以進一步調查此問題。
注意:
另請參閱 KB 530520,「VPLEX:光纖或陣列控制器中的單一元件故障,可能導致主機在透過 VPLEX 存取儲存裝置時持續發生效能 DU」
Additional Information
| https://downloads.dell.com/TranslatedPDF/PT-BR_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/ZH-CN_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/AR-EG_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/DE_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/ES_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/FR_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/KO_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/JA_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/IT_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/NL_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/PT_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/RU_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/SV_KB530258.pdf |