VPLEX: Latência grave de gravação em dispositivos distribuídos do VPlex devido a problemas de desempenho de back-end
Summary: Este artigo fala sobre a utilização do recurso de isolamento espelhado durante problemas de desempenho de back-end em dispositivos RAID 1 do VPLEX.
Symptoms
Os hosts estão enfrentando latência grave de gravação, o que pode causar uma DU de desempenho.
No lado do VPlex, pode haver um fluxo de anulações de host (eventos stdf/10) com um status de 0x2a ou 0x8a. Isso significa que os hosts estão anulando as E/S de gravação:
128.221.252.67/cpu0/log:5988:W/"00601672b5b475554-2":126043:<6>2019/01/10 19:39:09.68: stdf/10 Scsi Tmf [Abort Task] no fcp ITLQ: [10:00:00:00:C9:C9:AB:DC (0x10000000c9c9abdc) A0-FC00 (0x5000144260756500) 0x8000000000000 0x243] vol dd_vol taskElapsedTime(usec) 5339 dormantQCnt 0 enabledQCnt 0 status 2a0000000000605:400ac80000002
128.221.252.67/cpu0/log:5988:W/"00601672b5b475554-2":126043:<6>2019/01/10 19:39:09.68: stdf/10 Scsi Tmf [Abort Task] no fcp ITLQ: [10:00:00:00:C9:C9:AB:DC (0x10000000c9c9abdc) A0-FC00 (0x5000144260756500) 0x8000000000000 0x243] vol dd_vol taskElapsedTime(usec) 5339 dormantQCnt 0 enabledQCnt 0 status 2a0000000000605:400ac80000002
128.221.252.67/cpu0/log:5988:W/"00601672b5b475554-2":126043:<6>2019/01/10 19:39:09.68: stdf/10 Scsi Tmf [Abort Task] no fcp ITLQ: [10:00:00:00:C9:C9:AB:DC (0x10000000c9c9abdc) A0-FC00 (0x5000144260756500) 0x8000000000000 0x243] vol dd_vol taskElapsedTime(usec) 5339 dormantQCnt 0 enabledQCnt 0 status 2a00000000000605:400ac80000002
Fluxo de timeouts de back-end (eventos scsi/140) em relação ao volume de armazenamento que corresponde ao volume virtual apresentado aos hosts afetados:
firmware.log_20181019000922:128.221.253.36/cpu0/log:5988:W/"0060166fc49615528-1":304763:<4>2019/01/10 19:39:09.68: scsi/140 Scsi command 0x7ec67ce41278 timeout, opcode 0x2a luid VPD83T3:60000000000000000000000000 nexus x fcp i 0xc0014487873b8800 t 0x5006016c47e02548 0x000f000000000000 firmware.log_20181019000922:128.221.253.36/cpu0/log:5988:W/"0060166fc49615528-1":304764:<4>2019/01/10 19:39:09.09.2019 68: comando scsi/140 Scsi 0x7ec67b9c99f0 tempo de espera excedido, opcode 0x2a luid VPD83T3:600000000000000000000000000 nexus x fcp i 0xc0014487873b8800 t 0x5006016c47e02548 0x004f000000000000 firmware.log_20181019000922:128.221.253.36/cpu0/log:5988:W/"0060166fc49615528-1":304765:<4>2019/01/10 19:39:09.68: comando scsi/140 Sc 0x7ec67f032f90 si tempo de espera excedido, opcode 0x2a luid VPD83T3:600 0x5006016d47e02548 0xc0014487873b8900 000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000 0x000f0000000000
Eventos de degradação do desempenho também podem ser observados (eventos amf/249) nos volumes de armazenamento afetados.
128.221.253.67/cpu0/log:5988:W/"0060166fd1a610335-2":2359857:<4>2019/01/10 19:39:09.6: amf/249 Amf sop_xxxx desempenho degradado. A latência média de E/S de gravação aumentou de 0,0 milissegundos para 216,197 milissegundos, que está acima do limite aceitável de 200 milissegundos.
128.221.253.67/cpu0/log:5988:W/"0060166fd1a610335-2":2359857:<4>2019/01/10 19:39:09.6: amf/249 Amf sop_xxxx desempenho degradado. A latência média de E/S de gravação aumentou de 0,0 milissegundos para 216,197 milissegundos, que está acima do limite aceitável de 200 milissegundos.
128.221.253.67/cpu0/log:5988:W/"0060166fd1a610335-2":2359857:<4>2019/01/10 19:39:09.6: amf/249 Amf sop_xxxx desempenho degradado. A latência média de E/S de gravação aumentou de 0,0 milissegundos para 216,197 milissegundos, que está acima do limite aceitável de 200 milissegundos.
Um trecho de espelhamento do RAID-1 baseado em um volume de armazenamento de baixo desempenho pode reduzir o desempenho de todo o dispositivo RAID-1 e aumentar as latências de E/S para os aplicativos que usam esse dispositivo. Isso se deve ao fato de que as E/Ss de gravação só são gravadas depois de serem reconhecidas em ambas as pernas (uma delas é a perna de baixo desempenho)
Cause
Resolution
VPlexcli:/>device mirror-isolation enable
VPlexcli:/>device mirror-isolation show
Cluster Enabled Auto unisolation Interval Unisolation Interval Unisolation Interval
--------- ------- ---------------- ------------------ --------------------
cluster-1 true true 60 14400
cluster-2 true 60 14400
Esse recurso isolará automaticamente [para de fazer E/S para] trechos RAID-1 de baixo desempenho. Ele é habilitado por cluster.
Profissionais:
- Funcionalidade automática que pode isolar trechos de baixo desempenho rapidamente após o problema ocorrer [geralmente em alguns minutos]
- Quando um dispositivo se torna não isolado, a reconstrução ocorrerá automaticamente e reconstruirá apenas as alterações que ocorreram enquanto a perna do dispositivo estava isolada. Normalmente, isso leva apenas uma questão de minutos para ser sincronizado novamente
- O recurso pode ser ativado e desativado com facilidade e rapidez
- Enquanto um trecho do dispositivo é isolado, o dispositivo de nível superior não tem mais redundância
- Depois que um trecho do dispositivo é isolado, o VPLEX não verifica para desisolar o trecho por 4 horas [isso evita a situação em que problemas intermitentes de desempenho causam impacto intermitente no desempenho]
Para obter mais detalhes sobre o recurso de isolamento espelhado, consulte o Guia do administrador do VPLEX.
O uso do isolamento espelhado só alivia os problemas de desempenho, interrompendo assim o impacto sobre o desempenho. No entanto, a causa raiz da degradação do desempenho precisa ser mais investigada. As equipes de arrays de back-end e fabric de back-end devem ser envolvidas para investigar isso mais a fundo.
NOTA:
Consulte também a KB 530520, "VPLEX: Falhas de componente único nos controladores de fabric ou array podem levar a DU de desempenho contínuo em hosts que acessam o armazenamento por meio do VPLEX"
Additional Information
| https://downloads.dell.com/TranslatedPDF/PT-BR_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/ZH-CN_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/AR-EG_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/DE_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/ES_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/FR_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/KO_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/JA_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/IT_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/NL_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/PT_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/RU_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/SV_KB530258.pdf |