VPLEX: Latencia de escritura grave en dispositivos distribuidos VPlex debido a problemas de rendimiento de back-end
Resumen: En este artículo, se aborda el uso de la característica de aislamiento de espejeado durante problemas de rendimiento de back-end en dispositivos VPLEX RAID-1.
Síntomas
Los hosts experimentan una latencia de escritura grave, lo que podría causar una DU de rendimiento.
Desde el lado de VPLEX, puede haber un flujo de anulaciones de host (eventos stdf/10) con un estado de 0x2a o 0x8a. Esto significa que los hosts están anulando la I/O de escritura:
128.221.252.67/cpu0/log:5988:W/"00601672b5b475554-2":126043:<6>2019/01/10 19:39:09.68: stdf/10 Scsi Tmf [Abort Task] en fcp ITLQ: [10:00:00:00:C9:C9:AB:DC (0x10000000c9c9abdc) A0-FC00 (0x5000144260756500) 0x8000000000000 0x243] vol dd_vol taskElapsedTime(usec) 5339 dormantQCnt 0 enabledQCnt 0 status 2a000000000000605:400ac80000002
128.221.252.67/cpu0/log:5988:W/"00601672b5b475554-2":126043:<6>2019/01/10 19:39:09.68: stdf/10 scsi tmf [abortar tarea] en fcp ITLQ: [10:00:00:00:C9:C9:AB:DC (0x10000000c9c9abdc) A0-FC00 (0x5000144260756500) 0x8000000000000 0x243] vol dd_vol taskElapsedTime(usec) 5339 dormantQCnt 0 enabledQCnt 0 status 2a000000000000605:400ac80000002
128.221.252.67/cpu0/log:5988:W/"00601672b5b475554-2":126043:<6>2019/01/10 19:39:09.68: stdf/10 scsi tmf [abortar tarea] en fcp ITLQ: [10:00:00:00:C9:C9:AB:DC (0x10000000c9c9abdc) A0-FC00 (0x5000144260756500) 0x8000000000000 0x243] vol dd_vol taskElapsedTime(usec) 5339 dormantQCnt 0 enabledQCnt 0 status 2a0000000000000605:400ac800000002
Flujo de tiempos de espera agotados de back-end (eventos scsi/140) en el volumen de almacenamiento que corresponde al volumen virtual presentado a los hosts afectados:
firmware.log_20181019000922:128.221.253.36/cpu0/log:5988:W/"0060166fc49615528-1":304763:<4>2019/01/10 19:39:09.68: SCSI/140 Tiempo de espera agotado del 0x7ec67ce41278 del comando scsi, código de operación 0x2a luid VPD83T3:60000 304764<> 20181019000922 0x5006016c47e02548 0x000f000000000000 firmware.log 0xc0014487873b8800 000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000010/01/2019 19:39:09.68: Tiempo de espera agotado del 0x7ec67b9c99f0 del comando scsi/140 scsi, código de operación 0x2a luid VPD83T3:6000 0x5006016d47e02548 0xc0014487873b8900 VPD83T3 0x2a 0x7ec67f032f90 304765<> 20181019000922 0x5006016c47e02548 0x004f000000000000 firmware.log 0xc0014487873b8800 0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000 0x000f0000000000
También se pueden observar eventos de degradación del rendimiento (eventos amf/249) en los volúmenes de almacenamiento afectados.
128.221.253.67/cpu0/log:5988:W/"0060166fd1a610335-2":2359857:<4>2019/01/10 19:39:09.6: amf/249 amf sop_xxxx rendimiento se degradó. La latencia promedio de I/O de escritura aumentó de 0,0 milisegundos a 216,197 milisegundos, lo que supera el límite aceptable de 200 milisegundos.
128.221.253.67/cpu0/log:5988:W/"0060166fd1a610335-2":2359857:<4>2019/01/10 19:39:09.6: amf/249 amf El rendimiento del sop_xxxx se degradó. La latencia promedio de I/O de escritura aumentó de 0,0 milisegundos a 216,197 milisegundos, lo que supera el límite aceptable de 200 milisegundos.
128.221.253.67/cpu0/log:5988:W/"0060166fd1a610335-2":2359857:<4>2019/01/10 19:39:09.6: amf/249 amf El rendimiento del sop_xxxx se degradó. La latencia promedio de I/O de escritura aumentó de 0,0 milisegundos a 216,197 milisegundos, lo que supera el límite aceptable de 200 milisegundos.
Un espejeado RAID-1 basado en un volumen de almacenamiento de bajo rendimiento puede reducir el rendimiento de todo el dispositivo RAID-1 y aumentar las latencias de I/O a las aplicaciones que utilizan este dispositivo. Esto se debe al hecho de que las I/O de escritura solo se escriben después de ser reconocidas en ambas secciones (una de ellas es la sección de bajo rendimiento)
Causa
Resolución
VPlexcli:/>device mirror-isolation enable
VPlexcli:/>device mirror-isolation show
Cluster Enabled Auto unisolation interval Unisolation Interval Unisolation Interval
--------- ------- ---------------- ------------------ --------------------
cluster-1 true true 60 14400
cluster-2 true true 60 14400
Esta característica aislará automáticamente [dejará de realizar I/O en] las secciones de RAID-1 de bajo rendimiento. Se habilita por clúster.
Pros:
- Funcionalidad automática que puede aislar las secciones de bajo rendimiento rápidamente después de que se produce el problema [generalmente en unos minutos]
- Cuando un dispositivo se vuelve no aislado, la reconstrucción se realizará automáticamente y reconstruirá solo los cambios que se produjeron mientras la sección del dispositivo estaba aislada. Por lo general, esto solo tarda unos minutos en volver a sincronizarse
- La función se puede activar y desactivar de forma fácil y rápida
- Mientras una sección del dispositivo está aislada, el dispositivo de nivel superior ya no tiene redundancia
- Una vez que se aísla una sección del dispositivo, VPLEX no verificará la anulación del aislamiento de la sección durante 4 horas [esto evita la situación en la que los problemas de rendimiento intermitentes causan un impacto intermitente en el rendimiento]
Para obtener más detalles sobre la función de aislamiento de espejeado, consulte la Guía del administrador de VPLEX.
El uso del aislamiento de espejeado solo alivia los problemas de rendimiento, por lo tanto, detiene el impacto en el rendimiento. Sin embargo, es necesario investigar más a fondo la causa raíz de la degradación del rendimiento. Los equipos de arreglos de back-end y fabric de back-end deben involucrarse para investigar esto más a fondo.
NOTA:
Consulte también el artículo 530520 de la base de conocimientos, "VPLEX: Las fallas de un solo componente en las controladoras de fabric o arreglo pueden provocar una DU de rendimiento continua en los hosts que acceden al almacenamiento a través de VPLEX"
Información adicional
| https://downloads.dell.com/TranslatedPDF/PT-BR_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/ZH-CN_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/AR-EG_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/DE_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/ES_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/FR_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/KO_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/JA_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/IT_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/NL_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/PT_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/RU_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/SV_KB530258.pdf |