VPLEX: Poważne opóźnienia zapisu na urządzeniach rozproszonych VPlex z powodu problemów z wydajnością zaplecza
Summary: W tym artykule omówiono korzystanie z funkcji izolacji dublowania w przypadku problemów z wydajnością zaplecza w urządzeniach VPLEX RAID-1.
Symptoms
Hosty doświadczają poważnych opóźnień zapisu, co może spowodować obniżenie wydajności.
Po stronie VPlex może wystąpić strumień przerwań hosta (zdarzenia stdf/10) ze stanem 0x2a lub 0x8a. Oznacza to, że hosty przerywają zapis IOs:
128.221.252.67/cpu0/log:5988:W/"00601672b5b475554-2":126043:<6>2019/01/10 19:39:09.68: stdf/10 scsi tmf [zadanie przerwania] na fcp ITLQ: [10:00:00:00:C9:C9:AB:DC (0x10000000c9c9abdc) A0-FC00 (0x5000144260756500) 0x8000000000000 0x243] vol dd_vol taskElapsedTime(usec) 5339 uśpionyQCnt 0 włączonyQCnt 0 stan 2a00000000000605:400ac80000002
128.221.252.67/cpu0/log:5988:W/"00601672b5b475554-2":126043:<6>2019/01/10 19:39:09.68: stdf/10 scsi tmf [zadanie przerwania] na fcp ITLQ: [10:00:00:00:C9:C9:AB:DC (0x10000000c9c9abdc) A0-FC00 (0x5000144260756500) 0x8000000000000 0x243] vol dd_vol taskElapsedTime(usec) 5339 uśpionyQCnt 0 włączonyQCnt 0 stan 2a00000000000605:400ac80000002
128.221.252.67/cpu0/log:5988:W/"00601672b5b475554-2":126043:<6>2019/01/10 19:39:09.68: stdf/10 scsi tmf [zadanie przerwania] na fcp ITLQ: [10:00:00:00:C9:C9:AB:DC (0x10000000c9c9abdc) A0-FC00 (0x5000144260756500) 0x8000000000000 0x243] vol dd_vol taskElapsedTime (usec) 5339 uśpionyQCnt 0 włączonyQCnt 0 stan 2a00000000000605:400ac80000002
Strumień przekroczeń limitu czasu zaplecza (zdarzenia scsi/140) względem woluminu pamięci masowej odpowiadający woluminowi wirtualnemu przedstawionemu hostom, których dotyczy problem:
firmware.log_20181019000922:128.221.253.36/cpu0/log:5988:W/"0060166fc49615528-1":304763:<4>10.01.2019 19:39:09.68: scsi/140 0x7ec67ce41278Limit czasu polecenia scsi, kod operacji 0x2a luid VPD83T3:600 304764<> 20181019000922 0x5006016c47e02548 0x000f000000000000 firmware.log 0xc0014487873b8800 0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000002019/01/10 19:39:09.68: scsi/140 Scsi 0x7ec67b9c99f0 limit czasu, kod operacji 0x2a luid VPD83T3::60000000000000000000000000000000000000000000 nexus x fcp i 0xc0014487873b8800 t 0x5006016c47e02548 0x004f000000000000 firmware.log_20181019000922:128.221.253.36/cpu0/log:5988:W/"0060166fc49615528-1":304765:<4>10.01.2019 19:39:09.68: scsi/140 Scsi 0x7ec67f032f90 limit czasu, kod operacji 0x2a luid VPD83T3:600 0x5006016d47e02548 0xc0014487873b8900 000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000 0x000f0000000000
Można również zaobserwować zdarzenia spadku wydajności (zdarzenia amf/249) w odniesieniu do woluminów pamięci masowej, których dotyczy problem.
128.221.253.67/cpu0/log:5988:W/"0060166fd1a610335-2":2359857:<4>10.01.2019 19:39:09.6: amf/249 — obniżono wydajność sop_xxxx AMF. Średnie opóźnienie operacji we/wy zapisu zwiększone z 0,0 do 216,197 milisekundy, czyli powyżej dopuszczalnego limitu 200 milisekund.
128.221.253.67/cpu0/log:5988:W/"0060166fd1a610335-2":2359857:<4>10.01.2019 19:39:09.6: amf/249 — obniżona wydajność sop_xxxx AMF. Średnie opóźnienie operacji we/wy zapisu zwiększone z 0,0 do 216,197 milisekundy, czyli powyżej dopuszczalnego limitu 200 milisekund.
128.221.253.67/cpu0/log:5988:W/"0060166fd1a610335-2":2359857:<4>10.01.2019 19:39:09.6: amf/249 — obniżona wydajność sop_xxxx AMF. Średnie opóźnienie operacji we/wy zapisu zwiększone z 0,0 do 216,197 milisekundy, czyli powyżej dopuszczalnego limitu 200 milisekund.
Lustrzana noga RAID-1 zbudowana na mało wydajnym woluminie pamięci masowej może obniżyć wydajność całego urządzenia RAID-1 i zwiększyć opóźnienia we/wy aplikacji korzystających z tego urządzenia. Wynika to z faktu, że operacje we/wy zapisu są zapisywane dopiero po potwierdzeniu na obu nogach (jedna z nich to słaba noga)
Cause
Resolution
VPlexcli:/>izolacja lustrzana urządzenia włączona
VPlexcli:/>izolacja lustrzana urządzenia show
Klaster włączony Automatyczne odizolowywanie Interwał izolacji Interwał izolacji Interwał
izolacji --------- ------- ---------------- ------------------ --------------------
klaster-1 true true 60 14400
klaster-2 true true 60 14400
Funkcja ta automatycznie wyizoluje [przestań wykonywać operacje we/wy do] słabo działających odcinków RAID-1. Jest ona włączona dla każdego klastra.
Plusy:
- Automatyczna funkcja, która może wyizolować słabo sprawne nogi szybko po wystąpieniu problemu [zwykle w ciągu kilku minut]
- Gdy urządzenie stanie się nieizolowane, odbudowa nastąpi automatycznie i odbuduje tylko te zmiany, które wystąpiły, gdy noga urządzenia została odizolowana. Ponowna synchronizacja zajmuje zwykle tylko kilka minut
- Funkcję tę można łatwo i szybko włączyć lub wyłączyć
- Gdy noga urządzenia jest izolowana, urządzenie najwyższego poziomu nie ma już nadmiarowości
- Po odizolowaniu nogi urządzenia VPLEX nie będzie sprawdzać jej odłączenia przez 4 godziny [pozwala to uniknąć sytuacji, w której sporadyczne problemy z wydajnością powodują sporadyczny wpływ na wydajność]
Więcej informacji na temat funkcji izolacji lustrzanej można znaleźć w Podręczniku administratora VPLEX.
Użycie izolacji lustrzanej tylko łagodzi problemy z wydajnością, a tym samym zatrzymuje wpływ na wydajność. Należy jednak dokładniej zbadać pierwotną przyczynę pogorszenia wydajności. Zespoły zajmujące się macierzą zaplecza i siecią szkieletową zaplecza powinny zostać zaangażowane w dalsze zbadanie tego problemu.
UWAGA:
Należy również odwołać się do artykułu z bazy wiedzy 530520 "VPLEX: Awarie pojedynczych komponentów w kontrolerach sieci szkieletowej lub macierzy mogą prowadzić do ciągłego obniżenia wydajności na hostach uzyskujących dostęp do pamięci masowej za pośrednictwem VPLEX"
Additional Information
| https://downloads.dell.com/TranslatedPDF/PT-BR_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/ZH-CN_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/AR-EG_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/DE_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/ES_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/FR_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/KO_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/JA_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/IT_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/NL_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/PT_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/RU_KB530258.pdf |
| https://downloads.dell.com/TranslatedPDF/SV_KB530258.pdf |