PowerScale: Problémy s replikací SyncIQ, když jsou v clusterech PowerScale povoleny rámce typu Jumbo.
Summary: Úlohy replikace SyncIQ mohou občas selhat kvůli restartování pracovního procesu SyncIQ a chybám souvisejícím se sítí. K těmto problémům často dochází v prostředích, kde jsou podsítě PowerScale nakonfigurovány tak, aby používaly rámce typu jumbo. Znalostní báze Knowledge Base (KB) popisuje postupy pro ověření, zda síťová infrastruktura typu end-to-end podporuje rámce typu jumbo při přenosu paketů IP s příznakem "Do Not Fragment" (DF) nastaveným v hlavičce protokolu IP. Je-li povolen bit DF, zprostředkující zařízení nemohou fragmentovat nadměrně velké pakety. Pokud některý segment síťové cesty nepodporuje nakonfigurovanou velikost jednotky MTU (obvykle 9000 bajtů pro rámce typu jumbo), mohou být tyto pakety zahozeny, což může vést k selhání pracovního procesu SyncIQ a nestabilitě úloh replikace. ...
Symptoms
Replikace SyncIQ může selhat s následující chybou: "SyncIQ policy failed. A work item has been restarted too many times."
- Úlohy SyncIQ replikující malé datové sady se obvykle dokončí úspěšně.
- Úlohy SyncIQ zahrnující větší datové sady mohou během provádění selhat.
- Úlohy replikace SyncIQ bez šifrování jsou úspěšné, zatímco úlohy používající šifrování selžou okamžitě.
Cause
K tomuto problému může docházet občas nebo se může objevit náhodně v prostředích, kde je povoleno dynamické směrování. V takových případech může být provoz SyncIQ občas směrován přes síťovou cestu, která nepodporuje fragmentaci paketů, což vede k selhání.
Odstraňování problémů:
- Pomocí příkazu ping ověřte, zda síťová infrastruktura podporuje rámce typu jumbo, a to tak, že otestujete komplexní kompatibilitu jednotky MTU.
ping z replikačního rozhraní zdrojového clusteru do replikačního rozhraní cílového clusteru a určete velikost datové části 8972 bajtů bez nastavení příznaku "Nefragmentovat" (DF).
isi_for_array -n<lnn> 'ping -S <source-ip> -s 8972 <target-ip>'
source-1# isi_for_array -n1 'ping -c 4 -S xxx.xxx.xxx.xxx -s 8972 yyy.yyy.yyy.yyy'
source-1: PING yyy.yyy.yyy.yyy (10.0.1.231) from xxx.xxx.xxx.xxx: 8972 data bytes
source-1: 1528 bytes from yyy.yyy.yyy.yyy: icmp_seq=0 ttl=64 time=0.944 ms
source-1: 1528 bytes from yyy.yyy.yyy.yyy: icmp_seq=1 ttl=64 time=0.797 ms
source-1: 1528 bytes from yyy.yyy.yyy.yyy: icmp_seq=2 ttl=64 time=0.912 ms
Výstup ukazuje, žesíť úspěšně předává pakety, když není nastaven příznak "Do Not Fragment" (DF), což naznačuje, že pakety mohou být fragmentovány při přenosu.
Chcete-li ověřit podporu paketů jumbo odesláním příkazu ping z replikačního rozhraní zdrojového clusteru do replikačního rozhraní cílového clusteru s povoleným příznakem "Nefragmentovat", postupujte takto:
isi_for_array -n<lnn> 'ping -S <source-ip> -D -s 8972 <target-ip>'
source-1# isi_for_array -n1 'ping -c 4 -S xxx.xxx.xxx.xxx -D -s 8972 yyy.yyy.yyy.yyy'
source-1: ping: sendto: Message too long
source-1: ping: sendto: Message too long
source-1: ping: sendto: Message too long
source-1: ping: sendto: Message too long
source-1: ping: sendto: Message too long
Výstup ukazuje, že přenos paketů selže, když je nastaven bit "Do Not Fragment" (DF), což naznačuje možná omezení jednotky MTU nebo problémy se zjišťováním jednotky MTU v cestě.
- Pomocí
traceroutes testováním MTU k identifikaci mezilehlých síťových skoků, které nemusí podporovat rámce typu jumbo.
Probíhá testování velikosti datové části 8972 bajtů s nenastaveným příznakem "Do Not Fragment" (DF).
isi_for_array -n<lnn> 'traceroute -s <source-ip> -p 5667 <target-ip> 8972'
source-1# isi_for_array -n1 'traceroute -s xxx.xxx.xxx.xxx -p 5667 yyy.yyy.yyy.yyy 8972' traceroute to yyy.yyy.yyy.yyy (yyy.yyy.yyy.yyy) from xxx.xxx.xxx.xxx, 64 hops max, 8972 byte packets 1 example.name.internal (aaa.aaa.aaa.aaa) 0.577 ms 0.470 ms 0.472 ms 2 bbb.bbb.bbb.bbb (bbb.bbb.bbb.bbb) 24.810 ms ccc.ccc.ccc.ccc (ccc.ccc.ccc.ccc) 23.418 ms 23.366 ms 3 yyy.yyy.yyy.yyy (yyy.yyy.yyy.yyy) 23.639 ms 23.596 ms 23.608 ms
Výstup ukazuje, že test traceroute byl úspěšně dokončen, když nebyl nastaven příznak "Do Not Fragment" (DF).
source-1# isi_for_array -n1 'traceroute -s xxx.xxx.xxx.xxx -p 5667 yyy.yyy.yyy.yyy 8972' traceroute to yyy.yyy.yyy.yyy (yyy.yyy.yyy.yyy) from xxx.xxx.xxx.xxx, 64 hops max, 8972 byte packets 1 * * * 2 * * * 3 yyy.yyy.yyy.yyy (yyy.yyy.yyy.yyy) 23.661 ms 23.618 ms 23.743 ms
Výstup ukazuje, že test traceroute byl úspěšně dokončen, když nebyl nastaven příznak "Nefragmentovat" (DF), ale podél síťové cesty byly pozorovány indikátory fragmentace .
Probíhá testování velikosti datové části 8972 bajtů s nastaveným příznakem "Nefragmentovat" (DF).
isi_for_array -n<lnn> 'traceroute -F -s <source-ip> -p 5667 <target-ip> 8972'
source-1# isi_for_array -n1 'traceroute -F -s xxx.xxx.xxx.xxx -p 5667 yyy.yyy.yyy.yyy 8972'
traceroute to yyy.yyy.yyy.yyy (yyy.yyy.yyy.yyy) from xxx.xxx.xxx.xxx, 64 hops max, 8972 byte packets
traceroute: sendto: Message too long
1 traceroute: wrote yyy.yyy.yyy.yyy 8972 chars, ret=-1
*traceroute: sendto: Message too long
traceroute: wrote yyy.yyy.yyy.yyy 8972 chars, ret=-1
*traceroute: sendto: Message too long
traceroute: wrote yyy.yyy.yyy.yyy 8972 chars, ret=-1
*
traceroute: sendto: Message too long
2 traceroute: wrote yyy.yyy.yyy.yyy 8972 chars, ret=-1
*traceroute: sendto: Message too long
traceroute: wrote yyy.yyy.yyy.yyy 8972 chars, ret=-1
*traceroute: sendto: Message too long
traceroute: wrote yyy.yyy.yyy.yyy 8972 chars, ret=-1
*
Výstup indikuje, že trasování trasování k cíli se nezdařilo, což naznačuje potenciální omezení jednotky MTU nebo problémy s fragmentací v síťové cestě.
Resolution
Zástupné řešení:
- Pokud je podsíť PowerScale určená pro provoz SyncIQ nakonfigurována na MTU 9000 bajtů, je zásadní zajistit, aby celá síťová cesta mezi zúčastněnými clustery PowerScale plně podporovala rámce typu Jumbo.
- Pokud síťová cesta mezi zúčastněnými clustery PowerScale nepodporuje rámce typu Jumbo, ujistěte se, že podsíť PowerScale vyhrazená pro provoz SyncIQ je nakonfigurovaná na jednotku MTU 1 500 bajtů ve zdrojovém i cílovém systému.