PowerScale: Problemer med SyncIQ-replikering når jumbodelbilder er aktivert på PowerScale-klynger
Summary: SyncIQ-replikeringsjobber kan periodevis mislykkes på grunn av omstart av SyncIQ-arbeider og nettverksrelaterte feil. Disse problemene oppstår ofte i miljøer der PowerScale-delnett er konfigurert til å bruke jumborammer. Kunnskapsbasen (KB) skisserer prosedyrer for å validere om ende-til-ende-nettverksinfrastrukturen støtter jumborammer når IP-pakker overføres med DF-flagget (Do Not Fragment) angitt i IP-hodet. Når DF-biten er aktivert, kan ikke mellomliggende enheter fragmentere overdimensjonerte pakker. Hvis et segment av nettverksbanen ikke støtter den konfigurerte MTU-størrelsen (vanligvis 9000 byte for jumborammer), kan disse pakkene bli droppet, noe som potensielt kan føre til feil i SyncIQ-arbeidsprosessen og ustabilitet i replikasjonsjobben. ...
Symptoms
SyncIQ-replikering kan mislykkes med følgende feil: "SyncIQ policy failed. A work item has been restarted too many times."
- SyncIQ-jobber som replikerer små datasett, fullføres vanligvis uten problemer.
- SyncIQ-jobber som involverer større datasett, kan mislykkes under kjøring.
- SyncIQ-replikeringsjobber uten kryptering lykkes, mens de som bruker kryptering, mislykkes umiddelbart.
Cause
Dette problemet kan oppstå midlertidig eller vises tilfeldig i miljøer der dynamisk ruting er aktivert. I slike tilfeller kan SyncIQ-trafikk av og til rutes gjennom en nettverksbane som ikke støtter pakkefragmentering, noe som fører til feil.
Feilsøking:
- Bruk ping-kommandoen til å kontrollere om nettverksinfrastrukturen støtter jumborammer ved å teste ende-til-ende-MTU-kompatibilitet.
ping kommando fra replikeringsgrensesnittet til replikeringsgrensesnittet til replikeringsgrensesnittet til målklyngen, der du angir en nyttelaststørrelse på 8972 byte uten å angi "Do Not Fragment"-flagget (DF).
isi_for_array -n<lnn> 'ping -S <source-ip> -s 8972 <target-ip>'
source-1# isi_for_array -n1 'ping -c 4 -S xxx.xxx.xxx.xxx -s 8972 yyy.yyy.yyy.yyy'
source-1: PING yyy.yyy.yyy.yyy (10.0.1.231) from xxx.xxx.xxx.xxx: 8972 data bytes
source-1: 1528 bytes from yyy.yyy.yyy.yyy: icmp_seq=0 ttl=64 time=0.944 ms
source-1: 1528 bytes from yyy.yyy.yyy.yyy: icmp_seq=1 ttl=64 time=0.797 ms
source-1: 1528 bytes from yyy.yyy.yyy.yyy: icmp_seq=2 ttl=64 time=0.912 ms
Utdataene viser at nettverketvellykket passerer pakker når "Do Not Fragment" (DF)-flagget ikke er angitt, noe som tyder på at pakker kan være fragmentert under transport.
Hvis du vil kontrollere jumbopakkestøtten ved å sende en ping fra replikeringsgrensesnittet til kildeklyngens replikeringsgrensesnitt med "Ikke fragment"-flagget aktivert, gjør du følgende:
isi_for_array -n<lnn> 'ping -S <source-ip> -D -s 8972 <target-ip>'
source-1# isi_for_array -n1 'ping -c 4 -S xxx.xxx.xxx.xxx -D -s 8972 yyy.yyy.yyy.yyy'
source-1: ping: sendto: Message too long
source-1: ping: sendto: Message too long
source-1: ping: sendto: Message too long
source-1: ping: sendto: Message too long
source-1: ping: sendto: Message too long
Utdataene viser at pakkeoverføring mislykkes når "Do Not Fragment" (DF)-biten er angitt, noe som tyder på mulige MTU-begrensninger eller problemer med bane-MTU-oppdagelse.
- Bruk
traceroutemed MTU-testing for å identifisere mellomliggende nettverkshopp som kanskje ikke støtter jumborammer.
Testing som angir en nyttelaststørrelse på 8972 byte med "Do Not Fragment"-flagget (DF) uangitt.
isi_for_array -n<lnn> 'traceroute -s <source-ip> -p 5667 <target-ip> 8972'
source-1# isi_for_array -n1 'traceroute -s xxx.xxx.xxx.xxx -p 5667 yyy.yyy.yyy.yyy 8972' traceroute to yyy.yyy.yyy.yyy (yyy.yyy.yyy.yyy) from xxx.xxx.xxx.xxx, 64 hops max, 8972 byte packets 1 example.name.internal (aaa.aaa.aaa.aaa) 0.577 ms 0.470 ms 0.472 ms 2 bbb.bbb.bbb.bbb (bbb.bbb.bbb.bbb) 24.810 ms ccc.ccc.ccc.ccc (ccc.ccc.ccc.ccc) 23.418 ms 23.366 ms 3 yyy.yyy.yyy.yyy (yyy.yyy.yyy.yyy) 23.639 ms 23.596 ms 23.608 ms
Resultatet viser at traceroute-testen ble fullført når «Do Not Fragment»-flagget (DF) ikke var angitt.
source-1# isi_for_array -n1 'traceroute -s xxx.xxx.xxx.xxx -p 5667 yyy.yyy.yyy.yyy 8972' traceroute to yyy.yyy.yyy.yyy (yyy.yyy.yyy.yyy) from xxx.xxx.xxx.xxx, 64 hops max, 8972 byte packets 1 * * * 2 * * * 3 yyy.yyy.yyy.yyy (yyy.yyy.yyy.yyy) 23.661 ms 23.618 ms 23.743 ms
Resultatet viser at traceroute-testen ble fullført vellykket da 'Do Not Fragment' (DF)-flagget ikke ble angitt, men fragmenteringsindikatorer ble observert langs nettverksbanen.
Testing som angir en nyttelaststørrelse på 8972 byte med "Do Not Fragment"-flagget (DF) angitt.
isi_for_array -n<lnn> 'traceroute -F -s <source-ip> -p 5667 <target-ip> 8972'
source-1# isi_for_array -n1 'traceroute -F -s xxx.xxx.xxx.xxx -p 5667 yyy.yyy.yyy.yyy 8972'
traceroute to yyy.yyy.yyy.yyy (yyy.yyy.yyy.yyy) from xxx.xxx.xxx.xxx, 64 hops max, 8972 byte packets
traceroute: sendto: Message too long
1 traceroute: wrote yyy.yyy.yyy.yyy 8972 chars, ret=-1
*traceroute: sendto: Message too long
traceroute: wrote yyy.yyy.yyy.yyy 8972 chars, ret=-1
*traceroute: sendto: Message too long
traceroute: wrote yyy.yyy.yyy.yyy 8972 chars, ret=-1
*
traceroute: sendto: Message too long
2 traceroute: wrote yyy.yyy.yyy.yyy 8972 chars, ret=-1
*traceroute: sendto: Message too long
traceroute: wrote yyy.yyy.yyy.yyy 8972 chars, ret=-1
*traceroute: sendto: Message too long
traceroute: wrote yyy.yyy.yyy.yyy 8972 chars, ret=-1
*
Utdataene indikerer at sporingsruten til målet mislyktes, noe som tyder på potensielle MTU-begrensninger eller fragmenteringsproblemer langs nettverksbanen.
Resolution
Omgåelse av problemet:
- Hvis PowerScale-subnettet som er beregnet for SyncIQ-trafikk, er konfigurert med en MTU på 9000 byte, er det viktig å sikre at hele nettverksbanen mellom de deltakende PowerScale-klyngene har full støtte for jumborammer.
- Hvis nettverksbanen mellom deltakende PowerScale-klynger ikke støtter jumborammer, må du kontrollere at PowerScale-delnettet som er dedikert til SyncIQ-trafikk, er konfigurert med en MTU på 1500 byte på både kilde- og målsystemene.