PowerScale: Conversie van InfiniBand naar Ethernet kan leiden tot onjuiste configuratie van linkaggregatie
Summary: In dit artikel wordt beschreven hoe u een probleem kunt oplossen dat optreedt tijdens de back-end InfiniBand-naar-Ethernet-conversie van een cluster voor OneFS versie vóór 9.1.0.0.
Symptoms
OneFS-versies ouder dan 9.1 en het converteren van een cluster van InfiniBand naar Ethernet back-end kunnen leiden tot onjuist geconfigureerde geaggregeerde poorten. Het opnieuw opstarten van het knooppunt zou het slechte aggregaat creëren en een splitsing van het knooppunt veroorzaken.
Mellanox-leveranciersinterfaces (mlxen) die verkeerd zijn geconfigureerd voor aggregatie en er waarschijnlijk toe kunnen leiden dat het knooppunt niet opnieuw verbinding maakt met het cluster. Als ifconfig van een knooppunt wordt gecontroleerd, worden de interne ISI-interfaces weergegeven die zijn toegewezen aan lagg0.
Isilon-18# ifconfig bge0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 options=8009b<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,VLAN_HWCSUM,LINKSTATE> ether 00:60:16:cc:bb:aa inet 192.168.60.10 netmask 0xffffff80 broadcast 192.168.60.127 zone 1 nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> media: Ethernet autoselect (1000baseT <full-duplex,master>) status: active mlxen0: flags=1008843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST,ISIINTERNAL> metric 0 mtu 1500 options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> ether 98:03:9b:cc:bb:aa inet 128.221.252.18 netmask 0xffffff00 broadcast 128.221.252.255 zone 1 inet 128.221.254.18 netmask 0xffffff00 broadcast 128.221.254.255 zone 1 nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) status: active mlxen1: flags=1008843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST,ISIINTERNAL> metric 0 mtu 1500 options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> ether 98:03:9b:cc:bb:aa inet 128.221.253.18 netmask 0xffffff00 broadcast 128.221.253.255 zone 1 inet 128.221.254.18 netmask 0xffffff00 broadcast 128.221.254.255 zone 1 nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) status: active mlxen2: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> ether 98:03:9b:cc:bb:fa nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> media: Ethernet autoselect (10Gbase-CX4 <full-duplex,rxpause,txpause>) status: active mlxen3: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> ether 98:03:9b:cc:bb:fb nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> media: Ethernet autoselect (10Gbase-CX4 <full-duplex,rxpause,txpause>) status: active lagg0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> ether 98:03:9b:cc:bb:aa nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> media: Ethernet autoselect status: active groups: lagg laggproto lacp lagghash l2,l3,l4 laggport: mlxen0 flags=1c<ACTIVE,COLLECTING,DISTRIBUTING> laggport: mlxen1 flags=1c<ACTIVE,COLLECTING,DISTRIBUTING> vlan0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 options=303<RXCSUM,TXCSUM,TSO4,TSO6> ether 98:03:9b:cc:bb:aa inet 10.10.20.11 netmask 0xffffff00 broadcast 10.10.20.255 zone 18 nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> media: Ethernet autoselect status: active vlan: 100 vlanpcp: 0 parent interface: lagg0 groups: vlan
Cause
De conversie van Infiniband naar Ethernet verandert de interfacenamen van ib0 naar mlxen0 (int-a) en ib1 naar mlxen1 (int-b). De maker van de lag verwijst naar "mlxen0" en "mlxen1" als de externe netwerkinterfacepoorten. Mocht het probleem zich voordoen (wat betekent dat er geen preventieve maatregelen zijn genomen), dan zijn er stappen nodig om de toewijzing binnen Flexnet (de netwerkbeheerdaemon) te corrigeren.
Resolution
Vóór de migratie:
Dit probleem is opgelost voor OneFS 9.1 en hoger. Als u een getroffen versie gebruikt, moet u het volgende doen voordat u migreert van InfiniBand naar Ethernet.
- Verwijder alle geaggregeerde interfaces uit alle netwerkgroepen.
- Voltooi de migratie.
- Voeg alle geaggregeerde interfaces opnieuw toe aan alle benodigde netwerkgroepen.
Na de migratie:
Als het probleem is opgetreden en een knooppunt is gesplitst, voert u een van de volgende stappen uit (automatisch of handmatig) om het probleem te omzeilen.
Automatische resolutie (tijdelijke oplossing)
========================================================
-
Maak een back-up van het "lni"-bestand:
mv /etc/mcp/sys/lni.xml /etc/mcp/sys/lni.xml.bak
-
Verwijder de betreffende knooppuntinterface uit de netwerkgroep.
isi network pools modify <groupnet.subnet.pool> --remove-ifaces=<interface example: 2:40gige-agg-1>
-
Voer de volgende opdracht uit om het lni.xml bestand van het knooppunt opnieuw op te bouwen:
isi_create_lni_xml
-
Start het knooppunt opnieuw op.
-
Controleer of de interface correct is.
-
Ga verder met de laatste stap van het configureren van de MTU 9000. Nadat dit is uitgevoerd, voegt u de betreffende knooppuntinterface weer toe aan de groep.
isi network pools modify <groupnet.subnet.pool> --add-ifaces=<interface example: 2:40gige-agg-1>
Handmatige resolutie (tijdelijke oplossing)
========================================================
Om dit probleem op te lossen, heeft de laggports moet handmatig worden verwijderd door de volgende acties uit te voeren.
-
Gebruik een seriële verbinding met het betreffende knooppunt.
-
Schakel "mcp" uit op het betreffende knooppunt.
killall -9 isi_mcp
-
Schakel "isi_flexnet_d" uit op het betreffende knooppunt.
killall -9 isi_flexnet_d
-
Maak een back-up van beide "flx_config.xml"-bestanden in de lokale directory.
-
mv /etc/ifs/flexnet/flx_config.xml /etc/ifs/flexnet/flx_config.xml.bak
-
mv /etc/ifs/flexnet/flx_config.xml~ /etc/ifs/flexnet/flx_config.xml~.bak
-
-
Als er "vlan's" zijn gekoppeld aan de samengevoegde poort, haalt u deze naar beneden.
ifconfig <vlan interface> down
VOORBEELD
ifconfig vlan0 down
-
Verwijder de "laggports" uit de lag-interface.
ifconfig <lag interface> -laggport <mlx iface>
VOORBEELDEN
ifconfig lagg0 -laggport mlxen0
ifconfig lagg0 -laggport mlxen1
-
Verlaag de lag-interface.
ifconfig <lag iface> down
VOORBEELD
ifconfig lagg0 down
-
Nu de backend-interface is losgekoppeld van de lag-poort, test u de ping naar een ander knooppunt via "int-a" EN "int-b".
ping <back-end IP [int-a]>
ping <back-end IP [int-b]>
-
Controleer of het knooppunt niet langer offline is.
isi status -q
-
Om alle processen te vernieuwen, start u het knooppunt opnieuw op.