PowerScale: InfiniBand till Ethernet-konvertering kan resultera i felaktig konfiguration av länkaggregering
Summary: Den här artikeln beskriver hur du löser ett problem som uppstår under ett klusters InfiniBand till Ethernet-konvertering för ett kluster för OneFS-version före 9.1.0.0.
Symptoms
OneFS-versioner före 9.1 och konvertering av ett kluster från InfiniBand till Ethernet-serverdel kan resultera i felaktigt konfigurerade aggregerade portar. Om du startar om noden skapas den felaktiga aggregeringen och orsakar en noddelning.
Mellanox-leverantörsgränssnitt (mlxen) som är felkonfigurerade för aggregering och sannolikt kan leda till att noden inte kan återansluta till klustret. Om du granskar ifconfig från en nod visas ISIINTERNAL-gränssnitt mappade till lagg0.
Isilon-18# ifconfig bge0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 options=8009b<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,VLAN_HWCSUM,LINKSTATE> ether 00:60:16:cc:bb:aa inet 192.168.60.10 netmask 0xffffff80 broadcast 192.168.60.127 zone 1 nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> media: Ethernet autoselect (1000baseT <full-duplex,master>) status: active mlxen0: flags=1008843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST,ISIINTERNAL> metric 0 mtu 1500 options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> ether 98:03:9b:cc:bb:aa inet 128.221.252.18 netmask 0xffffff00 broadcast 128.221.252.255 zone 1 inet 128.221.254.18 netmask 0xffffff00 broadcast 128.221.254.255 zone 1 nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) status: active mlxen1: flags=1008843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST,ISIINTERNAL> metric 0 mtu 1500 options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> ether 98:03:9b:cc:bb:aa inet 128.221.253.18 netmask 0xffffff00 broadcast 128.221.253.255 zone 1 inet 128.221.254.18 netmask 0xffffff00 broadcast 128.221.254.255 zone 1 nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) status: active mlxen2: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> ether 98:03:9b:cc:bb:fa nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> media: Ethernet autoselect (10Gbase-CX4 <full-duplex,rxpause,txpause>) status: active mlxen3: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> ether 98:03:9b:cc:bb:fb nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> media: Ethernet autoselect (10Gbase-CX4 <full-duplex,rxpause,txpause>) status: active lagg0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> ether 98:03:9b:cc:bb:aa nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> media: Ethernet autoselect status: active groups: lagg laggproto lacp lagghash l2,l3,l4 laggport: mlxen0 flags=1c<ACTIVE,COLLECTING,DISTRIBUTING> laggport: mlxen1 flags=1c<ACTIVE,COLLECTING,DISTRIBUTING> vlan0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 options=303<RXCSUM,TXCSUM,TSO4,TSO6> ether 98:03:9b:cc:bb:aa inet 10.10.20.11 netmask 0xffffff00 broadcast 10.10.20.255 zone 18 nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> media: Ethernet autoselect status: active vlan: 100 vlanpcp: 0 parent interface: lagg0 groups: vlan
Cause
Konverteringen från Infiniband till Ethernet ändrar gränssnittsnamnen från ib0 till mlxen0 (int-a) och ib1 till mlxen1 (int-b). Fördröjningsskaparen refererar till "mlxen0" och "mlxen1" som externa nätverksgränssnittsportar. Om problemet skulle uppstå (vilket innebär att förebyggande åtgärder inte vidtogs) krävs åtgärder för att korrigera mappningen i Flexnet (nätverkshanteringsdaemonen).
Resolution
Före migreringen:
Det här problemet har korrigerats för OneFS 9.1 och senare. Om du använder en berörd version gör du följande innan du migrerar från InfiniBand till Ethernet.
- Ta bort alla aggregerade gränssnitt från alla nätverkspooler.
- Slutför migreringen.
- Läs om alla aggregerade gränssnitt till alla nödvändiga nätverkspooler.
Efter migreringen:
Om problemet har uppstått och en noddelning utför du något av följande steg (automatiskt eller manuellt) för att kringgå problemet.
Automatisk upplösning (tillfällig lösning)
========================================================
-
Skapa en säkerhetskopia av "lni"-filen:
mv /etc/mcp/sys/lni.xml /etc/mcp/sys/lni.xml.bak
-
Ta bort det berörda nodgränssnittet från nätverkspoolen.
isi network pools modify <groupnet.subnet.pool> --remove-ifaces=<interface example: 2:40gige-agg-1>
-
Kör följande kommando för att återskapa nodens lni.xml fil:
isi_create_lni_xml
-
Starta om noden.
-
Kontrollera att gränssnittet är korrekt.
-
Fortsätt med det sista steget i konfigurationen av MTU 9000. När detta har utförts lägger du till det berörda nodgränssnittet i poolen igen.
isi network pools modify <groupnet.subnet.pool> --add-ifaces=<interface example: 2:40gige-agg-1>
Manuell lösning (tillfällig lösning)
========================================================
För att lösa det här problemet laggports måste tas bort manuellt genom att utföra följande åtgärder.
-
Använd en seriell anslutning till den berörda noden.
-
Inaktivera "mcp" på den berörda noden.
killall -9 isi_mcp
-
Inaktivera "isi_flexnet_d" på den berörda noden.
killall -9 isi_flexnet_d
-
Skapa en säkerhetskopia av båda "flx_config.xml"-filerna i den lokala katalogen.
-
mv /etc/ifs/flexnet/flx_config.xml /etc/ifs/flexnet/flx_config.xml.bak
-
mv /etc/ifs/flexnet/flx_config.xml~ /etc/ifs/flexnet/flx_config.xml~.bak
-
-
Om det finns några "vlan" som är associerade med aggregeringsporten tar du bort dem.
ifconfig <vlan interface> down
EXEMPEL
ifconfig vlan0 down
-
Ta bort "laggports" från fördröjningsgränssnittet.
ifconfig <lag interface> -laggport <mlx iface>
EXEMPEL
ifconfig lagg0 -laggport mlxen0
ifconfig lagg0 -laggport mlxen1
-
Ta ner fördröjningsgränssnittet.
ifconfig <lag iface> down
EXEMPEL
ifconfig lagg0 down
-
Nu när backend-gränssnittet är frånkopplat från fördröjningsporten testar du ping till en annan nod via "int-a" OCH "int-b".
ping <back-end IP [int-a]>
ping <back-end IP [int-b]>
-
Kontrollera att noden inte längre är nere.
isi status -q
-
Starta om noden för att uppdatera alla processer.