PowerScale: InfiniBand till Ethernet-konvertering kan resultera i felaktig konfiguration av länkaggregering

Summary: Den här artikeln beskriver hur du löser ett problem som uppstår under ett klusters InfiniBand till Ethernet-konvertering för ett kluster för OneFS-version före 9.1.0.0.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

OneFS-versioner före 9.1 och konvertering av ett kluster från InfiniBand till Ethernet-serverdel kan resultera i felaktigt konfigurerade aggregerade portar. Om du startar om noden skapas den felaktiga aggregeringen och orsakar en noddelning.

Obs! Det här problemet kan undvikas genom att ta bort alla aggregerade gränssnitt från alla pooler innan du startar serverdelskonverteringen. Den här artikeln bör användas om något går fel med konverteringen.

Mellanox-leverantörsgränssnitt (mlxen) som är felkonfigurerade för aggregering och sannolikt kan leda till att noden inte kan återansluta till klustret. Om du granskar ifconfig från en nod visas ISIINTERNAL-gränssnitt mappade till lagg0.

Isilon-18# ifconfig 
bge0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 
options=8009b<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,VLAN_HWCSUM,LINKSTATE> 
		ether 00:60:16:cc:bb:aa 
		inet 192.168.60.10 netmask 0xffffff80 broadcast 192.168.60.127 zone 1 
		nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> 
		media: Ethernet autoselect (1000baseT <full-duplex,master>) 
		status: active 
mlxen0: flags=1008843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST,ISIINTERNAL> metric 0 mtu 1500
options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> 
		ether 98:03:9b:cc:bb:aa 
		inet 128.221.252.18 netmask 0xffffff00 broadcast 128.221.252.255 zone 1 
		inet 128.221.254.18 netmask 0xffffff00 broadcast 128.221.254.255 zone 1 
		nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> 
		media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) 
		status: active 
mlxen1: flags=1008843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST,ISIINTERNAL> metric 0 mtu 1500
options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> 
		ether 98:03:9b:cc:bb:aa 
		inet 128.221.253.18 netmask 0xffffff00 broadcast 128.221.253.255 zone 1 
		inet 128.221.254.18 netmask 0xffffff00 broadcast 128.221.254.255 zone 1 
		nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> 
		media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) 
		status: active 
mlxen2: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500
options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> 
		ether 98:03:9b:cc:bb:fa 
		nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> 
		media: Ethernet autoselect (10Gbase-CX4 <full-duplex,rxpause,txpause>) 
		status: active 
mlxen3: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500
options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> 
		ether 98:03:9b:cc:bb:fb 
		nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> 
		media: Ethernet autoselect (10Gbase-CX4 <full-duplex,rxpause,txpause>) 
		status: active 
lagg0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500
options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> 
		ether 98:03:9b:cc:bb:aa 
		nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> 
		media: Ethernet autoselect 
		status: active 
		groups: lagg laggproto lacp lagghash l2,l3,l4 
		laggport: mlxen0 flags=1c<ACTIVE,COLLECTING,DISTRIBUTING> 
		laggport: mlxen1 flags=1c<ACTIVE,COLLECTING,DISTRIBUTING> 
vlan0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500
		options=303<RXCSUM,TXCSUM,TSO4,TSO6> 
		ether 98:03:9b:cc:bb:aa 
		inet 10.10.20.11 netmask 0xffffff00 broadcast 10.10.20.255 zone 18 
		nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> 
		media: Ethernet autoselect 
		status: active 
		vlan: 100 
		vlanpcp: 0 parent 
		interface: lagg0 
		groups: vlan

 

Cause

Konverteringen från Infiniband till Ethernet ändrar gränssnittsnamnen från ib0 till mlxen0 (int-a) och ib1 till mlxen1 (int-b). Fördröjningsskaparen refererar till "mlxen0" och "mlxen1" som externa nätverksgränssnittsportar. Om problemet skulle uppstå (vilket innebär att förebyggande åtgärder inte vidtogs) krävs åtgärder för att korrigera mappningen i Flexnet (nätverkshanteringsdaemonen).

 

Resolution

Före migreringen:

Det här problemet har korrigerats för OneFS 9.1 och senare. Om du använder en berörd version gör du följande innan du migrerar från InfiniBand till Ethernet.

  1. Ta bort alla aggregerade gränssnitt från alla nätverkspooler.
  2. Slutför migreringen.
  3. Läs om alla aggregerade gränssnitt till alla nödvändiga nätverkspooler.

Efter migreringen:

Om problemet har uppstått och en noddelning utför du något av följande steg (automatiskt eller manuellt) för att kringgå problemet.

Automatisk upplösning (tillfällig lösning)

========================================================

  1. Skapa en säkerhetskopia av "lni"-filen:

    mv /etc/mcp/sys/lni.xml /etc/mcp/sys/lni.xml.bak
  2. Ta bort det berörda nodgränssnittet från nätverkspoolen.

    isi network pools modify <groupnet.subnet.pool> --remove-ifaces=<interface example: 2:40gige-agg-1>
  3. Kör följande kommando för att återskapa nodens lni.xml fil:

    isi_create_lni_xml
  4. Starta om noden.

  5. Kontrollera att gränssnittet är korrekt.

  6. Fortsätt med det sista steget i konfigurationen av MTU 9000. När detta har utförts lägger du till det berörda nodgränssnittet i poolen igen.

    isi network pools modify <groupnet.subnet.pool> --add-ifaces=<interface example: 2:40gige-agg-1>

Manuell lösning (tillfällig lösning)

========================================================

För att lösa det här problemet laggports måste tas bort manuellt genom att utföra följande åtgärder.

  1. Använd en seriell anslutning till den berörda noden.

  2. Inaktivera "mcp" på den berörda noden.

    killall -9 isi_mcp
  3. Inaktivera "isi_flexnet_d" på den berörda noden.

    killall -9 isi_flexnet_d
  4. Skapa en säkerhetskopia av båda "flx_config.xml"-filerna i den lokala katalogen.

    1. mv /etc/ifs/flexnet/flx_config.xml /etc/ifs/flexnet/flx_config.xml.bak
    2. mv /etc/ifs/flexnet/flx_config.xml~ /etc/ifs/flexnet/flx_config.xml~.bak
  5. Om det finns några "vlan" som är associerade med aggregeringsporten tar du bort dem.

    ifconfig <vlan interface> down

    EXEMPEL

    ifconfig vlan0 down
  6. Ta bort "laggports" från fördröjningsgränssnittet.

    ifconfig <lag interface> -laggport <mlx iface>

    EXEMPEL

    ifconfig lagg0 -laggport mlxen0
    ifconfig lagg0 -laggport mlxen1
  7. Ta ner fördröjningsgränssnittet.

    ifconfig <lag iface> down

    EXEMPEL

    ifconfig lagg0 down
  8. Nu när backend-gränssnittet är frånkopplat från fördröjningsporten testar du ping till en annan nod via "int-a" OCH "int-b".

    ping <back-end IP [int-a]>
    ping <back-end IP [int-b]>
  9. Kontrollera att noden inte längre är nere.

    isi status -q
  10. Starta om noden för att uppdatera alla processer.

 

Products

Isilon A200, Isilon A2000, Isilon F800, Isilon F810, Isilon H400, Isilon H500, Isilon H5600, Isilon H600
Article Properties
Article Number: 000168838
Article Type: Solution
Last Modified: 18 Mar 2025
Version:  9
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.