PowerScale: Konvertering fra InfiniBand til Ethernet kan føre til feil konfigurasjon av koblingsaggregering

Summary: Denne artikkelen beskriver hvordan du løser et problem som oppstår under en klynges backend-konvertering av InfiniBand til Ethernet for OneFS-versjon som er tidligere enn 9.1.0.0.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

OneFS-versjoner før 9.1 og konvertering av en klynge fra InfiniBand til Ethernet-serverdel kan føre til feil konfigurerte aggregerte porter. Hvis du starter noden på nytt, opprettes det skadelige aggregatet og føre til at en node splittes.

Merk: Dette problemet kan unngås ved å fjerne alle aggregerte grensesnitt fra alle bassenger før du starter backend-konverteringen. Denne artikkelen skal brukes i tilfelle noe går galt med konverteringen.

Mellanox Vendor Interfaces (mlxen) som er feilkonfigurert for aggregering, og som sannsynligvis kan føre til at noden ikke blir med i klyngen igjen. Gjennomgang av ifconfig fra en node viser ISIINTERNE grensesnitt tilordnet lagg0.

Isilon-18# ifconfig 
bge0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 
options=8009b<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,VLAN_HWCSUM,LINKSTATE> 
		ether 00:60:16:cc:bb:aa 
		inet 192.168.60.10 netmask 0xffffff80 broadcast 192.168.60.127 zone 1 
		nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> 
		media: Ethernet autoselect (1000baseT <full-duplex,master>) 
		status: active 
mlxen0: flags=1008843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST,ISIINTERNAL> metric 0 mtu 1500
options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> 
		ether 98:03:9b:cc:bb:aa 
		inet 128.221.252.18 netmask 0xffffff00 broadcast 128.221.252.255 zone 1 
		inet 128.221.254.18 netmask 0xffffff00 broadcast 128.221.254.255 zone 1 
		nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> 
		media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) 
		status: active 
mlxen1: flags=1008843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST,ISIINTERNAL> metric 0 mtu 1500
options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> 
		ether 98:03:9b:cc:bb:aa 
		inet 128.221.253.18 netmask 0xffffff00 broadcast 128.221.253.255 zone 1 
		inet 128.221.254.18 netmask 0xffffff00 broadcast 128.221.254.255 zone 1 
		nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> 
		media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) 
		status: active 
mlxen2: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500
options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> 
		ether 98:03:9b:cc:bb:fa 
		nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> 
		media: Ethernet autoselect (10Gbase-CX4 <full-duplex,rxpause,txpause>) 
		status: active 
mlxen3: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500
options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> 
		ether 98:03:9b:cc:bb:fb 
		nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> 
		media: Ethernet autoselect (10Gbase-CX4 <full-duplex,rxpause,txpause>) 
		status: active 
lagg0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500
options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> 
		ether 98:03:9b:cc:bb:aa 
		nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> 
		media: Ethernet autoselect 
		status: active 
		groups: lagg laggproto lacp lagghash l2,l3,l4 
		laggport: mlxen0 flags=1c<ACTIVE,COLLECTING,DISTRIBUTING> 
		laggport: mlxen1 flags=1c<ACTIVE,COLLECTING,DISTRIBUTING> 
vlan0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500
		options=303<RXCSUM,TXCSUM,TSO4,TSO6> 
		ether 98:03:9b:cc:bb:aa 
		inet 10.10.20.11 netmask 0xffffff00 broadcast 10.10.20.255 zone 18 
		nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> 
		media: Ethernet autoselect 
		status: active 
		vlan: 100 
		vlanpcp: 0 parent 
		interface: lagg0 
		groups: vlan

 

Cause

Konverteringen fra Infiniband til Ethernet endrer grensesnittnavnene fra ib0 til mlxen0 (int-a) og ib1 til mlxen1 (int-b). Lag-oppretteren refererer til "mlxen0" og "mlxen1" som eksterne nettverksporter. Hvis problemet skulle oppstå (det vil si at forebyggende tiltak ikke ble iverksatt), er det nødvendig med tiltak for å korrigere tilordningen i Flexnet (nettverksadministrasjonsdaemonen).

 

Resolution

Før migrering:

Dette problemet er rettet opp for OneFS 9.1 og nyere. Hvis du bruker en berørt versjon, må du utføre følgende før du migrerer fra InfiniBand til Ethernet.

  1. Fjern alle aggregerte grensesnitt fra alle nettverksutvalg.
  2. Fullfør overføringen.
  3. Legg til alle aggregerte grensesnitt på nytt i alle nødvendige nettverksgrupper.

Etter migrering:

Hvis problemet har oppstått og en node er delt, utfører du ett av følgende trinn (automatisk eller manuell) for å omgå problemet.

Automatisk oppløsning (midlertidig løsning)

========================================================

  1. Opprett en sikkerhetskopi av "lni"-filen:

    mv /etc/mcp/sys/lni.xml /etc/mcp/sys/lni.xml.bak
  2. Fjern det berørte nodegrensesnittet fra nettverksutvalget.

    isi network pools modify <groupnet.subnet.pool> --remove-ifaces=<interface example: 2:40gige-agg-1>
  3. Kjør følgende kommando for å gjenoppbygge nodens lni.xml fil:

    isi_create_lni_xml
  4. Start noden på nytt.

  5. Kontroller at grensesnittet er riktig.

  6. Fortsett med det siste trinnet for konfigurering av MTU 9000. Når dette er utført, legger du til grensesnittet for den berørte noden i utvalget igjen.

    isi network pools modify <groupnet.subnet.pool> --add-ifaces=<interface example: 2:40gige-agg-1>

Manuell løsning (midlertidig løsning)

========================================================

For å løse dette problemet kan laggports må fjernes manuelt ved å utføre følgende handlinger.

  1. Bruk en seriell tilkobling til den berørte noden.

  2. Deaktiver "mcp" på den berørte noden.

    killall -9 isi_mcp
  3. Deaktiver "isi_flexnet_d" på den berørte noden.

    killall -9 isi_flexnet_d
  4. Opprett en sikkerhetskopi av begge "flx_config.xml"-filene i den lokale katalogen.

    1. mv /etc/ifs/flexnet/flx_config.xml /etc/ifs/flexnet/flx_config.xml.bak
    2. mv /etc/ifs/flexnet/flx_config.xml~ /etc/ifs/flexnet/flx_config.xml~.bak
  5. Hvis det er noen "VLAN" som er knyttet til den samlede porten, ta dem ned.

    ifconfig <vlan interface> down

    EKSEMPEL

    ifconfig vlan0 down
  6. Fjern "laggports" fra lag-grensesnittet.

    ifconfig <lag interface> -laggport <mlx iface>

    EKSEMPLER

    ifconfig lagg0 -laggport mlxen0
    ifconfig lagg0 -laggport mlxen1
  7. Få ned grensesnittet for forsinkelser.

    ifconfig <lag iface> down

    EKSEMPEL

    ifconfig lagg0 down
  8. Nå som backend-grensesnittet er atskilt fra lag-porten, test ping til en hvilken som helst annen node gjennom "int-a" OG "int-b."

    ping <back-end IP [int-a]>
    ping <back-end IP [int-b]>
  9. Kontroller at noden ikke lenger er nede.

    isi status -q
  10. Start noden på nytt for å oppdatere alle prosesser.

 

Products

Isilon A200, Isilon A2000, Isilon F800, Isilon F810, Isilon H400, Isilon H500, Isilon H5600, Isilon H600
Article Properties
Article Number: 000168838
Article Type: Solution
Last Modified: 18 Mar 2025
Version:  9
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.