PowerScale: Konvertering fra InfiniBand til Ethernet kan resultere i forkert linksammenlægningskonfiguration

Summary: I denne artikel beskrives, hvordan du løser et problem, der opleves under en klynges backend-konvertering af InfiniBand til Ethernet til OneFS-version før 9.1.0.0.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

OneFS-versioner før 9.1 og konvertering af en klynge fra InfiniBand til Ethernet-backend kan resultere i forkert konfigurerede samlede porte. Genstart af noden ville skabe det dårlige aggregat og forårsage en nodeopdeling.

Bemærk: Dette problem kan undgås ved at fjerne alle aggregerede grænseflader fra alle puljer, før backend-konverteringen startes. Denne artikel skal bruges, hvis noget går galt med konverteringen.

Mellanox-leverandørgrænseflader (mlxen), der er forkert konfigureret til sammenlægning, og som sandsynligvis kan resultere i, at noden ikke kan tilsluttes klyngen igen. Gennemgang af ifconfig fra en node viser ISIINTERNAL grænseflader knyttet til lagg0.

Isilon-18# ifconfig 
bge0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 
options=8009b<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,VLAN_HWCSUM,LINKSTATE> 
		ether 00:60:16:cc:bb:aa 
		inet 192.168.60.10 netmask 0xffffff80 broadcast 192.168.60.127 zone 1 
		nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> 
		media: Ethernet autoselect (1000baseT <full-duplex,master>) 
		status: active 
mlxen0: flags=1008843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST,ISIINTERNAL> metric 0 mtu 1500
options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> 
		ether 98:03:9b:cc:bb:aa 
		inet 128.221.252.18 netmask 0xffffff00 broadcast 128.221.252.255 zone 1 
		inet 128.221.254.18 netmask 0xffffff00 broadcast 128.221.254.255 zone 1 
		nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> 
		media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) 
		status: active 
mlxen1: flags=1008843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST,ISIINTERNAL> metric 0 mtu 1500
options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> 
		ether 98:03:9b:cc:bb:aa 
		inet 128.221.253.18 netmask 0xffffff00 broadcast 128.221.253.255 zone 1 
		inet 128.221.254.18 netmask 0xffffff00 broadcast 128.221.254.255 zone 1 
		nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> 
		media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) 
		status: active 
mlxen2: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500
options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> 
		ether 98:03:9b:cc:bb:fa 
		nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> 
		media: Ethernet autoselect (10Gbase-CX4 <full-duplex,rxpause,txpause>) 
		status: active 
mlxen3: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500
options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> 
		ether 98:03:9b:cc:bb:fb 
		nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> 
		media: Ethernet autoselect (10Gbase-CX4 <full-duplex,rxpause,txpause>) 
		status: active 
lagg0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500
options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> 
		ether 98:03:9b:cc:bb:aa 
		nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> 
		media: Ethernet autoselect 
		status: active 
		groups: lagg laggproto lacp lagghash l2,l3,l4 
		laggport: mlxen0 flags=1c<ACTIVE,COLLECTING,DISTRIBUTING> 
		laggport: mlxen1 flags=1c<ACTIVE,COLLECTING,DISTRIBUTING> 
vlan0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500
		options=303<RXCSUM,TXCSUM,TSO4,TSO6> 
		ether 98:03:9b:cc:bb:aa 
		inet 10.10.20.11 netmask 0xffffff00 broadcast 10.10.20.255 zone 18 
		nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> 
		media: Ethernet autoselect 
		status: active 
		vlan: 100 
		vlanpcp: 0 parent 
		interface: lagg0 
		groups: vlan

 

Cause

Konverteringen fra Infiniband til Ethernet ændrer grænsefladenavnene fra ib0 til mlxen0 (int-a) og ib1 til mlxen1 (int-b). Skaberen af lag henviser til "mlxen0" og "mlxen1" som de eksterne netværksinterfaceporte. Hvis problemet opstår (hvilket betyder, at der ikke blev truffet forebyggende foranstaltninger), er det nødvendigt at tage skridt til at rette kortlægningen i Flexnet (netværksstyringsdæmonen).

 

Resolution

Før migrering:

Dette problem er blevet rettet for OneFS 9.1 og nyere. Hvis du bruger en berørt version, skal du gøre følgende, før du migrerer fra InfiniBand til Ethernet.

  1. Fjern alle aggregerede grænseflader fra alle netværkspuljer.
  2. Fuldfør migreringen.
  3. Tilføj alle aggregerede grænseflader til alle nødvendige netværkspuljer igen.

Efter migrering:

Hvis problemet er opstået, og en node opdeles, skal du udføre et af følgende trin (Auto eller Manuel) for at løse problemet.

Automatisk opløsning (løsning)

========================================================

  1. Opret en sikkerhedskopi af "lni"-filen:

    mv /etc/mcp/sys/lni.xml /etc/mcp/sys/lni.xml.bak
  2. Fjern den berørte nodegrænseflade fra netværkspuljen.

    isi network pools modify <groupnet.subnet.pool> --remove-ifaces=<interface example: 2:40gige-agg-1>
  3. Kør følgende kommando for at genopbygge nodens lni.xml fil:

    isi_create_lni_xml
  4. Genstart noden.

  5. Kontroller, at grænsefladen er korrekt.

  6. Fortsæt med det sidste trin i konfigurationen af MTU 9000. Når dette er udført, skal du føje den berørte nodegrænseflade til puljen igen.

    isi network pools modify <groupnet.subnet.pool> --add-ifaces=<interface example: 2:40gige-agg-1>

Manuel løsning (løsning)

========================================================

For at løse dette problem vil laggports skal fjernes manuelt ved at udføre følgende handlinger.

  1. Brug en seriel forbindelse til den berørte node.

  2. Deaktiver "mcp" på den berørte node.

    killall -9 isi_mcp
  3. Deaktiver "isi_flexnet_d" på den berørte node.

    killall -9 isi_flexnet_d
  4. Opret en sikkerhedskopi af begge "flx_config.xml"-filer i den lokale mappe.

    1. mv /etc/ifs/flexnet/flx_config.xml /etc/ifs/flexnet/flx_config.xml.bak
    2. mv /etc/ifs/flexnet/flx_config.xml~ /etc/ifs/flexnet/flx_config.xml~.bak
  5. Hvis der er nogen "vlan", der er knyttet til den samlede port, skal du bringe dem ned.

    ifconfig <vlan interface> down

    EKSEMPEL

    ifconfig vlan0 down
  6. Fjern "laggports" fra lag-grænsefladen.

    ifconfig <lag interface> -laggport <mlx iface>

    EKSEMPLER

    ifconfig lagg0 -laggport mlxen0
    ifconfig lagg0 -laggport mlxen1
  7. Bring forsinkelsesgrænsefladen ned.

    ifconfig <lag iface> down

    EKSEMPEL

    ifconfig lagg0 down
  8. Nu hvor backend-grænsefladen er adskilt fra lagporten, skal du teste ping til enhver anden node gennem "int-a" OG "int-b."

    ping <back-end IP [int-a]>
    ping <back-end IP [int-b]>
  9. Kontroller, at noden ikke længere er nede.

    isi status -q
  10. For at opdatere alle processer skal du genstarte noden.

 

Products

Isilon A200, Isilon A2000, Isilon F800, Isilon F810, Isilon H400, Isilon H500, Isilon H5600, Isilon H600
Article Properties
Article Number: 000168838
Article Type: Solution
Last Modified: 18 Mar 2025
Version:  9
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.