PowerScale: InfiniBandin muuntaminen Ethernetiksi voi johtaa virheelliseen linkkien yhdistämismääritykseen
Summary: Tässä artikkelissa kerrotaan, miten korjataan ongelma, joka ilmenee muunnettaessa klusterin taustaklusterin InfiniBandista Ethernetiksi OneFS-versiota 9.1.0.0 aikaisemmassa versiossa.
Symptoms
OneFS-versiota 9.1 vanhemmat versiot ja klusterin muuntaminen InfiniBand-taustajärjestelmästä Ethernet-taustajärjestelmään voivat aiheuttaa virheellisesti määritettyjä koosteportteja. Solmun uudelleenkäynnistys aiheuttaisi virheellisen koosteen ja solmun jakautumisen.
Mellanox-toimittajaliittymät (mlxen), jotka on määritetty väärin yhdistämistä varten ja jotka voivat todennäköisesti johtaa siihen, että solmu ei voi liittyä klusteriin uudelleen. Kun ifconfig tarkistetaan solmusta, näkyy ISIINTERNAL interfaces, joka on yhdistetty lagg0:aan.
Isilon-18# ifconfig bge0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 options=8009b<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,VLAN_HWCSUM,LINKSTATE> ether 00:60:16:cc:bb:aa inet 192.168.60.10 netmask 0xffffff80 broadcast 192.168.60.127 zone 1 nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> media: Ethernet autoselect (1000baseT <full-duplex,master>) status: active mlxen0: flags=1008843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST,ISIINTERNAL> metric 0 mtu 1500 options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> ether 98:03:9b:cc:bb:aa inet 128.221.252.18 netmask 0xffffff00 broadcast 128.221.252.255 zone 1 inet 128.221.254.18 netmask 0xffffff00 broadcast 128.221.254.255 zone 1 nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) status: active mlxen1: flags=1008843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST,ISIINTERNAL> metric 0 mtu 1500 options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> ether 98:03:9b:cc:bb:aa inet 128.221.253.18 netmask 0xffffff00 broadcast 128.221.253.255 zone 1 inet 128.221.254.18 netmask 0xffffff00 broadcast 128.221.254.255 zone 1 nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) status: active mlxen2: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> ether 98:03:9b:cc:bb:fa nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> media: Ethernet autoselect (10Gbase-CX4 <full-duplex,rxpause,txpause>) status: active mlxen3: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> ether 98:03:9b:cc:bb:fb nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> media: Ethernet autoselect (10Gbase-CX4 <full-duplex,rxpause,txpause>) status: active lagg0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> ether 98:03:9b:cc:bb:aa nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> media: Ethernet autoselect status: active groups: lagg laggproto lacp lagghash l2,l3,l4 laggport: mlxen0 flags=1c<ACTIVE,COLLECTING,DISTRIBUTING> laggport: mlxen1 flags=1c<ACTIVE,COLLECTING,DISTRIBUTING> vlan0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 options=303<RXCSUM,TXCSUM,TSO4,TSO6> ether 98:03:9b:cc:bb:aa inet 10.10.20.11 netmask 0xffffff00 broadcast 10.10.20.255 zone 18 nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> media: Ethernet autoselect status: active vlan: 100 vlanpcp: 0 parent interface: lagg0 groups: vlan
Cause
Muunnos Infinibandista Ethernetiin muuttaa rajapintojen nimet ib0:sta mlxen0:ksi (int-a) ja ib1:stä mlxen1:ksi (int-b). Viiveen luoja käyttää ulkoisten verkkoliittymien portteina komentoja mlxen0 ja mlxen1. Jos ongelma ilmenee (ennaltaehkäiseviä toimenpiteitä ei toteutettu), on ryhdyttävä toimiin Flexnetin (verkonhallintademonin) yhdistämismäärityksen korjaamiseksi.
Resolution
Ennen siirtoa:
Ongelma on korjattu OneFS 9.1:ssä ja uudemmissa. Jos käyttämääsi versiota haavoittuvuus koskee, toimi seuraavasti ennen siirtymistä InfiniBandista Ethernetiin.
- Poista kaikki koosteliitännät kaikista verkkovarannoista.
- Suorita siirto loppuun.
- Lisää kaikki koostetut liittymät uudelleen kaikkiin tarvittaviin verkkovarantoihin.
Siirron jälkeen:
Jos ongelma on ilmennyt ja solmu on jakautunut, kierrä ongelma suorittamalla jokin seuraavista toimista (automaattinen tai manuaalinen).
Automaattinen tarkkuus (vaihtoehtoinen menetelmä)
========================================================
-
Luo varmuuskopio "lni" -tiedostosta:
mv /etc/mcp/sys/lni.xml /etc/mcp/sys/lni.xml.bak
-
Irrota solmuliittymä, jota ongelma koskee, verkkovarannosta.
isi network pools modify <groupnet.subnet.pool> --remove-ifaces=<interface example: 2:40gige-agg-1>
-
Luo solmun lni.xml tiedosto uudelleen suorittamalla seuraava komento:
isi_create_lni_xml
-
Käynnistä solmu uudelleen.
-
Varmista, että käyttöliittymä on oikein.
-
Jatka MTU 9000: n määrittämisen viimeiseen vaiheeseen. Kun tämä on tehty, lisää solmun liittymä takaisin varantoon.
isi network pools modify <groupnet.subnet.pool> --add-ifaces=<interface example: 2:40gige-agg-1>
Manuaalinen tarkkuus (vaihtoehtoinen menetelmä)
========================================================
Ongelman ratkaisemiseksi laggports on poistettava manuaalisesti suorittamalla seuraavat toimet.
-
Käytä sarjayhteyttä solmuun, jota ongelma koskee.
-
Poista MCP käytöstä solmussa, jota ongelma koskee.
killall -9 isi_mcp
-
Poista isi_flexnet_d käytöstä solmussa, jota ongelma koskee.
killall -9 isi_flexnet_d
-
Luo varmuuskopio molemmista flx_config.xml-tiedostoista paikalliseen hakemistoon.
-
mv /etc/ifs/flexnet/flx_config.xml /etc/ifs/flexnet/flx_config.xml.bak
-
mv /etc/ifs/flexnet/flx_config.xml~ /etc/ifs/flexnet/flx_config.xml~.bak
-
-
Jos kokonaisporttiin liittyy "vlan-verkkoja", laske ne alas.
ifconfig <vlan interface> down
ESIMERKKI
ifconfig vlan0 down
-
Poista "laggportit" viiveliittymästä.
ifconfig <lag interface> -laggport <mlx iface>
ESIMERKKEJÄ
ifconfig lagg0 -laggport mlxen0
ifconfig lagg0 -laggport mlxen1
-
Vähennä viiveen käyttöliittymää.
ifconfig <lag iface> down
ESIMERKKI
ifconfig lagg0 down
-
Nyt kun taustaliittymä on irrotettu viiveportista, testaa ping-komentoa mihin tahansa muuhun solmuun int-a- JA int-b-yhteyden kautta.
ping <back-end IP [int-a]>
ping <back-end IP [int-b]>
-
Varmista, että solmu ei ole enää katkennut.
isi status -q
-
Päivitä kaikki prosessit käynnistämällä solmu uudelleen.