PowerScale : La conversion InfiniBand vers Ethernet peut entraîner une configuration incorrecte de l’agrégation de liens

Summary: Cet article explique comment résoudre un problème qui se produit lors de la conversion back-end InfiniBand vers Ethernet d’un cluster pour OneFS version antérieure à la version 9.1.0.0. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Les versions OneFS antérieures à la version 9.1 et la conversion d’un cluster InfiniBand en back-end Ethernet peuvent entraîner une configuration incorrecte des ports agrégés. Le redémarrage du nœud créerait l’agrégat défectueux et provoquerait une division du nœud.

Remarque : Ce problème peut être évité en supprimant toutes les interfaces agrégées de tous les pools avant de lancer la conversion du back-end. Cet article doit être utilisé en cas de problème avec la conversion.

Interfaces du fournisseur Mellanox (mlxen) qui sont mal configurées pour l’agrégation et risquent d’empêcher le nœud de rejoindre à nouveau le cluster. La vérification de ifconfig à partir d’un nœud affiche les interfaces internes ISI mappées à lagg0.

Isilon-18# ifconfig 
bge0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 
options=8009b<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,VLAN_HWCSUM,LINKSTATE> 
		ether 00:60:16:cc:bb:aa 
		inet 192.168.60.10 netmask 0xffffff80 broadcast 192.168.60.127 zone 1 
		nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> 
		media: Ethernet autoselect (1000baseT <full-duplex,master>) 
		status: active 
mlxen0: flags=1008843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST,ISIINTERNAL> metric 0 mtu 1500
options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> 
		ether 98:03:9b:cc:bb:aa 
		inet 128.221.252.18 netmask 0xffffff00 broadcast 128.221.252.255 zone 1 
		inet 128.221.254.18 netmask 0xffffff00 broadcast 128.221.254.255 zone 1 
		nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> 
		media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) 
		status: active 
mlxen1: flags=1008843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST,ISIINTERNAL> metric 0 mtu 1500
options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> 
		ether 98:03:9b:cc:bb:aa 
		inet 128.221.253.18 netmask 0xffffff00 broadcast 128.221.253.255 zone 1 
		inet 128.221.254.18 netmask 0xffffff00 broadcast 128.221.254.255 zone 1 
		nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> 
		media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) 
		status: active 
mlxen2: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500
options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> 
		ether 98:03:9b:cc:bb:fa 
		nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> 
		media: Ethernet autoselect (10Gbase-CX4 <full-duplex,rxpause,txpause>) 
		status: active 
mlxen3: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500
options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> 
		ether 98:03:9b:cc:bb:fb 
		nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> 
		media: Ethernet autoselect (10Gbase-CX4 <full-duplex,rxpause,txpause>) 
		status: active 
lagg0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500
options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> 
		ether 98:03:9b:cc:bb:aa 
		nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> 
		media: Ethernet autoselect 
		status: active 
		groups: lagg laggproto lacp lagghash l2,l3,l4 
		laggport: mlxen0 flags=1c<ACTIVE,COLLECTING,DISTRIBUTING> 
		laggport: mlxen1 flags=1c<ACTIVE,COLLECTING,DISTRIBUTING> 
vlan0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500
		options=303<RXCSUM,TXCSUM,TSO4,TSO6> 
		ether 98:03:9b:cc:bb:aa 
		inet 10.10.20.11 netmask 0xffffff00 broadcast 10.10.20.255 zone 18 
		nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> 
		media: Ethernet autoselect 
		status: active 
		vlan: 100 
		vlanpcp: 0 parent 
		interface: lagg0 
		groups: vlan

 

Cause

La conversion d’Infiniband en Ethernet modifie les noms d’interface de ib0 à mlxen0 (int-a) et ib1 à mlxen1 (int-b). Le créateur du décalage fait référence à « mlxen0 » et « mlxen1 » en tant que ports d’interface réseau externe. Si le problème se produit (ce qui signifie que des mesures préventives n’ont pas été prises), des mesures sont nécessaires pour corriger le mappage dans Flexnet (le démon de gestion de réseau).

 

Resolution

Avant la migration :

Ce problème a été corrigé pour OneFS 9.1 et les versions ultérieures. Si vous utilisez une version concernée, procédez comme suit avant de migrer d’InfiniBand vers Ethernet.

  1. Supprimez toutes les interfaces agrégées de tous les pools réseau.
  2. Terminez la migration.
  3. Ajoutez à nouveau toutes les interfaces agrégées à tous les pools réseau nécessaires.

Après la migration :

Si le problème s’est produit et qu’un nœud s’est divisé, effectuez l’une des étapes suivantes (automatique ou manuelle) pour contourner le problème.

Résolution automatique (solution de contournement)

========================================================

  1. Créez une sauvegarde du fichier « lni » :

    mv /etc/mcp/sys/lni.xml /etc/mcp/sys/lni.xml.bak
  2. Supprimez l’interface de nœud concernée du pool réseau.

    isi network pools modify <groupnet.subnet.pool> --remove-ifaces=<interface example: 2:40gige-agg-1>
  3. Exécutez la commande suivante pour reconstruire le fichier lni.xml du nœud :

    isi_create_lni_xml
  4. Redémarrez le nœud.

  5. Vérifiez que l’interface est correcte.

  6. Passez à l’étape finale de configuration du MTU 9000. Une fois cette opération effectuée, ajoutez à nouveau l’interface de nœud concernée au pool.

    isi network pools modify <groupnet.subnet.pool> --add-ifaces=<interface example: 2:40gige-agg-1>

Résolution manuelle (contournement)

========================================================

Afin de résoudre ce problème, le laggports doit être supprimé manuellement en effectuant les actions suivantes.

  1. Utilisez une connexion série dans le nœud concerné.

  2. Désactivez « mcp » sur le nœud concerné.

    killall -9 isi_mcp
  3. Désactivez « isi_flexnet_d » sur le nœud concerné.

    killall -9 isi_flexnet_d
  4. Créez une sauvegarde des deux fichiers « flx_config.xml » sur le répertoire local.

    1. mv /etc/ifs/flexnet/flx_config.xml /etc/ifs/flexnet/flx_config.xml.bak
    2. mv /etc/ifs/flexnet/flx_config.xml~ /etc/ifs/flexnet/flx_config.xml~.bak
  5. S’il existe des « VLAN » associés au port d’agrégation, supprimez-les.

    ifconfig <vlan interface> down

    EXEMPLE

    ifconfig vlan0 down
  6. Supprimez les « laggports » de l’interface de décalage.

    ifconfig <lag interface> -laggport <mlx iface>

    EXEMPLES

    ifconfig lagg0 -laggport mlxen0
    ifconfig lagg0 -laggport mlxen1
  7. Réduisez l’interface de décalage.

    ifconfig <lag iface> down

    EXEMPLE

    ifconfig lagg0 down
  8. Maintenant que l’interface back-end est dissociée du port lag, testez le ping sur n’importe quel autre nœud via « int-a » ET « int-b ».

    ping <back-end IP [int-a]>
    ping <back-end IP [int-b]>
  9. Vérifiez que le nœud n’est plus arrêté.

    isi status -q
  10. Pour actualiser tous les processus, redémarrez le nœud.

 

Products

Isilon A200, Isilon A2000, Isilon F800, Isilon F810, Isilon H400, Isilon H500, Isilon H5600, Isilon H600
Article Properties
Article Number: 000168838
Article Type: Solution
Last Modified: 18 Mar 2025
Version:  9
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.