PowerScale: InfiniBand'ı Ethernet'e dönüştürme, yanlış bağlantı toplama yapılandırmasına neden olabilir

Summary: Bu makalede, 9.1.0.0'dan önceki OneFS sürümü için bir kümenin arka uç InfiniBand'den Ethernet'e dönüştürülmesi sırasında görülen bir sorunun nasıl çözüleceği açıklanmaktadır.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

OneFS'nin 9.1'den önceki sürümleri ve bir kümeyi InfiniBand'den Ethernet arka ucuna dönüştürme, yanlış yapılandırılmış toplama bağlantı noktalarına neden olabilir. Düğümün yeniden başlatılması bozuk toplamayı oluşturur ve düğümün bölünmesine neden olur.

Not: Bu sorun, arka uç dönüştürmesi başlatılmadan önce tüm havuzlardan tüm toplama arayüzleri kaldırılarak önlenebilir. Bu makale, dönüşümle ilgili bir sorun olması durumunda kullanılmalıdır.

Toplama için yanlış yapılandırılmış ve büyük olasılıkla düğümün kümeye yeniden katılamamasına neden olabilecek Mellanox satıcı arayüzleri (mlxen). Bir düğümden ifconfig in gözden geçirilmesi, lagg0 ile eşlenmiş ISIINTERNAL arayüzlerini gösterir.

Isilon-18# ifconfig 
bge0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 
options=8009b<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,VLAN_HWCSUM,LINKSTATE> 
		ether 00:60:16:cc:bb:aa 
		inet 192.168.60.10 netmask 0xffffff80 broadcast 192.168.60.127 zone 1 
		nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> 
		media: Ethernet autoselect (1000baseT <full-duplex,master>) 
		status: active 
mlxen0: flags=1008843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST,ISIINTERNAL> metric 0 mtu 1500
options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> 
		ether 98:03:9b:cc:bb:aa 
		inet 128.221.252.18 netmask 0xffffff00 broadcast 128.221.252.255 zone 1 
		inet 128.221.254.18 netmask 0xffffff00 broadcast 128.221.254.255 zone 1 
		nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> 
		media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) 
		status: active 
mlxen1: flags=1008843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST,ISIINTERNAL> metric 0 mtu 1500
options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> 
		ether 98:03:9b:cc:bb:aa 
		inet 128.221.253.18 netmask 0xffffff00 broadcast 128.221.253.255 zone 1 
		inet 128.221.254.18 netmask 0xffffff00 broadcast 128.221.254.255 zone 1 
		nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> 
		media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) 
		status: active 
mlxen2: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500
options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> 
		ether 98:03:9b:cc:bb:fa 
		nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> 
		media: Ethernet autoselect (10Gbase-CX4 <full-duplex,rxpause,txpause>) 
		status: active 
mlxen3: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500
options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> 
		ether 98:03:9b:cc:bb:fb 
		nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> 
		media: Ethernet autoselect (10Gbase-CX4 <full-duplex,rxpause,txpause>) 
		status: active 
lagg0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500
options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> 
		ether 98:03:9b:cc:bb:aa 
		nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> 
		media: Ethernet autoselect 
		status: active 
		groups: lagg laggproto lacp lagghash l2,l3,l4 
		laggport: mlxen0 flags=1c<ACTIVE,COLLECTING,DISTRIBUTING> 
		laggport: mlxen1 flags=1c<ACTIVE,COLLECTING,DISTRIBUTING> 
vlan0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500
		options=303<RXCSUM,TXCSUM,TSO4,TSO6> 
		ether 98:03:9b:cc:bb:aa 
		inet 10.10.20.11 netmask 0xffffff00 broadcast 10.10.20.255 zone 18 
		nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> 
		media: Ethernet autoselect 
		status: active 
		vlan: 100 
		vlanpcp: 0 parent 
		interface: lagg0 
		groups: vlan

 

Cause

Infiniband'dan Ethernet'e dönüştürme, arayüz adlarını ib0'dan mlxen0'a (int-a) ve ib1'den mlxen1'e (int-b) değiştirir. Gecikme oluşturucu, harici ağ arayüzü bağlantı noktaları olarak "mlxen0" ve "mlxen1" ifadelerini kullanıyor. Sorun ortaya çıkarsa (yani önleyici tedbirler alınmamışsa), Flexnet (ağ yönetimi arka plan programı) içindeki eşlemeyi düzeltmek için adımlar gerekir.

 

Resolution

Geçişten Önce:

Bu sorun OneFS 9.1 ve üzeri için düzeltilmiştir. Etkilenen bir sürüm kullanıyorsanız, InfiniBand'den Ethernet'e geçmeden önce aşağıdakileri gerçekleştirin.

  1. Tüm ağ havuzlarından tüm toplama arayüzlerini kaldırın.
  2. Taşıma işlemini tamamlayın.
  3. Tüm toplama arayüzlerini gerekli tüm ağ havuzlarına yeniden ekleyin.

Geçişten Sonra:

Sorun oluştuysa ve bir düğüm bölündüyse soruna geçici bir çözüm bulmak için aşağıdaki adımlardan birini (Otomatik veya Manuel) gerçekleştirin.

Otomatik Çözünürlük (Geçici Çözüm)

========================================================

  1. "lni" dosyasının yedeğini oluşturun:

    mv /etc/mcp/sys/lni.xml /etc/mcp/sys/lni.xml.bak
  2. Etkilenen düğüm arayüzünü ağ havuzundan kaldırın.

    isi network pools modify <groupnet.subnet.pool> --remove-ifaces=<interface example: 2:40gige-agg-1>
  3. Düğümün lni.xml dosyasını yeniden oluşturmak için aşağıdaki komutu çalıştırın:

    isi_create_lni_xml
  4. Düğümü yeniden başlatın.

  5. Arayüzün doğru olduğundan emin olun.

  6. MTU 9000'i yapılandırmanın son adımına geçin. Bu işlem tamamlandıktan sonra, etkilenen düğüm arayüzünü tekrar havuza ekleyin.

    isi network pools modify <groupnet.subnet.pool> --add-ifaces=<interface example: 2:40gige-agg-1>

Manuel Çözüm (Geçici Çözüm)

========================================================

Bu sorunu çözmek için laggports aşağıdaki eylemler gerçekleştirilerek manuel olarak kaldırılması gerekir.

  1. Etkilenen düğüme seri bağlantı gerçekleştirin.

  2. Etkilenen düğümde "mcp"yi devre dışı bırakın.

    killall -9 isi_mcp
  3. Etkilenen düğümde "isi_flexnet_d"yi devre dışı bırakın.

    killall -9 isi_flexnet_d
  4. Yerel dizinde her iki "flx_config.xml" dosyasının da yedeğini oluşturun.

    1. mv /etc/ifs/flexnet/flx_config.xml /etc/ifs/flexnet/flx_config.xml.bak
    2. mv /etc/ifs/flexnet/flx_config.xml~ /etc/ifs/flexnet/flx_config.xml~.bak
  5. Toplama bağlantı noktasıyla ilişkili herhangi bir "VLAN" varsa, bunları aşağı indirin.

    ifconfig <vlan interface> down

    ÖRNEK

    ifconfig vlan0 down
  6. laggports"u lag arayüzünden kaldırın.

    ifconfig <lag interface> -laggport <mlx iface>

    ÖRNEKLER

    ifconfig lagg0 -laggport mlxen0
    ifconfig lagg0 -laggport mlxen1
  7. Gecikme arayüzünü aşağı indirin.

    ifconfig <lag iface> down

    ÖRNEK

    ifconfig lagg0 down
  8. Artık arka uç arayüzünün gecikme bağlantı noktasıyla ilişkisi kesildiğine göre, "int-a" VE "int-b" aracılığıyla başka bir düğüme ping testi yapın.

    ping <back-end IP [int-a]>
    ping <back-end IP [int-b]>
  9. Düğümün artık kapalı olmadığını doğrulayın.

    isi status -q
  10. Tüm işlemleri yenilemek için düğümü yeniden başlatın.

 

Products

Isilon A200, Isilon A2000, Isilon F800, Isilon F810, Isilon H400, Isilon H500, Isilon H5600, Isilon H600
Article Properties
Article Number: 000168838
Article Type: Solution
Last Modified: 18 Mar 2025
Version:  9
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.