PowerScale: InfiniBand'ı Ethernet'e dönüştürme, yanlış bağlantı toplama yapılandırmasına neden olabilir
Summary: Bu makalede, 9.1.0.0'dan önceki OneFS sürümü için bir kümenin arka uç InfiniBand'den Ethernet'e dönüştürülmesi sırasında görülen bir sorunun nasıl çözüleceği açıklanmaktadır.
Symptoms
OneFS'nin 9.1'den önceki sürümleri ve bir kümeyi InfiniBand'den Ethernet arka ucuna dönüştürme, yanlış yapılandırılmış toplama bağlantı noktalarına neden olabilir. Düğümün yeniden başlatılması bozuk toplamayı oluşturur ve düğümün bölünmesine neden olur.
Toplama için yanlış yapılandırılmış ve büyük olasılıkla düğümün kümeye yeniden katılamamasına neden olabilecek Mellanox satıcı arayüzleri (mlxen). Bir düğümden ifconfig in gözden geçirilmesi, lagg0 ile eşlenmiş ISIINTERNAL arayüzlerini gösterir.
Isilon-18# ifconfig bge0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 options=8009b<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,VLAN_HWCSUM,LINKSTATE> ether 00:60:16:cc:bb:aa inet 192.168.60.10 netmask 0xffffff80 broadcast 192.168.60.127 zone 1 nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> media: Ethernet autoselect (1000baseT <full-duplex,master>) status: active mlxen0: flags=1008843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST,ISIINTERNAL> metric 0 mtu 1500 options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> ether 98:03:9b:cc:bb:aa inet 128.221.252.18 netmask 0xffffff00 broadcast 128.221.252.255 zone 1 inet 128.221.254.18 netmask 0xffffff00 broadcast 128.221.254.255 zone 1 nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) status: active mlxen1: flags=1008843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST,ISIINTERNAL> metric 0 mtu 1500 options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> ether 98:03:9b:cc:bb:aa inet 128.221.253.18 netmask 0xffffff00 broadcast 128.221.253.255 zone 1 inet 128.221.254.18 netmask 0xffffff00 broadcast 128.221.254.255 zone 1 nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) status: active mlxen2: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> ether 98:03:9b:cc:bb:fa nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> media: Ethernet autoselect (10Gbase-CX4 <full-duplex,rxpause,txpause>) status: active mlxen3: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> ether 98:03:9b:cc:bb:fb nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> media: Ethernet autoselect (10Gbase-CX4 <full-duplex,rxpause,txpause>) status: active lagg0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> ether 98:03:9b:cc:bb:aa nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> media: Ethernet autoselect status: active groups: lagg laggproto lacp lagghash l2,l3,l4 laggport: mlxen0 flags=1c<ACTIVE,COLLECTING,DISTRIBUTING> laggport: mlxen1 flags=1c<ACTIVE,COLLECTING,DISTRIBUTING> vlan0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 options=303<RXCSUM,TXCSUM,TSO4,TSO6> ether 98:03:9b:cc:bb:aa inet 10.10.20.11 netmask 0xffffff00 broadcast 10.10.20.255 zone 18 nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> media: Ethernet autoselect status: active vlan: 100 vlanpcp: 0 parent interface: lagg0 groups: vlan
Cause
Infiniband'dan Ethernet'e dönüştürme, arayüz adlarını ib0'dan mlxen0'a (int-a) ve ib1'den mlxen1'e (int-b) değiştirir. Gecikme oluşturucu, harici ağ arayüzü bağlantı noktaları olarak "mlxen0" ve "mlxen1" ifadelerini kullanıyor. Sorun ortaya çıkarsa (yani önleyici tedbirler alınmamışsa), Flexnet (ağ yönetimi arka plan programı) içindeki eşlemeyi düzeltmek için adımlar gerekir.
Resolution
Geçişten Önce:
Bu sorun OneFS 9.1 ve üzeri için düzeltilmiştir. Etkilenen bir sürüm kullanıyorsanız, InfiniBand'den Ethernet'e geçmeden önce aşağıdakileri gerçekleştirin.
- Tüm ağ havuzlarından tüm toplama arayüzlerini kaldırın.
- Taşıma işlemini tamamlayın.
- Tüm toplama arayüzlerini gerekli tüm ağ havuzlarına yeniden ekleyin.
Geçişten Sonra:
Sorun oluştuysa ve bir düğüm bölündüyse soruna geçici bir çözüm bulmak için aşağıdaki adımlardan birini (Otomatik veya Manuel) gerçekleştirin.
Otomatik Çözünürlük (Geçici Çözüm)
========================================================
-
"lni" dosyasının yedeğini oluşturun:
mv /etc/mcp/sys/lni.xml /etc/mcp/sys/lni.xml.bak
-
Etkilenen düğüm arayüzünü ağ havuzundan kaldırın.
isi network pools modify <groupnet.subnet.pool> --remove-ifaces=<interface example: 2:40gige-agg-1>
-
Düğümün lni.xml dosyasını yeniden oluşturmak için aşağıdaki komutu çalıştırın:
isi_create_lni_xml
-
Düğümü yeniden başlatın.
-
Arayüzün doğru olduğundan emin olun.
-
MTU 9000'i yapılandırmanın son adımına geçin. Bu işlem tamamlandıktan sonra, etkilenen düğüm arayüzünü tekrar havuza ekleyin.
isi network pools modify <groupnet.subnet.pool> --add-ifaces=<interface example: 2:40gige-agg-1>
Manuel Çözüm (Geçici Çözüm)
========================================================
Bu sorunu çözmek için laggports aşağıdaki eylemler gerçekleştirilerek manuel olarak kaldırılması gerekir.
-
Etkilenen düğüme seri bağlantı gerçekleştirin.
-
Etkilenen düğümde "mcp"yi devre dışı bırakın.
killall -9 isi_mcp
-
Etkilenen düğümde "isi_flexnet_d"yi devre dışı bırakın.
killall -9 isi_flexnet_d
-
Yerel dizinde her iki "flx_config.xml" dosyasının da yedeğini oluşturun.
-
mv /etc/ifs/flexnet/flx_config.xml /etc/ifs/flexnet/flx_config.xml.bak
-
mv /etc/ifs/flexnet/flx_config.xml~ /etc/ifs/flexnet/flx_config.xml~.bak
-
-
Toplama bağlantı noktasıyla ilişkili herhangi bir "VLAN" varsa, bunları aşağı indirin.
ifconfig <vlan interface> down
ÖRNEK
ifconfig vlan0 down
-
laggports"u lag arayüzünden kaldırın.
ifconfig <lag interface> -laggport <mlx iface>
ÖRNEKLER
ifconfig lagg0 -laggport mlxen0
ifconfig lagg0 -laggport mlxen1
-
Gecikme arayüzünü aşağı indirin.
ifconfig <lag iface> down
ÖRNEK
ifconfig lagg0 down
-
Artık arka uç arayüzünün gecikme bağlantı noktasıyla ilişkisi kesildiğine göre, "int-a" VE "int-b" aracılığıyla başka bir düğüme ping testi yapın.
ping <back-end IP [int-a]>
ping <back-end IP [int-b]>
-
Düğümün artık kapalı olmadığını doğrulayın.
isi status -q
-
Tüm işlemleri yenilemek için düğümü yeniden başlatın.