Шкала потужності: Перетворення InfiniBand в Ethernet може призвести до неправильної конфігурації агрегації каналів

Summary: У цій статті описано, як вирішити проблему, яка виникає під час перетворення InfiniBand на Ethernet серверної частини кластера для версії OneFS до 9.1.0.0.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Версії OneFS до 9.1 і перетворення кластера з InfiniBand на сервер Ethernet може призвести до неправильно налаштованих агрегованих портів. Перезавантаження вузла створить поганий агрегат і призведе до розколу вузла.

Примітка: Цю проблему можна уникнути, видаливши всі агрегатні інтерфейси з усіх пулів перед початком конвертації серверної частини. Цю статтю слід використовувати на випадок, якщо щось піде не так з конвертацією.

Інтерфейси постачальника Mellanox (mlxen), які неправильно налаштовані для агрегації і, ймовірно, можуть призвести до того, що вузол не зможе повторно приєднатися до кластера. Перегляд ifconfig з вузла показує ISIВНУТРІШНІ інтерфейси, відображені в лагг0.

Isilon-18# ifconfig 
bge0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 
options=8009b<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,VLAN_HWCSUM,LINKSTATE> 
		ether 00:60:16:cc:bb:aa 
		inet 192.168.60.10 netmask 0xffffff80 broadcast 192.168.60.127 zone 1 
		nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> 
		media: Ethernet autoselect (1000baseT <full-duplex,master>) 
		status: active 
mlxen0: flags=1008843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST,ISIINTERNAL> metric 0 mtu 1500
options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> 
		ether 98:03:9b:cc:bb:aa 
		inet 128.221.252.18 netmask 0xffffff00 broadcast 128.221.252.255 zone 1 
		inet 128.221.254.18 netmask 0xffffff00 broadcast 128.221.254.255 zone 1 
		nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> 
		media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) 
		status: active 
mlxen1: flags=1008843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST,ISIINTERNAL> metric 0 mtu 1500
options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> 
		ether 98:03:9b:cc:bb:aa 
		inet 128.221.253.18 netmask 0xffffff00 broadcast 128.221.253.255 zone 1 
		inet 128.221.254.18 netmask 0xffffff00 broadcast 128.221.254.255 zone 1 
		nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> 
		media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) 
		status: active 
mlxen2: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500
options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> 
		ether 98:03:9b:cc:bb:fa 
		nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> 
		media: Ethernet autoselect (10Gbase-CX4 <full-duplex,rxpause,txpause>) 
		status: active 
mlxen3: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500
options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> 
		ether 98:03:9b:cc:bb:fb 
		nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> 
		media: Ethernet autoselect (10Gbase-CX4 <full-duplex,rxpause,txpause>) 
		status: active 
lagg0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500
options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> 
		ether 98:03:9b:cc:bb:aa 
		nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> 
		media: Ethernet autoselect 
		status: active 
		groups: lagg laggproto lacp lagghash l2,l3,l4 
		laggport: mlxen0 flags=1c<ACTIVE,COLLECTING,DISTRIBUTING> 
		laggport: mlxen1 flags=1c<ACTIVE,COLLECTING,DISTRIBUTING> 
vlan0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500
		options=303<RXCSUM,TXCSUM,TSO4,TSO6> 
		ether 98:03:9b:cc:bb:aa 
		inet 10.10.20.11 netmask 0xffffff00 broadcast 10.10.20.255 zone 18 
		nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> 
		media: Ethernet autoselect 
		status: active 
		vlan: 100 
		vlanpcp: 0 parent 
		interface: lagg0 
		groups: vlan

 

Cause

Перетворення з Infiniband на Ethernet змінює назви інтерфейсів з ib0 на mlxen0 (int-a) та ib1 на mlxen1 (int-b). Автор затримки посилається на "mlxen0" і "mlxen1" як на порти зовнішнього мережевого інтерфейсу. Якщо проблема виникне (це означає, що не було вжито запобіжних заходів), необхідно вжити заходів для виправлення відображення в Flexnet (демоні керування мережею).

 

Resolution

Перед міграцією:

Цю проблему виправлено для OneFS 9.1 і пізніших версій. Якщо ви використовуєте відповідну версію, виконайте наведені нижче дії перед міграцією з InfiniBand на Ethernet.

  1. Видаліть усі агрегатні інтерфейси з усіх мережевих пулів.
  2. Завершіть міграцію.
  3. Повторно додайте всі агреговані інтерфейси до всіх необхідних мережевих пулів.

Після міграції:

Якщо виникла проблема та вузол розділився, виконайте один із наведених нижче кроків (Автоматично або вручну), щоб вирішити проблему.

Автоматична роздільна здатність (обхідний шлях)

========================================================

  1. Створіть резервну копію файлу "lni":

    mv /etc/mcp/sys/lni.xml /etc/mcp/sys/lni.xml.bak
  2. Видаліть уражений інтерфейс вузла з мережевого пулу.

    isi network pools modify <groupnet.subnet.pool> --remove-ifaces=<interface example: 2:40gige-agg-1>
  3. Виконайте наступну команду, щоб перебудувати файл lni.xml вузла:

    isi_create_lni_xml
  4. Перезавантажте вузол.

  5. Переконайтеся, що інтерфейс правильний.

  6. Перейдіть до останнього кроку налаштування MTU 9000. Після того, як це буде виконано, додайте інтерфейс ураженого вузла назад до пулу.

    isi network pools modify <groupnet.subnet.pool> --add-ifaces=<interface example: 2:40gige-agg-1>

Ручна роздільна здатність (обхідний шлях)

========================================================

Для того, щоб вирішити цю проблему, ми laggports необхідно видалити вручну, виконавши наступні дії.

  1. Використовуйте послідовне з'єднання з ураженим вузлом.

  2. Вимкніть "mcp" на ураженому вузлі.

    killall -9 isi_mcp
  3. Вимкніть «isi_flexnet_d» на ураженому вузлі.

    killall -9 isi_flexnet_d
  4. Створіть резервну копію обох файлів "flx_config.xml" у локальному каталозі.

    1. mv /etc/ifs/flexnet/flx_config.xml /etc/ifs/flexnet/flx_config.xml.bak
    2. mv /etc/ifs/flexnet/flx_config.xml~ /etc/ifs/flexnet/flx_config.xml~.bak
  5. Якщо є якісь «влани», пов'язані із загальним портом, зменшіть їх.

    ifconfig <vlan interface> down

    ПРИКЛАД

    ifconfig vlan0 down
  6. Видаліть "лагпорти" з інтерфейсу затримок.

    ifconfig <lag interface> -laggport <mlx iface>

    ПРИКЛАДИ

    ifconfig lagg0 -laggport mlxen0
    ifconfig lagg0 -laggport mlxen1
  7. Знизьте інтерфейс із затримками.

    ifconfig <lag iface> down

    ПРИКЛАД

    ifconfig lagg0 down
  8. Тепер, коли інтерфейс серверної частини відокремлено від порту затримки, перевірте пінг для будь-якого іншого вузла через "int-a" І "int-b."

    ping <back-end IP [int-a]>
    ping <back-end IP [int-b]>
  9. Переконайтеся, що вузол більше не працює.

    isi status -q
  10. Щоб освіжити всі процеси, перезавантажте вузол.

 

Products

Isilon A200, Isilon A2000, Isilon F800, Isilon F810, Isilon H400, Isilon H500, Isilon H5600, Isilon H600
Article Properties
Article Number: 000168838
Article Type: Solution
Last Modified: 18 Mar 2025
Version:  9
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.