Шкала потужності: Перетворення InfiniBand в Ethernet може призвести до неправильної конфігурації агрегації каналів
Summary: У цій статті описано, як вирішити проблему, яка виникає під час перетворення InfiniBand на Ethernet серверної частини кластера для версії OneFS до 9.1.0.0.
Symptoms
Версії OneFS до 9.1 і перетворення кластера з InfiniBand на сервер Ethernet може призвести до неправильно налаштованих агрегованих портів. Перезавантаження вузла створить поганий агрегат і призведе до розколу вузла.
Інтерфейси постачальника Mellanox (mlxen), які неправильно налаштовані для агрегації і, ймовірно, можуть призвести до того, що вузол не зможе повторно приєднатися до кластера. Перегляд ifconfig з вузла показує ISIВНУТРІШНІ інтерфейси, відображені в лагг0.
Isilon-18# ifconfig bge0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 options=8009b<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,VLAN_HWCSUM,LINKSTATE> ether 00:60:16:cc:bb:aa inet 192.168.60.10 netmask 0xffffff80 broadcast 192.168.60.127 zone 1 nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> media: Ethernet autoselect (1000baseT <full-duplex,master>) status: active mlxen0: flags=1008843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST,ISIINTERNAL> metric 0 mtu 1500 options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> ether 98:03:9b:cc:bb:aa inet 128.221.252.18 netmask 0xffffff00 broadcast 128.221.252.255 zone 1 inet 128.221.254.18 netmask 0xffffff00 broadcast 128.221.254.255 zone 1 nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) status: active mlxen1: flags=1008843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST,ISIINTERNAL> metric 0 mtu 1500 options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> ether 98:03:9b:cc:bb:aa inet 128.221.253.18 netmask 0xffffff00 broadcast 128.221.253.255 zone 1 inet 128.221.254.18 netmask 0xffffff00 broadcast 128.221.254.255 zone 1 nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> media: Ethernet autoselect (40Gbase-CR4 <full-duplex,rxpause,txpause>) status: active mlxen2: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> ether 98:03:9b:cc:bb:fa nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> media: Ethernet autoselect (10Gbase-CX4 <full-duplex,rxpause,txpause>) status: active mlxen3: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> ether 98:03:9b:cc:bb:fb nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> media: Ethernet autoselect (10Gbase-CX4 <full-duplex,rxpause,txpause>) status: active lagg0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 options=ed07bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWFILTER,VLAN_HWTSO,LINKSTATE,RXCSUM_IPV6,TXCSUM_IPV6> ether 98:03:9b:cc:bb:aa nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> media: Ethernet autoselect status: active groups: lagg laggproto lacp lagghash l2,l3,l4 laggport: mlxen0 flags=1c<ACTIVE,COLLECTING,DISTRIBUTING> laggport: mlxen1 flags=1c<ACTIVE,COLLECTING,DISTRIBUTING> vlan0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 options=303<RXCSUM,TXCSUM,TSO4,TSO6> ether 98:03:9b:cc:bb:aa inet 10.10.20.11 netmask 0xffffff00 broadcast 10.10.20.255 zone 18 nd6 options=21<PERFORMNUD,AUTO_LINKLOCAL> media: Ethernet autoselect status: active vlan: 100 vlanpcp: 0 parent interface: lagg0 groups: vlan
Cause
Перетворення з Infiniband на Ethernet змінює назви інтерфейсів з ib0 на mlxen0 (int-a) та ib1 на mlxen1 (int-b). Автор затримки посилається на "mlxen0" і "mlxen1" як на порти зовнішнього мережевого інтерфейсу. Якщо проблема виникне (це означає, що не було вжито запобіжних заходів), необхідно вжити заходів для виправлення відображення в Flexnet (демоні керування мережею).
Resolution
Перед міграцією:
Цю проблему виправлено для OneFS 9.1 і пізніших версій. Якщо ви використовуєте відповідну версію, виконайте наведені нижче дії перед міграцією з InfiniBand на Ethernet.
- Видаліть усі агрегатні інтерфейси з усіх мережевих пулів.
- Завершіть міграцію.
- Повторно додайте всі агреговані інтерфейси до всіх необхідних мережевих пулів.
Після міграції:
Якщо виникла проблема та вузол розділився, виконайте один із наведених нижче кроків (Автоматично або вручну), щоб вирішити проблему.
Автоматична роздільна здатність (обхідний шлях)
========================================================
-
Створіть резервну копію файлу "lni":
mv /etc/mcp/sys/lni.xml /etc/mcp/sys/lni.xml.bak
-
Видаліть уражений інтерфейс вузла з мережевого пулу.
isi network pools modify <groupnet.subnet.pool> --remove-ifaces=<interface example: 2:40gige-agg-1>
-
Виконайте наступну команду, щоб перебудувати файл lni.xml вузла:
isi_create_lni_xml
-
Перезавантажте вузол.
-
Переконайтеся, що інтерфейс правильний.
-
Перейдіть до останнього кроку налаштування MTU 9000. Після того, як це буде виконано, додайте інтерфейс ураженого вузла назад до пулу.
isi network pools modify <groupnet.subnet.pool> --add-ifaces=<interface example: 2:40gige-agg-1>
Ручна роздільна здатність (обхідний шлях)
========================================================
Для того, щоб вирішити цю проблему, ми laggports необхідно видалити вручну, виконавши наступні дії.
-
Використовуйте послідовне з'єднання з ураженим вузлом.
-
Вимкніть "mcp" на ураженому вузлі.
killall -9 isi_mcp
-
Вимкніть «isi_flexnet_d» на ураженому вузлі.
killall -9 isi_flexnet_d
-
Створіть резервну копію обох файлів "flx_config.xml" у локальному каталозі.
-
mv /etc/ifs/flexnet/flx_config.xml /etc/ifs/flexnet/flx_config.xml.bak
-
mv /etc/ifs/flexnet/flx_config.xml~ /etc/ifs/flexnet/flx_config.xml~.bak
-
-
Якщо є якісь «влани», пов'язані із загальним портом, зменшіть їх.
ifconfig <vlan interface> down
ПРИКЛАД
ifconfig vlan0 down
-
Видаліть "лагпорти" з інтерфейсу затримок.
ifconfig <lag interface> -laggport <mlx iface>
ПРИКЛАДИ
ifconfig lagg0 -laggport mlxen0
ifconfig lagg0 -laggport mlxen1
-
Знизьте інтерфейс із затримками.
ifconfig <lag iface> down
ПРИКЛАД
ifconfig lagg0 down
-
Тепер, коли інтерфейс серверної частини відокремлено від порту затримки, перевірте пінг для будь-якого іншого вузла через "int-a" І "int-b."
ping <back-end IP [int-a]>
ping <back-end IP [int-b]>
-
Переконайтеся, що вузол більше не працює.
isi status -q
-
Щоб освіжити всі процеси, перезавантажте вузол.