Истекло время ожидания и сброс сетевого устройства Nvidia Mellanox ConnectX

Summary: AX и ACP В Azure клиенты, использующие локальное решение Azure, могут столкнуться с частым сбросом сетевых плат на нескольких узлах после установки SBE 4.1.2506.n или 4.1.2507.n с драйвером сетевой платы 25.1.26647 ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Обзор

В локальных экземплярах Azure с компьютерами с сетевой картой NVIDIA ConnectX (сетевая карта) может возникать предупреждение с идентификатором события NDIS 10400 и идентификатором события mlx5 386 после установки SBE версии 4.2.2506.n (AX) или 4.2.2507.n (MC).

 

 

Для поиска этих событий в журнале событий можно использовать следующую команду:

Get-WinEvent -FilterHashtable @{LogName="System";ID=10400,386} -ErrorAction SilentlyContinue | Format-list -Property Id,TimeCreated,ContainerLog,LevelDisplayName,Message

Эти события включают сбросы сетевых карт ConnectX, что может привести к нарушению работы сети, удалению компьютера из локального кластера Azure и случайным событиям проверки ошибок. Это состояние наблюдалось при определенных рабочих нагрузках с версией драйвера mlx5.sys 25.1.26647.0 и соответствующей микропрограммой ConnectX, установленной SBE 4.2.2506.n (AX) или 4.2.2507.n (MC).

 

Идентификация затронутых локальных экземпляров Azure

Проблемное поведение может возникнуть, если выполняются все следующие условия:

  • Компьютеры являются членами локального экземпляра Azure
  • На компьютерах установлены одна или несколько сетевых плат ConnectX
  • В локальном экземпляре Azure установлен SBE 4.2.2506.n (AX) или 4.2.2507.n (MC)
  • Работающая версия драйвера сетевой платы ConnectX — 25.1.26647.0

 

Идентификация установленной версии микропрограммы ConnectX

Следующую процедуру можно выполнить на каждом компьютере в локальном экземпляре Azure.

  1. Подключитесь к веб-интерфейсу iDRAC, выберите раскрывающееся меню «Система» и «Inventory».
  2. Разверните Software Inventory и найдите компоненты с рабочим ConnectX в описании. Запишите версию установленной микропрограммы.

 

 

Идентификация установленной версии драйвера ConnectX

Следующую процедуру можно выполнить на каждом компьютере в локальном экземпляре Azure.

  1. Выполните следующую команду в ОС хоста, чтобы определить версию драйвера ConnectX.
    Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

Версии драйвера и микропрограммы ConnectX

Компонент

Затронутая версия

Версия исправления

Скачанная версия исправления

Драйвер ConnectX

25.1.26647.0

24.4.26429.0

Н/Д (полезная нагрузка SBE)

Микропрограмма ConnectX-6 LX

26.44.10.36

26.41.10.00

1Ч4ПМ

Микропрограмма ConnectX-6 DX

22.44.10.36

22.41.10.00

2CMVW

ConnectX-5, EN/EX FW

16.35.40.30

16.35.30.06

XY16R

ConnectX-4 LX

14.32.21.02

14.32.20.04

ХГП2Х

 

 

Cause

Это состояние наблюдалось в решении Dell AX и MC Azure Local при определенных рабочих нагрузках с версией драйвера mlx5.sys 25.1.26647.0 и соответствующей микропрограммой ConnectX, установленной SBE 4.2.2506.n (AX) или 4.2.2507.n (MC). 

Resolution

Реализация корректирующих действий

Обновление микропрограммы сетевой платы ConnectX перед установкой SBE 4.2.2509.n (AX)

Выполните следующую процедуру на каждом компьютере в затронутом локальном экземпляре Azure.

  1. Подключитесь к веб-интерфейсу iDRAC, выберите раскрывающийся список «Maintenance», а затем «System Update».
  2. Нажмите кнопку Choose File и выберите исполняемый файл микропрограммы для установки на сетевую плату ConnectX на компьютере. Нажмите кнопку Открыть, чтобы завершить выбор.
  3. Нажмите кнопку Загрузить, чтобы начать загрузку.
  4. После завершения загрузки нажмите значок плюса рядом с загруженным файлом, чтобы увидеть, к каким компонентам применяется этот файл микропрограммы. Отобразится текущая установленная версия микропрограммы и доступная версия микропрограммы. Будет установлена доступная версия микропрограммы.
     
  5. Установите флажок рядом с файлом микропрограммы, который необходимо установить, и выберите Установить. В результате этого действия будет выполнено обновление микропрограммы сетевой платы ConnectX; обновление микропрограммы будет завершено при перезагрузке ОС хоста на более позднем этапе.
  6. Задание установки формации будет добавлено в очередь заданий. Нажмите кнопку Job Queue, чтобы просмотреть задание в очереди заданий.
  7. Отобразится ход выполнения задания.
  8. Подождите, пока состояние задания не изменится на 100% завершено. Обратите внимание на указанное состояние Ожидается перезагрузка сервера.
  9. Щелкните журнал жизненного цикла и еще раз отметьте, что обновление микропрограммы вступит в силу после перезапуска сервера. Сервер будет перезапущен автоматически в рамках установки SBE на более позднем шаге.

 

Установка SBE 4.2.2509.n

Установите SBE 4.2.2509.n, используя стандартную процедуру установки SBE. Установка SBE 4.2.2509.n установит вызов установки промежуточной микропрограммы ConnectX, установит драйвер SBE 4.2.2509.n и полезную нагрузку микропрограммы. Драйвер mlx5 версии 24.4.26429.0 также будет установлен в составе установки SBE 4.2.2509.n.

 

Проверка успешности исправления

После успешной установки SBE 4.2.2509.n проверьте версию драйвера и микропрограммы ConnectX.

Проверка установленной версии микропрограммы ConnectX

Следующую процедуру можно выполнить на каждом компьютере в локальном экземпляре Azure.

  1. Подключитесь к веб-интерфейсу iDRAC, выберите раскрывающееся меню «Система» и «Inventory».
  2. Разверните Software Inventory и найдите компоненты с рабочим ConnectX в описании. Запишите версию установленной микропрограммы.

Проверка версии установленного драйвера ConnectX

Следующую процедуру можно выполнить на каждом компьютере в локальном экземпляре Azure.

  1. Выполните следующую команду в ОС хоста, чтобы определить версию драйвера ConnectX.
    Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

 

 

ПРИМЕЧАНИЕ. Для узлов MC используйте методы, описанные в этой статье базы знаний, чтобы вручную понизить версию драйвера и микропрограммы Nvidia до следующего обновления ПО Apex Cloud Platform. 

 

ПРИМЕЧАНИЕ. Если вы уже применили SBE 4.2.2509.n, но не понизили версию микропрограммы Mellanox, выполните следующие действия, чтобы понизить версию микропрограммы до того же уровня, что и драйвер. 

 

  1.       Приостановите и очистите узел.
  2.       Приостановка BitLocker в C:  -> 
    Suspend-BitLocker -MountPoint "C:" -RebootCount 0
  3.       Выполните действия, описанные в разделе «Реализация исправления», чтобы выполнить понижение версии микропрограммы, вызвав соответствующий пакет DUP в зависимости от модели сетевой платы, и перезагрузите систему.
  4.      Убедитесь в IDRAC, что понижение версии микропрограммы прошло успешно.
  5.      Проверьте правильность подключения сетевых плат Mellanox и возобновите работу BitLocker:  
    Resume-BitLocker -MountPoint "C:"
  6.      Выведите узел из режима обслуживания. Прежде чем приостанавливать любой другой узел, дождитесь завершения заданий хранилища. 

 

Affected Products

APEX MC-660, APEX MC-760, ax-650, AX-6515, AX-660, AX-750, AX-7525, AX-760
Article Properties
Article Number: 000376360
Article Type: Solution
Last Modified: 10 Oct 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.