Истекло время ожидания и сброс сетевого устройства Nvidia Mellanox ConnectX
Summary: AX и ACP В Azure клиенты, использующие локальное решение Azure, могут столкнуться с частым сбросом сетевых плат на нескольких узлах после установки SBE 4.1.2506.n или 4.1.2507.n с драйвером сетевой платы 25.1.26647 ...
Symptoms
Обзор
В локальных экземплярах Azure с компьютерами с сетевой картой NVIDIA ConnectX (сетевая карта) может возникать предупреждение с идентификатором события NDIS 10400 и идентификатором события mlx5 386 после установки SBE версии 4.2.2506.n (AX) или 4.2.2507.n (MC).


Для поиска этих событий в журнале событий можно использовать следующую команду:
Get-WinEvent -FilterHashtable @{LogName="System";ID=10400,386} -ErrorAction SilentlyContinue | Format-list -Property Id,TimeCreated,ContainerLog,LevelDisplayName,Message
Эти события включают сбросы сетевых карт ConnectX, что может привести к нарушению работы сети, удалению компьютера из локального кластера Azure и случайным событиям проверки ошибок. Это состояние наблюдалось при определенных рабочих нагрузках с версией драйвера mlx5.sys 25.1.26647.0 и соответствующей микропрограммой ConnectX, установленной SBE 4.2.2506.n (AX) или 4.2.2507.n (MC).
Идентификация затронутых локальных экземпляров Azure
Проблемное поведение может возникнуть, если выполняются все следующие условия:
- Компьютеры являются членами локального экземпляра Azure
- На компьютерах установлены одна или несколько сетевых плат ConnectX
- В локальном экземпляре Azure установлен SBE 4.2.2506.n (AX) или 4.2.2507.n (MC)
- Работающая версия драйвера сетевой платы ConnectX — 25.1.26647.0
Идентификация установленной версии микропрограммы ConnectX
Следующую процедуру можно выполнить на каждом компьютере в локальном экземпляре Azure.
- Подключитесь к веб-интерфейсу iDRAC, выберите раскрывающееся меню «Система» и «Inventory».
- Разверните Software Inventory и найдите компоненты с рабочим ConnectX в описании. Запишите версию установленной микропрограммы.

Идентификация установленной версии драйвера ConnectX
Следующую процедуру можно выполнить на каждом компьютере в локальном экземпляре Azure.
- Выполните следующую команду в ОС хоста, чтобы определить версию драйвера ConnectX.
Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

Версии драйвера и микропрограммы ConnectX
|
Компонент |
Затронутая версия |
Версия исправления |
Скачанная версия исправления |
|
Драйвер ConnectX |
25.1.26647.0 |
24.4.26429.0 |
Н/Д (полезная нагрузка SBE) |
|
Микропрограмма ConnectX-6 LX |
26.44.10.36 |
26.41.10.00 |
|
|
Микропрограмма ConnectX-6 DX |
22.44.10.36 |
22.41.10.00 |
|
|
ConnectX-5, EN/EX FW |
16.35.40.30 |
16.35.30.06 |
|
|
ConnectX-4 LX |
14.32.21.02 |
14.32.20.04 |
Cause
Это состояние наблюдалось в решении Dell AX и MC Azure Local при определенных рабочих нагрузках с версией драйвера mlx5.sys 25.1.26647.0 и соответствующей микропрограммой ConnectX, установленной SBE 4.2.2506.n (AX) или 4.2.2507.n (MC).
Resolution
Реализация корректирующих действий
Обновление микропрограммы сетевой платы ConnectX перед установкой SBE 4.2.2509.n (AX)
Выполните следующую процедуру на каждом компьютере в затронутом локальном экземпляре Azure.
- Подключитесь к веб-интерфейсу iDRAC, выберите раскрывающийся список «Maintenance», а затем «System Update».
- Нажмите кнопку Choose File и выберите исполняемый файл микропрограммы для установки на сетевую плату ConnectX на компьютере. Нажмите кнопку Открыть, чтобы завершить выбор.

- Нажмите кнопку Загрузить, чтобы начать загрузку.

- После завершения загрузки нажмите значок плюса рядом с загруженным файлом, чтобы увидеть, к каким компонентам применяется этот файл микропрограммы. Отобразится текущая установленная версия микропрограммы и доступная версия микропрограммы. Будет установлена доступная версия микропрограммы.
- Установите флажок рядом с файлом микропрограммы, который необходимо установить, и выберите Установить. В результате этого действия будет выполнено обновление микропрограммы сетевой платы ConnectX; обновление микропрограммы будет завершено при перезагрузке ОС хоста на более позднем этапе.

- Задание установки формации будет добавлено в очередь заданий. Нажмите кнопку Job Queue, чтобы просмотреть задание в очереди заданий.

- Отобразится ход выполнения задания.

- Подождите, пока состояние задания не изменится на 100% завершено. Обратите внимание на указанное состояние Ожидается перезагрузка сервера.

- Щелкните журнал жизненного цикла и еще раз отметьте, что обновление микропрограммы вступит в силу после перезапуска сервера. Сервер будет перезапущен автоматически в рамках установки SBE на более позднем шаге.

Установка SBE 4.2.2509.n
Установите SBE 4.2.2509.n, используя стандартную процедуру установки SBE. Установка SBE 4.2.2509.n установит вызов установки промежуточной микропрограммы ConnectX, установит драйвер SBE 4.2.2509.n и полезную нагрузку микропрограммы. Драйвер mlx5 версии 24.4.26429.0 также будет установлен в составе установки SBE 4.2.2509.n.
Проверка успешности исправления
После успешной установки SBE 4.2.2509.n проверьте версию драйвера и микропрограммы ConnectX.
Проверка установленной версии микропрограммы ConnectX
Следующую процедуру можно выполнить на каждом компьютере в локальном экземпляре Azure.
- Подключитесь к веб-интерфейсу iDRAC, выберите раскрывающееся меню «Система» и «Inventory».
- Разверните Software Inventory и найдите компоненты с рабочим ConnectX в описании. Запишите версию установленной микропрограммы.

Проверка версии установленного драйвера ConnectX
Следующую процедуру можно выполнить на каждом компьютере в локальном экземпляре Azure.
- Выполните следующую команду в ОС хоста, чтобы определить версию драйвера ConnectX.
Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

ПРИМЕЧАНИЕ. Для узлов MC используйте методы, описанные в этой статье базы знаний, чтобы вручную понизить версию драйвера и микропрограммы Nvidia до следующего обновления ПО Apex Cloud Platform.
ПРИМЕЧАНИЕ. Если вы уже применили SBE 4.2.2509.n, но не понизили версию микропрограммы Mellanox, выполните следующие действия, чтобы понизить версию микропрограммы до того же уровня, что и драйвер.
- Приостановите и очистите узел.
- Приостановка BitLocker в C: ->
Suspend-BitLocker -MountPoint "C:" -RebootCount 0 - Выполните действия, описанные в разделе «Реализация исправления», чтобы выполнить понижение версии микропрограммы, вызвав соответствующий пакет DUP в зависимости от модели сетевой платы, и перезагрузите систему.
- Убедитесь в IDRAC, что понижение версии микропрограммы прошло успешно.
- Проверьте правильность подключения сетевых плат Mellanox и возобновите работу BitLocker:
Resume-BitLocker -MountPoint "C:" - Выведите узел из режима обслуживания. Прежде чем приостанавливать любой другой узел, дождитесь завершения заданий хранилища.