Тайм-аут і скидання пристрою Nvidia Mellanox ConnectX NIC

Summary: Клієнти AX і ACP для Azure, які використовують локальне рішення Azure, можуть стикатися з частими скиданнями NIC на кількох вузлах після встановлення SBE 4.1.2506.n або 4.1.2507.n з драйвером NIC 25.1.26647 ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Огляд

Після інсталяції SBE версії 4.2.2506.n (AX) або 4.2.2507.n (MC) локальні екземпляри Azure з комп'ютерами з NVIDIA ConnectX NIC (мережева інтерфейсна карта) можуть отримати попереджувальний рівень NDIS з ідентифікатором 10400 та подію mlx5 386.

 

 

Для пошуку журналу подій для цих подій можна використовувати таку команду:

Get-WinEvent -FilterHashtable @{LogName="System";ID=10400,386} -ErrorAction SilentlyContinue | Format-list -Property Id,TimeCreated,ContainerLog,LevelDisplayName,Message

Ці події включають скидання ConnectX NIC, що може призвести до збою в роботі мережі, видалення комп'ютера з локального кластера Azure та періодичних подій перевірки помилок. Цей стан спостерігався при певних навантаженнях з версією драйвера mlx5.sys версії 25.1.26647.0 і відповідної прошивки ConnectX, встановленої за допомогою SBE 4.2.2506.n (AX) або 4.2.2507.n (MC).

 

Виявлення уражених локальних екземплярів Azure

Проблемна поведінка може виникнути при дотриманні всіх наступних умов:

  • Комп'ютери є членами локального екземпляра Azure
  • На машинах встановлено один або кілька мережевих адаптерів ConnectX
  • SBE 4.2.2506.n (AX) або 4.2.2507.n (MC) інстальовано в локальному екземплярі Azure
  • Версія драйвера ConnectX NIC під керуванням — 25.1.26647.0

 

Визначення встановленої версії прошивки ConnectX

Наведену нижче процедуру можна виконати на кожній машині в локальному екземплярі Azure.

  1. Підключіться до веб-інтерфейсу iDRAC, виберіть Випадаюче меню системи та Інвентаризація.
  2. Розгорніть Firmware Inventory і пошукайте компоненти з роботою ConnectX в описі. Зверніть увагу на встановлену версію прошивки.

 

 

Визначення версії встановленого драйвера ConnectX

Наведену нижче процедуру можна виконати на кожній машині в локальному екземплярі Azure.

  1. Запустіть наступну команду в основній ОС, щоб визначити запущену версію драйвера ConnectX:
    Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

Версії драйвера та прошивки ConnectX

Компонент

Версія, що зазнала впливу

Версія виправлення

Завантажити версію для виправлення

Драйвер ConnectX

25.1.26647.0

24.4.26429.0

Н/Д (корисне навантаження SBE)

ConnectX-6 LX FW

26.44.10.36

26.41.10.00

1 год 4 вечора

ConnectX-6 DX FW

22.44.10.36

22.41.10.00

2CMVW

ConnectX-5 EN/EX FW

16.35.40.30

16.35.30.06

XY16Р

ConnectX-4 LX

14.32.21.02

14.32.20.04

XGP2X

 

 

Cause

Ця умова спостерігалася в рішенні Dell AX і MC Azure Local при певних робочих навантаженнях з версією драйвера mlx5.sys версії 25.1.26647.0 і відповідної прошивки ConnectX, встановленої за допомогою SBE 4.2.2506.n (AX) або 4.2.2507.n (MC). 

Resolution

Впровадження виправлення

Пониження версії прошивки ConnectX NIC перед встановленням SBE 4.2.2509.n (AX)

Виконайте наведену нижче процедуру на кожному комп'ютері в ураженому екземплярі Azure Local.

  1. Підключіться до веб-інтерфейсу iDRAC, виберіть спадне меню Обслуговування та виберіть Оновлення системи.
  2. Натисніть кнопку Вибрати файл і виберіть виконуваний файл прошивки, який буде встановлено для ConnectX NIC у вашому апараті. Натисніть кнопку Відкрити, щоб завершити вибір.
  3. Натисніть кнопку Завантажити, щоб розпочати процес завантаження.
  4. Коли процес завантаження завершиться, натисніть плюс поруч із файлом, який було завантажено, щоб побачити компоненти, до яких застосовується цей файл прошивки. Відобразиться поточна встановлена версія прошивки та доступна версія прошивки. Доступна версія прошивки – це версія, яка буде встановлена.
     
  5. Установіть прапорець поруч із файлом прошивки, який потрібно встановити, і виберіть пункт Інсталювати. Ця дія поетапно оновить мікропрограму ConnectX NIC, оновлення мікропрограми буде завершено, коли хост ОС перезавантажиться на наступному кроці.
  6. Завдання з інсталяції формації буде додано до черги завдань. Натисніть кнопку «Черга завдань», щоб переглянути завдання в черзі завдань.
  7. Буде відображено хід виконання роботи.
  8. Зачекайте, поки статус завдання не покаже 100% виконання. Зверніть увагу на вказаний статус «Очікування перезавантаження сервера».
  9. Клацніть «Журнал життєвого циклу» та ще раз зазначте, що оновлення прошивки набуде чинності після перезавантаження сервера. Сервер буде автоматично перезапущено під час інсталяції SBE на наступному етапі.

 

Встановлення SBE 4.2.2509.n

Інсталюйте SBE 4.2.2509.n, використовуючи стандартний процес інсталяції SBE. Інсталяція SBE 4.2.2509.n інсталює виклик інсталяції поетапної прошивки ConnectX, інсталює драйвер SBE 4.2.2509.n і корисне навантаження прошивки. Драйвер mlx5 версії 24.4.26429.0 також буде встановлено в рамках установки SBE 4.2.2509.n.

 

Перевірка успішного виправлення

Перевірте драйвер і версію мікропрограми ConnectX після успішної інсталяції SBE 4.2.2509.n.

Перевірте встановлену версію прошивки ConnectX

Наведену нижче процедуру можна виконати на кожній машині в локальному екземплярі Azure.

  1. Підключіться до веб-інтерфейсу iDRAC, виберіть Випадаюче меню системи та Інвентаризація.
  2. Розгорніть Firmware Inventory і пошукайте компоненти з роботою ConnectX в описі. Зверніть увагу на встановлену версію прошивки.

Перевірте встановлену версію драйвера ConnectX

Наведену нижче процедуру можна виконати на кожній машині в локальному екземплярі Azure.

  1. Запустіть наступну команду в основній ОС, щоб визначити запущену версію драйвера ConnectX:
    Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

 

 

ПРИМІТКА. Для вузлів MC використовуйте методи в цій базі знань, щоб вручну знизити версію драйвера та прошивки Nvidia до наступного оновлення програмного забезпечення Apex Cloud Platform. 

 

ПРИМІТКА. Якщо ви вже застосували SBE 4.2.2509.n, але не знизили версію прошивки Mellanox, виконайте наведені нижче дії, щоб знизити мікропрограму до того ж рівня, що й драйвер. 

 

  1.       Зробіть паузу і злийте вузол.
  2.       Призупинення роботи BitLocker у форматі C:  -> 
    Suspend-BitLocker -MountPoint "C:" -RebootCount 0
  3.       Дотримуйтесь інструкцій у розділі "Реалізація виправлення", щоб виконати пониження версії мікропрограми, викликавши відповідний DUP залежно від моделі NIC, і перезапустіть систему.
  4.      Переконайтеся в IDRAC, що пониження рейтингу FW було успішним.
  5.      Перевірте належне підключення в Mellanox nics і відновіть роботу BitLocker:  
    Resume-BitLocker -MountPoint "C:"
  6.      Вивести вузол з режиму обслуговування. Зачекайте, поки завдання сховища завершаться, перш ніж призупиняти будь-який інший вузол. 

 

Affected Products

APEX MC-660, APEX MC-760, ax-650, AX-6515, AX-660, AX-750, AX-7525, AX-760
Article Properties
Article Number: 000376360
Article Type: Solution
Last Modified: 10 Oct 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.