Тайм-аут і скидання пристрою Nvidia Mellanox ConnectX NIC
Summary: Клієнти AX і ACP для Azure, які використовують локальне рішення Azure, можуть стикатися з частими скиданнями NIC на кількох вузлах після встановлення SBE 4.1.2506.n або 4.1.2507.n з драйвером NIC 25.1.26647 ...
Symptoms
Огляд
Після інсталяції SBE версії 4.2.2506.n (AX) або 4.2.2507.n (MC) локальні екземпляри Azure з комп'ютерами з NVIDIA ConnectX NIC (мережева інтерфейсна карта) можуть отримати попереджувальний рівень NDIS з ідентифікатором 10400 та подію mlx5 386.


Для пошуку журналу подій для цих подій можна використовувати таку команду:
Get-WinEvent -FilterHashtable @{LogName="System";ID=10400,386} -ErrorAction SilentlyContinue | Format-list -Property Id,TimeCreated,ContainerLog,LevelDisplayName,Message
Ці події включають скидання ConnectX NIC, що може призвести до збою в роботі мережі, видалення комп'ютера з локального кластера Azure та періодичних подій перевірки помилок. Цей стан спостерігався при певних навантаженнях з версією драйвера mlx5.sys версії 25.1.26647.0 і відповідної прошивки ConnectX, встановленої за допомогою SBE 4.2.2506.n (AX) або 4.2.2507.n (MC).
Виявлення уражених локальних екземплярів Azure
Проблемна поведінка може виникнути при дотриманні всіх наступних умов:
- Комп'ютери є членами локального екземпляра Azure
- На машинах встановлено один або кілька мережевих адаптерів ConnectX
- SBE 4.2.2506.n (AX) або 4.2.2507.n (MC) інстальовано в локальному екземплярі Azure
- Версія драйвера ConnectX NIC під керуванням — 25.1.26647.0
Визначення встановленої версії прошивки ConnectX
Наведену нижче процедуру можна виконати на кожній машині в локальному екземплярі Azure.
- Підключіться до веб-інтерфейсу iDRAC, виберіть Випадаюче меню системи та Інвентаризація.
- Розгорніть Firmware Inventory і пошукайте компоненти з роботою ConnectX в описі. Зверніть увагу на встановлену версію прошивки.

Визначення версії встановленого драйвера ConnectX
Наведену нижче процедуру можна виконати на кожній машині в локальному екземплярі Azure.
- Запустіть наступну команду в основній ОС, щоб визначити запущену версію драйвера ConnectX:
Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

Версії драйвера та прошивки ConnectX
|
Компонент |
Версія, що зазнала впливу |
Версія виправлення |
Завантажити версію для виправлення |
|
Драйвер ConnectX |
25.1.26647.0 |
24.4.26429.0 |
Н/Д (корисне навантаження SBE) |
|
ConnectX-6 LX FW |
26.44.10.36 |
26.41.10.00 |
|
|
ConnectX-6 DX FW |
22.44.10.36 |
22.41.10.00 |
|
|
ConnectX-5 EN/EX FW |
16.35.40.30 |
16.35.30.06 |
|
|
ConnectX-4 LX |
14.32.21.02 |
14.32.20.04 |
Cause
Ця умова спостерігалася в рішенні Dell AX і MC Azure Local при певних робочих навантаженнях з версією драйвера mlx5.sys версії 25.1.26647.0 і відповідної прошивки ConnectX, встановленої за допомогою SBE 4.2.2506.n (AX) або 4.2.2507.n (MC).
Resolution
Впровадження виправлення
Пониження версії прошивки ConnectX NIC перед встановленням SBE 4.2.2509.n (AX)
Виконайте наведену нижче процедуру на кожному комп'ютері в ураженому екземплярі Azure Local.
- Підключіться до веб-інтерфейсу iDRAC, виберіть спадне меню Обслуговування та виберіть Оновлення системи.
- Натисніть кнопку Вибрати файл і виберіть виконуваний файл прошивки, який буде встановлено для ConnectX NIC у вашому апараті. Натисніть кнопку Відкрити, щоб завершити вибір.

- Натисніть кнопку Завантажити, щоб розпочати процес завантаження.

- Коли процес завантаження завершиться, натисніть плюс поруч із файлом, який було завантажено, щоб побачити компоненти, до яких застосовується цей файл прошивки. Відобразиться поточна встановлена версія прошивки та доступна версія прошивки. Доступна версія прошивки – це версія, яка буде встановлена.
- Установіть прапорець поруч із файлом прошивки, який потрібно встановити, і виберіть пункт Інсталювати. Ця дія поетапно оновить мікропрограму ConnectX NIC, оновлення мікропрограми буде завершено, коли хост ОС перезавантажиться на наступному кроці.

- Завдання з інсталяції формації буде додано до черги завдань. Натисніть кнопку «Черга завдань», щоб переглянути завдання в черзі завдань.

- Буде відображено хід виконання роботи.

- Зачекайте, поки статус завдання не покаже 100% виконання. Зверніть увагу на вказаний статус «Очікування перезавантаження сервера».

- Клацніть «Журнал життєвого циклу» та ще раз зазначте, що оновлення прошивки набуде чинності після перезавантаження сервера. Сервер буде автоматично перезапущено під час інсталяції SBE на наступному етапі.

Встановлення SBE 4.2.2509.n
Інсталюйте SBE 4.2.2509.n, використовуючи стандартний процес інсталяції SBE. Інсталяція SBE 4.2.2509.n інсталює виклик інсталяції поетапної прошивки ConnectX, інсталює драйвер SBE 4.2.2509.n і корисне навантаження прошивки. Драйвер mlx5 версії 24.4.26429.0 також буде встановлено в рамках установки SBE 4.2.2509.n.
Перевірка успішного виправлення
Перевірте драйвер і версію мікропрограми ConnectX після успішної інсталяції SBE 4.2.2509.n.
Перевірте встановлену версію прошивки ConnectX
Наведену нижче процедуру можна виконати на кожній машині в локальному екземплярі Azure.
- Підключіться до веб-інтерфейсу iDRAC, виберіть Випадаюче меню системи та Інвентаризація.
- Розгорніть Firmware Inventory і пошукайте компоненти з роботою ConnectX в описі. Зверніть увагу на встановлену версію прошивки.

Перевірте встановлену версію драйвера ConnectX
Наведену нижче процедуру можна виконати на кожній машині в локальному екземплярі Azure.
- Запустіть наступну команду в основній ОС, щоб визначити запущену версію драйвера ConnectX:
Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

ПРИМІТКА. Для вузлів MC використовуйте методи в цій базі знань, щоб вручну знизити версію драйвера та прошивки Nvidia до наступного оновлення програмного забезпечення Apex Cloud Platform.
ПРИМІТКА. Якщо ви вже застосували SBE 4.2.2509.n, але не знизили версію прошивки Mellanox, виконайте наведені нижче дії, щоб знизити мікропрограму до того ж рівня, що й драйвер.
- Зробіть паузу і злийте вузол.
- Призупинення роботи BitLocker у форматі C: ->
Suspend-BitLocker -MountPoint "C:" -RebootCount 0 - Дотримуйтесь інструкцій у розділі "Реалізація виправлення", щоб виконати пониження версії мікропрограми, викликавши відповідний DUP залежно від моделі NIC, і перезапустіть систему.
- Переконайтеся в IDRAC, що пониження рейтингу FW було успішним.
- Перевірте належне підключення в Mellanox nics і відновіть роботу BitLocker:
Resume-BitLocker -MountPoint "C:" - Вивести вузол з режиму обслуговування. Зачекайте, поки завдання сховища завершаться, перш ніж призупиняти будь-який інший вузол.