Tempo de espera e redefinição do dispositivo Nvidia Mellanox ConnectX NIC

Summary: AX e ACP Para clientes do Azure que executam a solução Azure Local, podem experimentar redefinições frequentes de NIC em vários nós após a instalação do SBE 4.1.2506.n ou 4.1.2507.n, com driver de NIC 25.1.26647 ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Visão geral

As instâncias locais do Azure com máquinas que têm a NIC (Network Interface Card, placa de interface de rede) NVIDIA ConnectX podem apresentar nível de advertência ID de evento NDIS 10400 e ID de evento mlx5 386 após a instalação do SBE versão 4.2.2506.n (AX) ou 4.2.2507.n (MC).

 

 

O seguinte comando pode ser usado para pesquisar esses eventos no registro de eventos:

Get-WinEvent -FilterHashtable @{LogName="System";ID=10400,386} -ErrorAction SilentlyContinue | Format-list -Property Id,TimeCreated,ContainerLog,LevelDisplayName,Message

Esses eventos envolvem as redefinições de NIC do ConnectX, o que pode resultar em disrupção de rede, remoção de máquina do cluster local do Azure e eventos ocasionais de verificação de bugs. Essa condição foi observada em determinadas cargas de trabalho com mlx5.sys versão do driver 25.1.26647.0 e o firmware correspondente do ConnectX instalado pelo SBE 4.2.2506.n (AX) ou 4.2.2507.n (MC).

 

Identificando instâncias locais afetadas do Azure

O comportamento problemático pode ocorrer quando todas as seguintes condições são atendidas:

  • As máquinas são membros de uma instância local do Azure
  • As máquinas têm uma ou mais placas de rede do ConnectX instaladas
  • O SBE 4.2.2506.n (AX) ou 4.2.2507.n (MC) está instalado na instância local do Azure
  • A versão do driver de NIC do ConnectX em execução é a 25.1.26647.0

 

Identificando a versão instalada do firmware do ConnectX

O procedimento a seguir pode ser executado em cada computador em uma instância local do Azure.

  1. Conecte-se à interface Web do iDRAC, selecione o menu suspenso System e Inventory.
  2. Expanda Firmware Inventory e procure componentes com o ConnectX de trabalho na descrição. Observe a versão do firmware instalado.

 

 

Identificando a versão instalada do driver do ConnectX

O procedimento a seguir pode ser executado em cada computador em uma instância local do Azure.

  1. Execute o seguinte comando no sistema operacional do host para identificar a versão do driver ConnectX em execução:
    Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

Versões de driver e firmware do ConnectX

Componente

Versão afetada

Versão de correção

Download da versão de correção

ConnectX Driver

25.1.26647.0

24.4.26429.0

N/D (payload do SBE)

Firmware do ConnectX-6 LX

26.44.10.36

26.41.10.00

13h4

Firmware do ConnectX-6 DX

22.44.10.36

22.41.10.00

2CMVW

ConnectX-5 EN/EX FW

16.35.40.30

16.35.30.06

XY16R

ConnectX-4 LX

14.32.21.02

14.32.20.04

XGP2X

 

 

Cause

Essa condição foi observada na solução Dell AX e MC Azure Local sob determinadas cargas de trabalho com mlx5.sys versão de driver 25.1.26647.0 e o firmware correspondente do ConnectX instalado pelo SBE 4.2.2506.n (AX) ou 4.2.2507.n (MC). 

Resolution

Implementando a correção

Downgrade do firmware de NIC do ConnectX antes de instalar o SBE 4.2.2509.n (AX)

Execute o procedimento a seguir em cada computador na instância local afetada do Azure.

  1. Conecte-se à interface Web do iDRAC, selecione o menu suspenso Maintenance e selecione System Update.
  2. Clique no botão Choose File e selecione o arquivo executável do firmware a ser instalado para a NIC ConnectX em sua máquina. Clique no botão Open para concluir a seleção.
  3. Clique no botão Upload para iniciar o processo de upload.
  4. Quando o processo de upload for concluído, clique no sinal de adição ao lado do arquivo carregado para ver os componentes aos quais esse arquivo de firmware se aplica. A versão do firmware atualmente instalada e a versão do firmware disponível serão exibidas. A versão do firmware disponível é a que será instalada.
     
  5. Clique na caixa de seleção ao lado do arquivo de firmware a ser instalado e selecione Instalar. Essa ação preparará o upgrade do firmware da NIC do ConnectX. O upgrade do firmware será concluído quando o sistema operacional do host for reinicializado durante uma etapa posterior.
  6. O trabalho de instalação de formação será adicionado à fila de trabalhos. Clique no botão Job Queue para visualizar o trabalho na fila de trabalhos.
  7. O andamento do trabalho será exibido.
  8. Aguarde até que o status do trabalho mostre 100% concluído. Observe o status indicado de Pendente de reinicialização do servidor.
  9. Clique em Lifecycle Log e observe novamente que a atualização do firmware entrará em vigor após a reinicialização do servidor. O servidor será reiniciado automaticamente como parte da instalação do SBE em uma etapa posterior.

 

Instalando o SBE 4.2.2509.n

Instale o SBE 4.2.2509.n usando o processo de instalação padrão do SBE. A instalação do SBE 4.2.2509.n irá instalar a instalação do firmware do ConnectX preparado, instalar o driver do SBE 4.2.2509.n e a carga útil do firmware. A versão 24.4.26429.0 do driver mlx5 também será instalada como parte da instalação do SBE 4.2.2509.n.

 

Verificando a correção bem-sucedida

Verifique o driver e a versão do firmware do ConnectX após a instalação bem-sucedida do SBE 4.2.2509.n.

Verifique a versão instalada do firmware do ConnectX

O procedimento a seguir pode ser executado em cada computador em uma instância local do Azure.

  1. Conecte-se à interface Web do iDRAC, selecione o menu suspenso System e Inventory.
  2. Expanda Firmware Inventory e procure componentes com o ConnectX de trabalho na descrição. Observe a versão do firmware instalado.

Verifique a versão instalada do driver do ConnectX

O procedimento a seguir pode ser executado em cada computador em uma instância local do Azure.

  1. Execute o seguinte comando no sistema operacional do host para identificar a versão do driver ConnectX em execução:
    Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

 

 

Nota: Para nós MC, use os métodos neste artigo da KB para fazer downgrade manual do driver e firmware da Nvidia até a próxima atualização de software do Apex Cloud Platform. 

 

Nota: Se você já aplicou o SBE 4.2.2509.n, mas não fez downgrade do firmware Mellanox, siga as etapas abaixo para fazer downgrade do firmware para o mesmo nível do driver. 

 

  1.       Pause e esvazie o nó.
  2.       Suspenda o BitLocker em C:  -> 
    Suspend-BitLocker -MountPoint "C:" -RebootCount 0
  3.       Siga as etapas na seção "Implementing Remediation" para realizar o downgrade do firmware invocando o DUP apropriado, dependendo do modelo da NIC, e reinicie o sistema.
  4.      Verifique no IDRAC se o downgrade de FW foi bem-sucedido.
  5.      Verifique a conectividade adequada nas placas de rede Mellanox e retome o BitLocker:  
    Resume-BitLocker -MountPoint "C:"
  6.      Remova o nó do modo de manutenção. Aguarde até que os trabalhos de armazenamento sejam concluídos antes de pausar qualquer outro nó. 

 

Affected Products

APEX MC-660, APEX MC-760, ax-650, AX-6515, AX-660, AX-750, AX-7525, AX-760
Article Properties
Article Number: 000376360
Article Type: Solution
Last Modified: 10 Oct 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.