Tempo de espera e redefinição do dispositivo Nvidia Mellanox ConnectX NIC

Resumo: AX e ACP Para clientes do Azure que executam a solução Azure Local, podem experimentar redefinições frequentes de NIC em vários nós após a instalação do SBE 4.1.2506.n ou 4.1.2507.n, com driver de NIC 25.1.26647 ...

Este artigo aplica-se a Este artigo não se aplica a Este artigo não está vinculado a nenhum produto específico. Nem todas as versões do produto estão identificadas neste artigo.

Sintomas

Visão geral

As instâncias locais do Azure com máquinas que têm a NIC (Network Interface Card, placa de interface de rede) NVIDIA ConnectX podem apresentar nível de advertência ID de evento NDIS 10400 e ID de evento mlx5 386 após a instalação do SBE versão 4.2.2506.n (AX) ou 4.2.2507.n (MC).

 

 

O seguinte comando pode ser usado para pesquisar esses eventos no registro de eventos:

Get-WinEvent -FilterHashtable @{LogName="System";ID=10400,386} -ErrorAction SilentlyContinue | Format-list -Property Id,TimeCreated,ContainerLog,LevelDisplayName,Message

Esses eventos envolvem as redefinições de NIC do ConnectX, o que pode resultar em disrupção de rede, remoção de máquina do cluster local do Azure e eventos ocasionais de verificação de bugs. Essa condição foi observada em determinadas cargas de trabalho com mlx5.sys versão do driver 25.1.26647.0 e o firmware correspondente do ConnectX instalado pelo SBE 4.2.2506.n (AX) ou 4.2.2507.n (MC).

 

Identificando instâncias locais afetadas do Azure

O comportamento problemático pode ocorrer quando todas as seguintes condições são atendidas:

  • As máquinas são membros de uma instância local do Azure
  • As máquinas têm uma ou mais placas de rede do ConnectX instaladas
  • O SBE 4.2.2506.n (AX) ou 4.2.2507.n (MC) está instalado na instância local do Azure
  • A versão do driver de NIC do ConnectX em execução é a 25.1.26647.0

 

Identificando a versão instalada do firmware do ConnectX

O procedimento a seguir pode ser executado em cada computador em uma instância local do Azure.

  1. Conecte-se à interface Web do iDRAC, selecione o menu suspenso System e Inventory.
  2. Expanda Firmware Inventory e procure componentes com o ConnectX de trabalho na descrição. Observe a versão do firmware instalado.

 

 

Identificando a versão instalada do driver do ConnectX

O procedimento a seguir pode ser executado em cada computador em uma instância local do Azure.

  1. Execute o seguinte comando no sistema operacional do host para identificar a versão do driver ConnectX em execução:
    Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

Versões de driver e firmware do ConnectX

Componente

Versão afetada

Versão de correção

Download da versão de correção

ConnectX Driver

25.1.26647.0

24.4.26429.0

N/D (payload do SBE)

Firmware do ConnectX-6 LX

26.44.10.36

26.41.10.00

13h4

Firmware do ConnectX-6 DX

22.44.10.36

22.41.10.00

2CMVW

ConnectX-5 EN/EX FW

16.35.40.30

16.35.30.06

XY16R

ConnectX-4 LX

14.32.21.02

14.32.20.04

XGP2X

 

 

Causa

Essa condição foi observada na solução Dell AX e MC Azure Local sob determinadas cargas de trabalho com mlx5.sys versão de driver 25.1.26647.0 e o firmware correspondente do ConnectX instalado pelo SBE 4.2.2506.n (AX) ou 4.2.2507.n (MC). 

Resolução

Implementando a correção

Downgrade do firmware de NIC do ConnectX antes de instalar o SBE 4.2.2509.n (AX)

Execute o procedimento a seguir em cada computador na instância local afetada do Azure.

  1. Conecte-se à interface Web do iDRAC, selecione o menu suspenso Maintenance e selecione System Update.
  2. Clique no botão Choose File e selecione o arquivo executável do firmware a ser instalado para a NIC ConnectX em sua máquina. Clique no botão Open para concluir a seleção.
  3. Clique no botão Upload para iniciar o processo de upload.
  4. Quando o processo de upload for concluído, clique no sinal de adição ao lado do arquivo carregado para ver os componentes aos quais esse arquivo de firmware se aplica. A versão do firmware atualmente instalada e a versão do firmware disponível serão exibidas. A versão do firmware disponível é a que será instalada.
     
  5. Clique na caixa de seleção ao lado do arquivo de firmware a ser instalado e selecione Instalar. Essa ação preparará o upgrade do firmware da NIC do ConnectX. O upgrade do firmware será concluído quando o sistema operacional do host for reinicializado durante uma etapa posterior.
  6. O trabalho de instalação de formação será adicionado à fila de trabalhos. Clique no botão Job Queue para visualizar o trabalho na fila de trabalhos.
  7. O andamento do trabalho será exibido.
  8. Aguarde até que o status do trabalho mostre 100% concluído. Observe o status indicado de Pendente de reinicialização do servidor.
  9. Clique em Lifecycle Log e observe novamente que a atualização do firmware entrará em vigor após a reinicialização do servidor. O servidor será reiniciado automaticamente como parte da instalação do SBE em uma etapa posterior.

 

Instalando o SBE 4.2.2509.n

Instale o SBE 4.2.2509.n usando o processo de instalação padrão do SBE. A instalação do SBE 4.2.2509.n irá instalar a instalação do firmware do ConnectX preparado, instalar o driver do SBE 4.2.2509.n e a carga útil do firmware. A versão 24.4.26429.0 do driver mlx5 também será instalada como parte da instalação do SBE 4.2.2509.n.

 

Verificando a correção bem-sucedida

Verifique o driver e a versão do firmware do ConnectX após a instalação bem-sucedida do SBE 4.2.2509.n.

Verifique a versão instalada do firmware do ConnectX

O procedimento a seguir pode ser executado em cada computador em uma instância local do Azure.

  1. Conecte-se à interface Web do iDRAC, selecione o menu suspenso System e Inventory.
  2. Expanda Firmware Inventory e procure componentes com o ConnectX de trabalho na descrição. Observe a versão do firmware instalado.

Verifique a versão instalada do driver do ConnectX

O procedimento a seguir pode ser executado em cada computador em uma instância local do Azure.

  1. Execute o seguinte comando no sistema operacional do host para identificar a versão do driver ConnectX em execução:
    Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

 

 

Nota: Para nós MC, use os métodos neste artigo da KB para fazer downgrade manual do driver e firmware da Nvidia até a próxima atualização de software do Apex Cloud Platform. 

 

Nota: Se você já aplicou o SBE 4.2.2509.n, mas não fez downgrade do firmware Mellanox, siga as etapas abaixo para fazer downgrade do firmware para o mesmo nível do driver. 

 

  1.       Pause e esvazie o nó.
  2.       Suspenda o BitLocker em C:  -> 
    Suspend-BitLocker -MountPoint "C:" -RebootCount 0
  3.       Siga as etapas na seção "Implementing Remediation" para realizar o downgrade do firmware invocando o DUP apropriado, dependendo do modelo da NIC, e reinicie o sistema.
  4.      Verifique no IDRAC se o downgrade de FW foi bem-sucedido.
  5.      Verifique a conectividade adequada nas placas de rede Mellanox e retome o BitLocker:  
    Resume-BitLocker -MountPoint "C:"
  6.      Remova o nó do modo de manutenção. Aguarde até que os trabalhos de armazenamento sejam concluídos antes de pausar qualquer outro nó. 

 

Produtos afetados

APEX MC-660, APEX MC-760, ax-650, AX-6515, AX-660, AX-750, AX-7525, AX-760
Propriedades do artigo
Número do artigo: 000376360
Tipo de artigo: Solution
Último modificado: 10 out. 2025
Versão:  3
Encontre as respostas de outros usuários da Dell para suas perguntas.
Serviços de suporte
Verifique se o dispositivo está coberto pelos serviços de suporte.