Tempo de espera e redefinição do dispositivo Nvidia Mellanox ConnectX NIC
Summary: AX e ACP Para clientes do Azure que executam a solução Azure Local, podem experimentar redefinições frequentes de NIC em vários nós após a instalação do SBE 4.1.2506.n ou 4.1.2507.n, com driver de NIC 25.1.26647 ...
Symptoms
Visão geral
As instâncias locais do Azure com máquinas que têm a NIC (Network Interface Card, placa de interface de rede) NVIDIA ConnectX podem apresentar nível de advertência ID de evento NDIS 10400 e ID de evento mlx5 386 após a instalação do SBE versão 4.2.2506.n (AX) ou 4.2.2507.n (MC).


O seguinte comando pode ser usado para pesquisar esses eventos no registro de eventos:
Get-WinEvent -FilterHashtable @{LogName="System";ID=10400,386} -ErrorAction SilentlyContinue | Format-list -Property Id,TimeCreated,ContainerLog,LevelDisplayName,Message
Esses eventos envolvem as redefinições de NIC do ConnectX, o que pode resultar em disrupção de rede, remoção de máquina do cluster local do Azure e eventos ocasionais de verificação de bugs. Essa condição foi observada em determinadas cargas de trabalho com mlx5.sys versão do driver 25.1.26647.0 e o firmware correspondente do ConnectX instalado pelo SBE 4.2.2506.n (AX) ou 4.2.2507.n (MC).
Identificando instâncias locais afetadas do Azure
O comportamento problemático pode ocorrer quando todas as seguintes condições são atendidas:
- As máquinas são membros de uma instância local do Azure
- As máquinas têm uma ou mais placas de rede do ConnectX instaladas
- O SBE 4.2.2506.n (AX) ou 4.2.2507.n (MC) está instalado na instância local do Azure
- A versão do driver de NIC do ConnectX em execução é a 25.1.26647.0
Identificando a versão instalada do firmware do ConnectX
O procedimento a seguir pode ser executado em cada computador em uma instância local do Azure.
- Conecte-se à interface Web do iDRAC, selecione o menu suspenso System e Inventory.
- Expanda Firmware Inventory e procure componentes com o ConnectX de trabalho na descrição. Observe a versão do firmware instalado.

Identificando a versão instalada do driver do ConnectX
O procedimento a seguir pode ser executado em cada computador em uma instância local do Azure.
- Execute o seguinte comando no sistema operacional do host para identificar a versão do driver ConnectX em execução:
Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

Versões de driver e firmware do ConnectX
|
Componente |
Versão afetada |
Versão de correção |
Download da versão de correção |
|
ConnectX Driver |
25.1.26647.0 |
24.4.26429.0 |
N/D (payload do SBE) |
|
Firmware do ConnectX-6 LX |
26.44.10.36 |
26.41.10.00 |
|
|
Firmware do ConnectX-6 DX |
22.44.10.36 |
22.41.10.00 |
|
|
ConnectX-5 EN/EX FW |
16.35.40.30 |
16.35.30.06 |
|
|
ConnectX-4 LX |
14.32.21.02 |
14.32.20.04 |
Cause
Essa condição foi observada na solução Dell AX e MC Azure Local sob determinadas cargas de trabalho com mlx5.sys versão de driver 25.1.26647.0 e o firmware correspondente do ConnectX instalado pelo SBE 4.2.2506.n (AX) ou 4.2.2507.n (MC).
Resolution
Implementando a correção
Downgrade do firmware de NIC do ConnectX antes de instalar o SBE 4.2.2509.n (AX)
Execute o procedimento a seguir em cada computador na instância local afetada do Azure.
- Conecte-se à interface Web do iDRAC, selecione o menu suspenso Maintenance e selecione System Update.
- Clique no botão Choose File e selecione o arquivo executável do firmware a ser instalado para a NIC ConnectX em sua máquina. Clique no botão Open para concluir a seleção.

- Clique no botão Upload para iniciar o processo de upload.

- Quando o processo de upload for concluído, clique no sinal de adição ao lado do arquivo carregado para ver os componentes aos quais esse arquivo de firmware se aplica. A versão do firmware atualmente instalada e a versão do firmware disponível serão exibidas. A versão do firmware disponível é a que será instalada.
- Clique na caixa de seleção ao lado do arquivo de firmware a ser instalado e selecione Instalar. Essa ação preparará o upgrade do firmware da NIC do ConnectX. O upgrade do firmware será concluído quando o sistema operacional do host for reinicializado durante uma etapa posterior.

- O trabalho de instalação de formação será adicionado à fila de trabalhos. Clique no botão Job Queue para visualizar o trabalho na fila de trabalhos.

- O andamento do trabalho será exibido.

- Aguarde até que o status do trabalho mostre 100% concluído. Observe o status indicado de Pendente de reinicialização do servidor.

- Clique em Lifecycle Log e observe novamente que a atualização do firmware entrará em vigor após a reinicialização do servidor. O servidor será reiniciado automaticamente como parte da instalação do SBE em uma etapa posterior.

Instalando o SBE 4.2.2509.n
Instale o SBE 4.2.2509.n usando o processo de instalação padrão do SBE. A instalação do SBE 4.2.2509.n irá instalar a instalação do firmware do ConnectX preparado, instalar o driver do SBE 4.2.2509.n e a carga útil do firmware. A versão 24.4.26429.0 do driver mlx5 também será instalada como parte da instalação do SBE 4.2.2509.n.
Verificando a correção bem-sucedida
Verifique o driver e a versão do firmware do ConnectX após a instalação bem-sucedida do SBE 4.2.2509.n.
Verifique a versão instalada do firmware do ConnectX
O procedimento a seguir pode ser executado em cada computador em uma instância local do Azure.
- Conecte-se à interface Web do iDRAC, selecione o menu suspenso System e Inventory.
- Expanda Firmware Inventory e procure componentes com o ConnectX de trabalho na descrição. Observe a versão do firmware instalado.

Verifique a versão instalada do driver do ConnectX
O procedimento a seguir pode ser executado em cada computador em uma instância local do Azure.
- Execute o seguinte comando no sistema operacional do host para identificar a versão do driver ConnectX em execução:
Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

Nota: Para nós MC, use os métodos neste artigo da KB para fazer downgrade manual do driver e firmware da Nvidia até a próxima atualização de software do Apex Cloud Platform.
Nota: Se você já aplicou o SBE 4.2.2509.n, mas não fez downgrade do firmware Mellanox, siga as etapas abaixo para fazer downgrade do firmware para o mesmo nível do driver.
- Pause e esvazie o nó.
- Suspenda o BitLocker em C: ->
Suspend-BitLocker -MountPoint "C:" -RebootCount 0 - Siga as etapas na seção "Implementing Remediation" para realizar o downgrade do firmware invocando o DUP apropriado, dependendo do modelo da NIC, e reinicie o sistema.
- Verifique no IDRAC se o downgrade de FW foi bem-sucedido.
- Verifique a conectividade adequada nas placas de rede Mellanox e retome o BitLocker:
Resume-BitLocker -MountPoint "C:" - Remova o nó do modo de manutenção. Aguarde até que os trabalhos de armazenamento sejam concluídos antes de pausar qualquer outro nó.