DSS R750: Placa DPU NVIDIA Mellanox BlueField-2 DPN-GRNMC Falha no treinamento de link PCIe
Riepilogo: O PowerEdge R750 Datacenter Scalable Solutions (DSS) pode apresentar falhas ao executar versões mais antigas da Data Center-on-a-Chip Architecture (DOCA) com a placa NVIDIA Mellanox BlueField-2 Data Processing Unit (DPU). ...
Questo articolo si applica a
Questo articolo non si applica a
Questo articolo non è legato a un prodotto specifico.
Non tutte le versioni del prodotto sono identificate in questo articolo.
Sintomi
A placa de canal DPU NVIDIA MELLANOX MT42822 BlueField-2 de 100 G, DPN# GRNMC, é um adaptador DPU qualificado para DSS que pode ser equipado com alguns servidores PowerEdge configurados para DSS de acordo com alguns requisitos específicos do usuário de DSS/RCI.
Este adaptador é qualificado e compatível com o NVIDIA DOCA 1.5.1 ou versões posteriores pela equipe de engenharia do Dell DSS/RCI.
Se a imagem DOCA for alterada para uma versão anterior à 1.5.1 nesse adaptador específico, vários sintomas de falha poderão ser observados no servidor.
Por exemplo:
1. O evento de falha de treinamento de link PCIe UEFI0067 é registrado no log do iDRAC/LifeCycle:
2. O sistema operacional (SO) do host falha ao inicializar o adaptador DPU.
3. Os eventos de erro fatal do barramento PCIe são registrados no registro do iDRAC/Lifecycle, apontando para o slot onde o adaptador DPU está instalado.

Este adaptador é qualificado e compatível com o NVIDIA DOCA 1.5.1 ou versões posteriores pela equipe de engenharia do Dell DSS/RCI.
Se a imagem DOCA for alterada para uma versão anterior à 1.5.1 nesse adaptador específico, vários sintomas de falha poderão ser observados no servidor.
Por exemplo:
1. O evento de falha de treinamento de link PCIe UEFI0067 é registrado no log do iDRAC/LifeCycle:
2. O sistema operacional (SO) do host falha ao inicializar o adaptador DPU.
[ 133.575847] kernel: mlx5_core 0000:ca:00.1: firmware version: 24.35.2000 [ 133.576304] kernel: mlx5_core 0000:ca:00.1: 252.048 Gb/s available PCIe bandwidth (16.0 GT/s PCIe x16 link) [ 153.576974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 100s [ 173.584974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 79s [ 193.592974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 59s [ 213.600975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 39s [ 233.608975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 19s [ 253.584980] kernel: mlx5_core 0000:ca:00.1: mlx5_function_setup:960:(pid 821): Firmware over 120000 MS in pre-initializing state, aborting [ 253.586029] kernel: mlx5_core 0000:ca:00.1: init_one:1366:(pid 821): mlx5_load_one failed with error code -16 [ 253.587272] kernel: mlx5_core: probe of 0000:ca:00.1 failed with error -16
3. Os eventos de erro fatal do barramento PCIe são registrados no registro do iDRAC/Lifecycle, apontando para o slot onde o adaptador DPU está instalado.

Causa
A engenharia da DSS/RCI qualificou dois modelos do adaptador de canal Mellanox BlueField-2 DPU.
A partir da versão DOCA 1.5.1 LTS, ambos os modelos, DPN#CH5RM e DPN#GRNMC, são compatíveis.
A NVIDIA Mellanox recomenda o pacote DOCA (LTS) 1.5.7 ou mais recente.
- Placa DPU NVIDIA Mellanox BlueField2 32G (DPN#CH5RM, Modelo # MBF2H516A-CEEOT)
- Placa DPU NVIDIA Mellanox BlueField2 de 128 G (DPN#GRNMC, modelo# MBF2H516C-CECOT)
A partir da versão DOCA 1.5.1 LTS, ambos os modelos, DPN#CH5RM e DPN#GRNMC, são compatíveis.
A NVIDIA Mellanox recomenda o pacote DOCA (LTS) 1.5.7 ou mais recente.
Risoluzione
Se o servidor Dell PowerEdge apresentar os sintomas de falha mencionados com o adaptador de DPU NVIDIA Mellanox BlueField2 qualificado para DSS (DPN#GRNMC), verifique se o DOCA 1.5.1 LTS ou uma versão posterior está instalado corretamente.
Se a imagem DOCA for atualizada para uma versão mais antiga não compatível neste adaptador DPU 128G, use o procedimento a seguir para recuperar a DPU:
Se a imagem DOCA for atualizada para uma versão mais antiga não compatível neste adaptador DPU 128G, use o procedimento a seguir para recuperar a DPU:
Instalar os drivers de host DOCAencontrados em https://developer.nvidia.com/networking/doca
exemplo: Para o sistema operacional do host Ubuntu 20.04
- https://content.mellanox.com/DOCA/DOCA_v2.7.0/host/doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb wget
-
dpkg -i doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb apt-get update apt install doca-all
Faça download e instale o pacote BF2 DOCA mais recente.
- https://content.mellanox.com/BlueField/BFBs/Ubuntu22.04/bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb wget
-
bfb-install --bfb bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb --rshim rshim0
Quando a instalação do DOCA no BF2 estiver concluída, redefina o BF2.
-
echo "SW_RESET 1" > /dev/rshim0/mis
Prodotti interessati
Datacenter Scalable Solutions, Mellanox Family of AdaptersProprietà dell'articolo
Numero articolo: 000228342
Tipo di articolo: Solution
Ultima modifica: 03 ott 2024
Versione: 2
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.