DSS R750 : Carte DPU NVIDIA Mellanox BlueField-2 Échec de l’entraînement de la liaison PCIe DPN-GRNMC
Riepilogo: Les solutions DSS (Datacenter Scalable Solutions) PowerEdge R750 peuvent rencontrer des défaillances lors de l’exécution d’anciennes versions de l’architecture de datacenter sur puce (DOCA) avec la carte DPU (Data Processing Unit) NVIDIA Mellanox BlueField-2. ...
Questo articolo si applica a
Questo articolo non si applica a
Questo articolo non è legato a un prodotto specifico.
Non tutte le versioni del prodotto sono identificate in questo articolo.
Sintomi
La carte de canal DPU NVIDIA Mellanox MT42822 BlueField-2 100G, DPN# GRNMC, est un adaptateur DPU qualifié DSS qui peut être équipé de certains serveurs PowerEdge configurés par DSS en fonction de certaines exigences utilisateur spécifiques à DSS/RCI.
Cet adaptateur est qualifié et pris en charge par NVIDIA DOCA 1.5.1 ou versions supérieures par l’équipe d’ingénierie Dell DSS/RCI.
Si l’image DOCA est remplacée par une version antérieure à 1.5.1 sur cet adaptateur spécifique, plusieurs symptômes de défaillance peuvent être observés sur le serveur.
Par exemple :
1. L’événement d’échec de formation de liaison PCIe UEFI0067 est consigné dans le journal iDRAC/LifeCycle :
2. Le système d’exploitation hôte (OS) ne parvient pas à initialiser l’adaptateur DPU.
3. Les événements d’erreur fatale du bus PCIe sont consignés dans le journal iDRAC/Lifecycle, en pointant vers le logement où l’adaptateur DPU est installé.

Cet adaptateur est qualifié et pris en charge par NVIDIA DOCA 1.5.1 ou versions supérieures par l’équipe d’ingénierie Dell DSS/RCI.
Si l’image DOCA est remplacée par une version antérieure à 1.5.1 sur cet adaptateur spécifique, plusieurs symptômes de défaillance peuvent être observés sur le serveur.
Par exemple :
1. L’événement d’échec de formation de liaison PCIe UEFI0067 est consigné dans le journal iDRAC/LifeCycle :
2. Le système d’exploitation hôte (OS) ne parvient pas à initialiser l’adaptateur DPU.
[ 133.575847] kernel: mlx5_core 0000:ca:00.1: firmware version: 24.35.2000 [ 133.576304] kernel: mlx5_core 0000:ca:00.1: 252.048 Gb/s available PCIe bandwidth (16.0 GT/s PCIe x16 link) [ 153.576974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 100s [ 173.584974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 79s [ 193.592974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 59s [ 213.600975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 39s [ 233.608975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 19s [ 253.584980] kernel: mlx5_core 0000:ca:00.1: mlx5_function_setup:960:(pid 821): Firmware over 120000 MS in pre-initializing state, aborting [ 253.586029] kernel: mlx5_core 0000:ca:00.1: init_one:1366:(pid 821): mlx5_load_one failed with error code -16 [ 253.587272] kernel: mlx5_core: probe of 0000:ca:00.1 failed with error -16
3. Les événements d’erreur fatale du bus PCIe sont consignés dans le journal iDRAC/Lifecycle, en pointant vers le logement où l’adaptateur DPU est installé.

Causa
L’ingénierie de DSS/RCI a qualifié deux modèles d’adaptateur de canal Mellanox BlueField-2 DPU.
À partir de la version DOCA 1.5.1 LTS, les deux modèles, DPN#CH5RM et DPN#GRNMC sont pris en charge.
NVIDIA Mellanox recommande le package DOCA (LTS) 1.5.7 ou une version plus récente.
- Carte DPU NVIDIA Mellanox BlueField2 32G (DPN#CH5RM, Model# MBF2H516A-CEEOT)
- Carte DPU NVIDIA Mellanox BlueField2 128G (DPN#GRNMC, Model# MBF2H516C-CECOT)
À partir de la version DOCA 1.5.1 LTS, les deux modèles, DPN#CH5RM et DPN#GRNMC sont pris en charge.
NVIDIA Mellanox recommande le package DOCA (LTS) 1.5.7 ou une version plus récente.
Risoluzione
Si le serveur Dell PowerEdge rencontre les symptômes de défaillance mentionnés ci-dessus avec l’adaptateur DPU NVIDIA Mellanox BlueField2 qualifié DSS (DPN#GRNMC), assurez-vous que DOCA 1.5.1 LTS ou une version supérieure est correctement installé.
Si l’image DOCA est actualisée vers une version plus ancienne non prise en charge sur cet adaptateur DPU 128G, procédez comme suit pour restaurer le DPU :
Si l’image DOCA est actualisée vers une version plus ancienne non prise en charge sur cet adaptateur DPU 128G, procédez comme suit pour restaurer le DPU :
Installez les pilotes d’hôteDOCA figurant sur https://developer.nvidia.com/networking/doca
exemple : Pour le système d’exploitation hôte Ubuntu 20.04
- wget https://content.mellanox.com/DOCA/DOCA_v2.7.0/host/doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb
-
dpkg -i doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb apt-get update apt install doca-all
Téléchargez et installez la dernière version du package BF2 DOCA.
- wget https://content.mellanox.com/BlueField/BFBs/Ubuntu22.04/bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb
-
bfb-install --bfb bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb --rshim rshim0
Une fois l’installation DOCA sur BF2 terminée, réinitialisez BF2.
-
echo "SW_RESET 1" > /dev/rshim0/mis
Prodotti interessati
Datacenter Scalable Solutions, Mellanox Family of AdaptersProprietà dell'articolo
Numero articolo: 000228342
Tipo di articolo: Solution
Ultima modifica: 03 ott 2024
Versione: 2
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.