DSS R750 : Carte DPU NVIDIA Mellanox BlueField-2 Échec de l’entraînement de la liaison PCIe DPN-GRNMC

Riepilogo: Les solutions DSS (Datacenter Scalable Solutions) PowerEdge R750 peuvent rencontrer des défaillances lors de l’exécution d’anciennes versions de l’architecture de datacenter sur puce (DOCA) avec la carte DPU (Data Processing Unit) NVIDIA Mellanox BlueField-2. ...

Questo articolo si applica a Questo articolo non si applica a Questo articolo non è legato a un prodotto specifico. Non tutte le versioni del prodotto sono identificate in questo articolo.

Sintomi

La carte de canal DPU NVIDIA Mellanox MT42822 BlueField-2 100G, DPN# GRNMC, est un adaptateur DPU qualifié DSS qui peut être équipé de certains serveurs PowerEdge configurés par DSS en fonction de certaines exigences utilisateur spécifiques à DSS/RCI.
Cet adaptateur est qualifié et pris en charge par NVIDIA DOCA 1.5.1 ou versions supérieures par l’équipe d’ingénierie Dell DSS/RCI. 
Si l’image DOCA est remplacée par une version antérieure à 1.5.1 sur cet adaptateur spécifique, plusieurs symptômes de défaillance peuvent être observés sur le serveur.
Par exemple :

1. L’événement d’échec de formation de liaison PCIe UEFI0067 est consigné dans le journal iDRAC/LifeCycle :
Événements d’échec de formation de liaison PCIe

2. Le système d’exploitation hôte (OS) ne parvient pas à initialiser l’adaptateur DPU. 
[  133.575847] kernel: mlx5_core 0000:ca:00.1: firmware version: 24.35.2000
[  133.576304] kernel: mlx5_core 0000:ca:00.1: 252.048 Gb/s available PCIe bandwidth (16.0 GT/s PCIe x16 link)
[  153.576974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 100s
[  173.584974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 79s
[  193.592974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 59s
[  213.600975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 39s
[  233.608975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 19s
[  253.584980] kernel: mlx5_core 0000:ca:00.1: mlx5_function_setup:960:(pid 821): Firmware over 120000 MS in pre-initializing state, aborting
[  253.586029] kernel: mlx5_core 0000:ca:00.1: init_one:1366:(pid 821): mlx5_load_one failed with error code -16
[  253.587272] kernel: mlx5_core: probe of 0000:ca:00.1 failed with error -16

3. Les événements d’erreur fatale du bus PCIe sont consignés dans le journal iDRAC/Lifecycle, en pointant vers le logement où l’adaptateur DPU est installé.
Événements d’erreur fatale du bus PCIe

Causa

L’ingénierie de DSS/RCI a qualifié deux modèles d’adaptateur de canal Mellanox BlueField-2 DPU.
  1. Carte DPU NVIDIA Mellanox BlueField2 32G (DPN#CH5RM, Model# MBF2H516A-CEEOT) 
  2. Carte DPU NVIDIA Mellanox BlueField2 128G (DPN#GRNMC, Model# MBF2H516C-CECOT)
Sur la version antérieure de DOCA 1.5.0 LTS, un seul modèle est pris en charge. DPN#CH5RM
À partir de la version DOCA 1.5.1 LTS, les deux modèles, DPN#CH5RM et DPN#GRNMC sont pris en charge.
NVIDIA Mellanox recommande le package DOCA (LTS) 1.5.7 ou une version plus récente.

Risoluzione

Si le serveur Dell PowerEdge rencontre les symptômes de défaillance mentionnés ci-dessus avec l’adaptateur DPU NVIDIA Mellanox BlueField2 qualifié DSS (DPN#GRNMC), assurez-vous que DOCA 1.5.1 LTS ou une version supérieure est correctement installé.

Si l’image DOCA est actualisée vers une version plus ancienne non prise en charge sur cet adaptateur DPU 128G, procédez comme suit pour restaurer le DPU :

Installez les pilotes d’hôteDOCA figurant sur https://developer.nvidia.com/networking/doca Ce lien hypertexte renvoie à un site Web extérieur à Dell Technologies.
exemple : Pour le système d’exploitation hôte Ubuntu 20.04

  1. wget https://content.mellanox.com/DOCA/DOCA_v2.7.0/host/doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.debCe lien hypertexte renvoie à un site Web extérieur à Dell Technologies.
  2. dpkg -i doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb
    apt-get update
    apt install doca-all

Téléchargez et installez la dernière version du package BF2 DOCA.

  1. wget https://content.mellanox.com/BlueField/BFBs/Ubuntu22.04/bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfbCe lien hypertexte renvoie à un site Web extérieur à Dell Technologies.
  2. bfb-install --bfb bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb --rshim rshim0


Une fois l’installation DOCA sur BF2 terminée, réinitialisez BF2.

  1. echo "SW_RESET 1" > /dev/rshim0/mis

Prodotti interessati

Datacenter Scalable Solutions, Mellanox Family of Adapters
Proprietà dell'articolo
Numero articolo: 000228342
Tipo di articolo: Solution
Ultima modifica: 03 ott 2024
Versione:  2
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.