PowerEdge: R750 DSS NVIDIA Mellanox BlueField-2 DPU-Karte Fehler beim DPN-GRNMC PCIe-Link-Training

Zusammenfassung: Bei skalierbaren PowerEdge R750-Lösungen (DSS) für Rechenzentren können Fehler auftreten, wenn ältere DOCA-Versionen (Data Center-on-a-Chip Architecture) mit der NVIDIA Mellanox BlueField-2-DPU-Karte (Data Processing Unit) ausgeführt werden. ...

Dieser Artikel gilt für Dieser Artikel gilt nicht für Dieser Artikel ist nicht an ein bestimmtes Produkt gebunden. In diesem Artikel werden nicht alle Produktversionen aufgeführt.

Symptome

Die NVIDIA Mellanox MT42822 BlueField-2 100G DPU-Channel-Karte, DPN# GRNMC, ist ein DSS-qualifizierter DPU-Adapter, der mit einigen DSS-konfigurierten PowerEdge-Servern gemäß bestimmten DSS/RCI-Nutzeranforderungen ausgestattet werden kann.
Dieser Adapter ist für NVIDIA DOCA 1.5.1 oder höhere Versionen durch das Dell DSS/RCI-Engineering-Team qualifiziert und wird unterstützt. 
Wenn das DOCA-Image auf diesem speziellen Adapter auf eine frühere Version als 1.5.1 geändert wird, können auf dem Server mehrere Fehlersymptome beobachtet werden.

Zum Beispiel:

  1. Fehlerereignis beim PCIe-Link-Training UEFI0067 wird im iDRAC/LifeCycle-Protokoll protokolliert:
    PCIe-Link-Trainingsfehlerereignisse

  2. Das Hostbetriebssystem (BS) kann den DPU-Adapter nicht initialisieren. 
    [  133.575847] kernel: mlx5_core 0000:ca:00.1: firmware version: 24.35.2000
    [  133.576304] kernel: mlx5_core 0000:ca:00.1: 252.048 Gb/s available PCIe bandwidth (16.0 GT/s PCIe x16 link)
    [  153.576974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 100s
    [  173.584974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 79s
    [  193.592974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 59s
    [  213.600975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 39s
    [  233.608975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 19s
    [  253.584980] kernel: mlx5_core 0000:ca:00.1: mlx5_function_setup:960:(pid 821): Firmware over 120000 MS in pre-initializing state, aborting
    [  253.586029] kernel: mlx5_core 0000:ca:00.1: init_one:1366:(pid 821): mlx5_load_one failed with error code -16
    [  253.587272] kernel: mlx5_core: probe of 0000:ca:00.1 failed with error -16

 

  1. Schwerwiegende PCIe-Bus-Fehlerereignisse werden im iDRAC/Lifecycle-Protokoll protokolliert und verweisen auf den Steckplatz, in dem der DPU-Adapter installiert ist.
    Schwerwiegende PCIe-Bus-Fehlerereignisse 

Ursache

DSS/RCI Engineering qualifizierte zwei Modelle des Mellanox BlueField-2 DPU-Kanaladapters.
  1. NVIDIA Mellanox BlueField2 DPU-Karte mit 32 GB (DPN#CH5RM, Modell# MBF2H516A-CEEOT) 
  2. NVIDIA Mellanox BlueField2 DPU-Karte mit 128 GB (DPN#GRNMC, Modell# MBF2H516C-CECOT)
In der vorherigen Version DOCA 1.5.0 LTS wird nur ein Modell unterstützt. DPN#CH5RM
Ab DOCA 1.5.1 LTS werden beide Modelle, DPN#CH5RM und DPN#GRNMC, unterstützt.
NVIDIA Mellanox empfiehlt das DOCA-Paket (LTS) 1.5.7 oder höher.

Lösung

Wenn auf dem Dell PowerEdge-Server die genannten Fehlersymptome mit dem DSS-qualifizierten NVIDIA Mellanox BlueField2 DPU-Adapter (DPN#GRNMC) auftreten, stellen Sie sicher, dass DOCA 1.5.1 LTS oder eine höhere Version korrekt installiert ist.

Wenn das DOCA-Image auf diesem 128G-DPU-Adapter auf eine ältere, nicht unterstützte Version aktualisiert wird, gehen Sie wie folgt vor, um die DPU wiederherzustellen:

Installieren Sie die DOCA Hosttreiber auf https://developer.nvidia.com/networking/docaDieser Hyperlink führt Sie zu einer Website außerhalb von Dell Technologies.
Beispiel: Für Ubuntu 20.04-Host-BS

  1. WGET https://content.mellanox.com/DOCA/DOCA_v2.7.0/host/doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.debDieser Hyperlink führt Sie zu einer Website außerhalb von Dell Technologies.
  2. dpkg -i doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb
    apt-get update
    apt install doca-all

Laden Sie das neueste BF2 DOCA-Paket herunter und installieren Sie es.

  1. WGET https://content.mellanox.com/BlueField/BFBs/Ubuntu22.04/bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfbDieser Hyperlink führt Sie zu einer Website außerhalb von Dell Technologies.
  2. bfb-install --bfb bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb --rshim rshim0


Sobald die DOCA-Installation auf BF2 abgeschlossen ist, setzen Sie BF2 zurück.

  1. echo "SW_RESET 1" > /dev/rshim0/mis

Betroffene Produkte

Datacenter Scalable Solutions, Mellanox Family of Adapters, Ubuntu Server LTS
Artikeleigenschaften
Artikelnummer: 000228342
Artikeltyp: Solution
Zuletzt geändert: 23 März 2026
Version:  3
Antworten auf Ihre Fragen erhalten Sie von anderen Dell NutzerInnen
Support Services
Prüfen Sie, ob Ihr Gerät durch Support Services abgedeckt ist.