DSS für R750: NVIDIA Mellanox BlueField-2 DPU-Karte Fehler beim DPN-GRNMC PCIe-Link-Training
Riepilogo: Bei skalierbaren PowerEdge R750-Lösungen (DSS) für Rechenzentren können Fehler auftreten, wenn ältere DOCA-Versionen (Data Center-on-a-Chip Architecture) mit der NVIDIA Mellanox BlueField-2-DPU-Karte (Data Processing Unit) ausgeführt werden. ...
Questo articolo si applica a
Questo articolo non si applica a
Questo articolo non è legato a un prodotto specifico.
Non tutte le versioni del prodotto sono identificate in questo articolo.
Sintomi
Die NVIDIA Mellanox MT42822 BlueField-2 100G DPU-Channel-Karte, DPN# GRNMC, ist ein DSS-qualifizierter DPU-Adapter, der mit einigen DSS-konfigurierten PowerEdge-Servern gemäß bestimmten DSS/RCI-Nutzeranforderungen ausgestattet werden kann.
Dieser Adapter ist für NVIDIA DOCA 1.5.1 oder höhere Versionen durch das Dell DSS/RCI-Engineering-Team qualifiziert und wird unterstützt.
Wenn das DOCA-Image auf diesem speziellen Adapter auf eine frühere Version als 1.5.1 geändert wird, können auf dem Server mehrere Fehlersymptome beobachtet werden.
Beispiel:
1. Das Fehlerereignis UEFI0067 PCIe-Link-Training wird im iDRAC/LifeCycle-Protokoll protokolliert:
2. Das Hostbetriebssystem (BS) kann den DPU-Adapter nicht initialisieren.
3. Schwerwiegende PCIe-Bus-Fehlerereignisse werden im iDRAC/Lifecycle-Protokoll protokolliert und verweisen auf den Steckplatz, in dem der DPU-Adapter installiert ist.

Dieser Adapter ist für NVIDIA DOCA 1.5.1 oder höhere Versionen durch das Dell DSS/RCI-Engineering-Team qualifiziert und wird unterstützt.
Wenn das DOCA-Image auf diesem speziellen Adapter auf eine frühere Version als 1.5.1 geändert wird, können auf dem Server mehrere Fehlersymptome beobachtet werden.
Beispiel:
1. Das Fehlerereignis UEFI0067 PCIe-Link-Training wird im iDRAC/LifeCycle-Protokoll protokolliert:
2. Das Hostbetriebssystem (BS) kann den DPU-Adapter nicht initialisieren.
[ 133.575847] kernel: mlx5_core 0000:ca:00.1: firmware version: 24.35.2000 [ 133.576304] kernel: mlx5_core 0000:ca:00.1: 252.048 Gb/s available PCIe bandwidth (16.0 GT/s PCIe x16 link) [ 153.576974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 100s [ 173.584974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 79s [ 193.592974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 59s [ 213.600975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 39s [ 233.608975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 19s [ 253.584980] kernel: mlx5_core 0000:ca:00.1: mlx5_function_setup:960:(pid 821): Firmware over 120000 MS in pre-initializing state, aborting [ 253.586029] kernel: mlx5_core 0000:ca:00.1: init_one:1366:(pid 821): mlx5_load_one failed with error code -16 [ 253.587272] kernel: mlx5_core: probe of 0000:ca:00.1 failed with error -16
3. Schwerwiegende PCIe-Bus-Fehlerereignisse werden im iDRAC/Lifecycle-Protokoll protokolliert und verweisen auf den Steckplatz, in dem der DPU-Adapter installiert ist.

Causa
DSS/RCI Engineering qualifizierte zwei Modelle des Mellanox BlueField-2 DPU-Kanaladapters.
Ab DOCA 1.5.1 LTS werden beide Modelle, DPN#CH5RM und DPN#GRNMC, unterstützt.
NVIDIA Mellanox empfiehlt das DOCA-Paket (LTS) 1.5.7 oder höher.
- NVIDIA Mellanox BlueField2 DPU-Karte mit 32 GB (DPN#CH5RM, Modell# MBF2H516A-CEEOT)
- NVIDIA Mellanox BlueField2 DPU-Karte mit 128 GB (DPN#GRNMC, Modell# MBF2H516C-CECOT)
Ab DOCA 1.5.1 LTS werden beide Modelle, DPN#CH5RM und DPN#GRNMC, unterstützt.
NVIDIA Mellanox empfiehlt das DOCA-Paket (LTS) 1.5.7 oder höher.
Risoluzione
Wenn auf dem Dell PowerEdge-Server die genannten Fehlersymptome mit dem DSS-qualifizierten NVIDIA Mellanox BlueField2 DPU-Adapter (DPN#GRNMC) auftreten, stellen Sie sicher, dass DOCA 1.5.1 LTS oder eine höhere Version korrekt installiert ist.
Wenn das DOCA-Image auf diesem 128G-DPU-Adapter auf eine ältere, nicht unterstützte Version aktualisiert wird, gehen Sie wie folgt vor, um die DPU wiederherzustellen:
Wenn das DOCA-Image auf diesem 128G-DPU-Adapter auf eine ältere, nicht unterstützte Version aktualisiert wird, gehen Sie wie folgt vor, um die DPU wiederherzustellen:
Installieren Sie die DOCA Hosttreiber auf https://developer.nvidia.com/networking/doca
Beispiel: Für Ubuntu 20.04-Host-BS
- WGET https://content.mellanox.com/DOCA/DOCA_v2.7.0/host/doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb
-
dpkg -i doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb apt-get update apt install doca-all
Laden Sie das neueste BF2 DOCA-Paket herunter und installieren Sie es.
- WGET https://content.mellanox.com/BlueField/BFBs/Ubuntu22.04/bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb
-
bfb-install --bfb bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb --rshim rshim0
Sobald die DOCA-Installation auf BF2 abgeschlossen ist, setzen Sie BF2 zurück.
-
echo "SW_RESET 1" > /dev/rshim0/mis
Prodotti interessati
Datacenter Scalable Solutions, Mellanox Family of AdaptersProprietà dell'articolo
Numero articolo: 000228342
Tipo di articolo: Solution
Ultima modifica: 03 ott 2024
Versione: 2
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.