DSS R750: Errore di training collegamento PCIe della scheda DPU NVIDIA Mellanox BlueField-2 DPN-GRNMC
Riepilogo: PowerEdge R750 Datacenter Scalable Solutions (DSS) potrebbe riscontrare errori durante l'esecuzione di versioni precedenti dell'architettura DOCA (Data Center-on-a-Chip) con la scheda NVIDIA Mellanox BlueField-2 Data Processing Unit (DPU). ...
Questo articolo si applica a
Questo articolo non si applica a
Questo articolo non è legato a un prodotto specifico.
Non tutte le versioni del prodotto sono identificate in questo articolo.
Sintomi
La scheda di canale DPU NVIDIA Mellanox MT42822 BlueField-2 100G, DPN# GRNMC, è un adattatore DPU qualificato per DSS che potrebbe essere dotato di alcuni server PowerEdge configurati per DSS in base ad alcuni requisiti specifici dell'utente DSS/RCI.
Questo adattatore è qualificato e supportato da NVIDIA DOCA 1.5.1 o versioni successive dal team di progettazione Dell DSS/RCI.
Se l'immagine DOCA viene modificata con una versione precedente alla 1.5.1 su questa scheda specifica, potrebbero essere osservati più sintomi di errore sul server.
Ad esempio:
1. L'evento di errore di training del link PCIe UEFI0067 viene registrato nel registro iDRAC/LifeCycle:
2. Il sistema operativo (OS) host non riesce a inizializzare l'adattatore DPU.
3. Gli eventi di errore irreversibile del bus PCIe vengono registrati nel registro iDRAC/Lifecycle, in modo da puntare allo slot in cui è installato l'adattatore DPU.

Questo adattatore è qualificato e supportato da NVIDIA DOCA 1.5.1 o versioni successive dal team di progettazione Dell DSS/RCI.
Se l'immagine DOCA viene modificata con una versione precedente alla 1.5.1 su questa scheda specifica, potrebbero essere osservati più sintomi di errore sul server.
Ad esempio:
1. L'evento di errore di training del link PCIe UEFI0067 viene registrato nel registro iDRAC/LifeCycle:
2. Il sistema operativo (OS) host non riesce a inizializzare l'adattatore DPU.
[ 133.575847] kernel: mlx5_core 0000:ca:00.1: firmware version: 24.35.2000 [ 133.576304] kernel: mlx5_core 0000:ca:00.1: 252.048 Gb/s available PCIe bandwidth (16.0 GT/s PCIe x16 link) [ 153.576974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 100s [ 173.584974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 79s [ 193.592974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 59s [ 213.600975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 39s [ 233.608975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 19s [ 253.584980] kernel: mlx5_core 0000:ca:00.1: mlx5_function_setup:960:(pid 821): Firmware over 120000 MS in pre-initializing state, aborting [ 253.586029] kernel: mlx5_core 0000:ca:00.1: init_one:1366:(pid 821): mlx5_load_one failed with error code -16 [ 253.587272] kernel: mlx5_core: probe of 0000:ca:00.1 failed with error -16
3. Gli eventi di errore irreversibile del bus PCIe vengono registrati nel registro iDRAC/Lifecycle, in modo da puntare allo slot in cui è installato l'adattatore DPU.

Causa
DSS/RCI Engineering ha qualificato due modelli dell'adattatore di canale Mellanox BlueField-2 DPU.
A partire dalla versione DOCA 1.5.1 LTS, sono supportati entrambi i modelli, DPN#CH5RM e DPN#GRNMC.
NVIDIA Mellanox consiglia il pacchetto DOCA (LTS) 1.5.7 o versione successiva.
- Scheda DPU NVIDIA Mellanox BlueField2 32G (DPN#CH5RM, Model# MBF2H516A-CEEOT)
- Scheda DPU NVIDIA Mellanox BlueField2 128G (DPN#GRNMC, Model# MBF2H516C-CECOT)
A partire dalla versione DOCA 1.5.1 LTS, sono supportati entrambi i modelli, DPN#CH5RM e DPN#GRNMC.
NVIDIA Mellanox consiglia il pacchetto DOCA (LTS) 1.5.7 o versione successiva.
Risoluzione
Se il server Dell PowerEdge riscontra i sintomi di errore menzionati con l'adattatore DPU NVIDIA Mellanox BlueField2 qualificato per DSS (DPN#GRNMC), verificare che DOCA 1.5.1 LTS o versione successiva sia installato correttamente.
Se l'immagine DOCA viene aggiornata a una versione precedente non supportata su questo adattatore DPU 128G, utilizzare la procedura seguente per ripristinare la DPU:
Se l'immagine DOCA viene aggiornata a una versione precedente non supportata su questo adattatore DPU 128G, utilizzare la procedura seguente per ripristinare la DPU:
Installare i driver host DOCA trovati su https://developer.nvidia.com/networking/doca
Esempio: Per il sistema operativo host Ubuntu 20.04
- https://content.mellanox.com/DOCA/DOCA_v2.7.0/host/doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb WGET
-
dpkg -i doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb apt-get update apt install doca-all
Scaricare e installare il pacchetto BF2 DOCA più recente.
- https://content.mellanox.com/BlueField/BFBs/Ubuntu22.04/bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb WGET
-
bfb-install --bfb bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb --rshim rshim0
Una volta completata l'installazione di DOCA su BF2, ripristinare BF2.
-
echo "SW_RESET 1" > /dev/rshim0/mis
Prodotti interessati
Datacenter Scalable Solutions, Mellanox Family of AdaptersProprietà dell'articolo
Numero articolo: 000228342
Tipo di articolo: Solution
Ultima modifica: 03 ott 2024
Versione: 2
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.