R750 DSS: NVIDIA Mellanox BlueField-2 DPU-kort DPN-GRNMC PCIe-koblingsopplæringsfeil

Riepilogo: PowerEdge R750 Datacenter Scalable Solutions (DSS) kan oppstå feil ved kjøring av eldre Data Center-on-a-Chip Architecture-versjoner (DOCA) med NVIDIA Mellanox BlueField-2 Data Processing Unit (DPU)-kortet. ...

Questo articolo si applica a Questo articolo non si applica a Questo articolo non è legato a un prodotto specifico. Non tutte le versioni del prodotto sono identificate in questo articolo.

Sintomi

NVIDIA Mellanox MT42822 BlueField-2 100G DPU-kanalkort, DPN# GRNMC, er en DSS-kvalifisert DPU-adapter som kan være utstyrt med noen DSS-konfigurerte PowerEdge-servere i henhold til noen brukerspesifikke krav for
DSS/RCI.Denne adapteren er kvalifisert og støttes av NVIDIA DOCA 1.5.1 eller nyere versjoner av Dell DSS/RCIs tekniske team. 
Hvis DOCA-imaget er endret til en tidligere versjon enn 1.5.1 på dette spesifikke kortet, kan det oppstå flere feilsymptomer på serveren.
For eksempel:

1. UEFI0067 hendelsen for opplæringsfeil ved PCIe-kobling loggføres i iDRAC/LifeCycle-loggen:
Hendelser for opplæringsfeil for PCIe-kobling

2. Vertsoperativsystemet (OS) kan ikke initialisere DPU-adapteren. 
[  133.575847] kernel: mlx5_core 0000:ca:00.1: firmware version: 24.35.2000
[  133.576304] kernel: mlx5_core 0000:ca:00.1: 252.048 Gb/s available PCIe bandwidth (16.0 GT/s PCIe x16 link)
[  153.576974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 100s
[  173.584974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 79s
[  193.592974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 59s
[  213.600975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 39s
[  233.608975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 19s
[  253.584980] kernel: mlx5_core 0000:ca:00.1: mlx5_function_setup:960:(pid 821): Firmware over 120000 MS in pre-initializing state, aborting
[  253.586029] kernel: mlx5_core 0000:ca:00.1: init_one:1366:(pid 821): mlx5_load_one failed with error code -16
[  253.587272] kernel: mlx5_core: probe of 0000:ca:00.1 failed with error -16

3. Kritiske feilhendelser i PCIe-bussen logges i iDRAC/Lifecycle-loggen, og peker til sporet der DPU-adapteren er installert.
Hendelser med fatale feilhendelser i PCIe-bussen

Causa

DSS/RCI-teknikere kvalifiserte to modeller av Mellanox BlueField-2 DPU-kanaladapteren.
  1. 32 G NVIDIA Mellanox BlueField2 DPU-kort (DPN#CH5RM, modell# MBF2H516A-CEEOT) 
  2. 128G NVIDIA Mellanox BlueField2 DPU-kort (DPN#GRNMC, modell# MBF2H516C-CECOT)
På den tidligere DOCA 1.5.0 LTS-utgivelsen støttes bare én modell. DPN#CH5RM
Fra og med DOCA 1.5.1 LTS-utgivelsen støttes begge modellene, DPN#CH5RM og DPN#GRNMC.
NVIDIA Mellanox anbefaler DOCA package (LTS) 1.5.7 eller nyere.

Risoluzione

Hvis Dell PowerEdge-serveren opplever de nevnte feilsymptomene med den DSS-kvalifiserte NVIDIA Mellanox BlueField2 DPU-adapteren (DPN#GRNMC), må du kontrollere at DOCA 1.5.1 LTS eller en nyere versjon er riktig installert.

Hvis DOCA-avbildningen oppdateres til en eldre versjon som ikke støttes på denne 128G DPU-adapteren, bruker du følgende fremgangsmåte for å gjenopprette DPU:

Installer DOCA Host Drivers funnet på https://developer.nvidia.com/networking/docaDenne hyperkoblingen tar deg til et nettsted utenfor Dell Technologies.
Eksempel: For Ubuntu 20.04-vertsoperativsystem

  1. WGET https://content.mellanox.com/DOCA/DOCA_v2.7.0/host/doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.debDenne hyperkoblingen tar deg til et nettsted utenfor Dell Technologies.
  2. dpkg -i doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb
    apt-get update
    apt install doca-all

Last ned og installer den nyeste BF2 DOCA pakken.

  1. WGET https://content.mellanox.com/BlueField/BFBs/Ubuntu22.04/bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfbDenne hyperkoblingen tar deg til et nettsted utenfor Dell Technologies.
  2. bfb-install --bfb bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb --rshim rshim0


Når DOCA-installasjonen på BF2 er fullført, tilbakestiller du BF2.

  1. echo "SW_RESET 1" > /dev/rshim0/mis

Prodotti interessati

Datacenter Scalable Solutions, Mellanox Family of Adapters
Proprietà dell'articolo
Numero articolo: 000228342
Tipo di articolo: Solution
Ultima modifica: 03 ott 2024
Versione:  2
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.