R750 DSS: NVIDIA Mellanox BlueField-2 DPU-kaart DPN-GRNMC PCIe-koppelingstraining mislukt

Riepilogo: PowerEdge R750 Datacenter Scalable Solutions (DSS) kunnen fouten ondervinden bij het uitvoeren van oudere Data Center-on-a-Chip Architecture (DOCA)-versies met de NVIDIA Mellanox BlueField-2 Data Processing Unit (DPU) Card. ...

Questo articolo si applica a Questo articolo non si applica a Questo articolo non è legato a un prodotto specifico. Non tutte le versioni del prodotto sono identificate in questo articolo.

Sintomi

De NVIDIA Mellanox MT42822 BlueField-2 100G DPU-kanaalkaart, DPN# GRNMC, is een DSS-gekwalificeerde DPU-adapter die mogelijk is uitgerust met sommige DSS-geconfigureerde PowerEdge servers volgens sommige DSS/RCI gebruikersspecifieke vereisten.
Deze adapter is gekwalificeerd en wordt ondersteund door NVIDIA DOCA 1.5.1 of latere versies door het Dell DSS/RCI engineeringteam. 
Als de DOCA-image wordt gewijzigd in een eerdere versie dan 1.5.1 op deze specifieke adapter, kunnen meerdere storingssymptomen op de server worden waargenomen.
Bijvoorbeeld:

1. PCIe-koppelingstrainingsfout UEFI0067 is vastgelegd in het iDRAC/LifeCycle-logboek:
Gebeurtenissen met een trainingsfout in PCIe-koppeling

2. Het hostbesturingssysteem (OS) kan de DPU-adapter niet initialiseren. 
[  133.575847] kernel: mlx5_core 0000:ca:00.1: firmware version: 24.35.2000
[  133.576304] kernel: mlx5_core 0000:ca:00.1: 252.048 Gb/s available PCIe bandwidth (16.0 GT/s PCIe x16 link)
[  153.576974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 100s
[  173.584974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 79s
[  193.592974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 59s
[  213.600975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 39s
[  233.608975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 19s
[  253.584980] kernel: mlx5_core 0000:ca:00.1: mlx5_function_setup:960:(pid 821): Firmware over 120000 MS in pre-initializing state, aborting
[  253.586029] kernel: mlx5_core 0000:ca:00.1: init_one:1366:(pid 821): mlx5_load_one failed with error code -16
[  253.587272] kernel: mlx5_core: probe of 0000:ca:00.1 failed with error -16

3. Fatale foutgebeurtenissen van de PCIe-bus worden vastgelegd in het iDRAC/Lifecycle-logboek, wijzend naar het slot waar de DPU-adapter is geïnstalleerd.
Fatale foutgebeurtenissen PCIe-bus

Causa

DSS/RCI engineering heeft twee modellen van de Mellanox BlueField-2 DPU-kanaaladapter gekwalificeerd.
  1. 32 GB NVIDIA Mellanox BlueField2 DPU-kaart (DPN#CH5RM, Model# MBF2H516A-CEEOT) 
  2. 128 GB NVIDIA Mellanox BlueField2 DPU-kaart (DPN#GRNMC, Model# MBF2H516C-CECOT)
Op de vorige DOCA 1.5.0 LTS-release wordt slechts één model ondersteund. DPN#CH5RM
Vanaf de release van DOCA 1.5.1 LTS worden beide modellen, DPN#CH5RM en DPN#GRNMC ondersteund.
NVIDIA Mellanox raadt DOCA package (LTS) 1.5.7 of nieuwer aan.

Risoluzione

Als de Dell PowerEdge server de genoemde storingssymptomen ervaart met de DSS-gekwalificeerde NVIDIA Mellanox BlueField2 DPU-adapter (DPN#GRNMC), moet u ervoor zorgen dat de DOCA 1.5.1 LTS of een latere versie correct is geïnstalleerd.

Als de DOCA-image wordt vernieuwd naar een oudere niet-ondersteunde versie op deze 128G DPU-adapter, gebruikt u de volgende procedure om de DPU te herstellen:

Installeer DOCA Host Drivers gevonden op https://developer.nvidia.com/networking/docaDeze hyperlink leidt u naar een website buiten Dell Technologies.
voorbeeld: Voor Ubuntu 20.04-hostbesturingssysteem

  1. wget https://content.mellanox.com/DOCA/DOCA_v2.7.0/host/doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.debDeze hyperlink leidt u naar een website buiten Dell Technologies.
  2. dpkg -i doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb
    apt-get update
    apt install doca-all

Download en installeer het nieuwste BF2 DOCA-pakket.

  1. wget https://content.mellanox.com/BlueField/BFBs/Ubuntu22.04/bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfbDeze hyperlink leidt u naar een website buiten Dell Technologies.
  2. bfb-install --bfb bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb --rshim rshim0


Zodra de DOCA-installatie op BF2 is voltooid, zet u de BF2 terug.

  1. echo "SW_RESET 1" > /dev/rshim0/mis

Prodotti interessati

Datacenter Scalable Solutions, Mellanox Family of Adapters
Proprietà dell'articolo
Numero articolo: 000228342
Tipo di articolo: Solution
Ultima modifica: 03 ott 2024
Versione:  2
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.