R750 DSS: NVIDIA Mellanox BlueField-2 DPU-kaart DPN-GRNMC PCIe-koppelingstraining mislukt

Samenvatting: PowerEdge R750 Datacenter Scalable Solutions (DSS) kunnen fouten ondervinden bij het uitvoeren van oudere Data Center-on-a-Chip Architecture (DOCA)-versies met de NVIDIA Mellanox BlueField-2 Data Processing Unit (DPU) Card. ...

Dit artikel is van toepassing op Dit artikel is niet van toepassing op Dit artikel is niet gebonden aan een specifiek product. Niet alle productversies worden in dit artikel vermeld.

Symptomen

De NVIDIA Mellanox MT42822 BlueField-2 100G DPU-kanaalkaart, DPN# GRNMC, is een DSS-gekwalificeerde DPU-adapter die mogelijk is uitgerust met sommige DSS-geconfigureerde PowerEdge servers volgens sommige DSS/RCI gebruikersspecifieke vereisten.
Deze adapter is gekwalificeerd en wordt ondersteund door NVIDIA DOCA 1.5.1 of latere versies door het Dell DSS/RCI engineeringteam. 
Als de DOCA-image wordt gewijzigd in een eerdere versie dan 1.5.1 op deze specifieke adapter, kunnen meerdere storingssymptomen op de server worden waargenomen.
Bijvoorbeeld:

1. PCIe-koppelingstrainingsfout UEFI0067 is vastgelegd in het iDRAC/LifeCycle-logboek:
Gebeurtenissen met een trainingsfout in PCIe-koppeling

2. Het hostbesturingssysteem (OS) kan de DPU-adapter niet initialiseren. 
[  133.575847] kernel: mlx5_core 0000:ca:00.1: firmware version: 24.35.2000
[  133.576304] kernel: mlx5_core 0000:ca:00.1: 252.048 Gb/s available PCIe bandwidth (16.0 GT/s PCIe x16 link)
[  153.576974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 100s
[  173.584974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 79s
[  193.592974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 59s
[  213.600975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 39s
[  233.608975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 19s
[  253.584980] kernel: mlx5_core 0000:ca:00.1: mlx5_function_setup:960:(pid 821): Firmware over 120000 MS in pre-initializing state, aborting
[  253.586029] kernel: mlx5_core 0000:ca:00.1: init_one:1366:(pid 821): mlx5_load_one failed with error code -16
[  253.587272] kernel: mlx5_core: probe of 0000:ca:00.1 failed with error -16

3. Fatale foutgebeurtenissen van de PCIe-bus worden vastgelegd in het iDRAC/Lifecycle-logboek, wijzend naar het slot waar de DPU-adapter is geïnstalleerd.
Fatale foutgebeurtenissen PCIe-bus

Oorzaak

DSS/RCI engineering heeft twee modellen van de Mellanox BlueField-2 DPU-kanaaladapter gekwalificeerd.
  1. 32 GB NVIDIA Mellanox BlueField2 DPU-kaart (DPN#CH5RM, Model# MBF2H516A-CEEOT) 
  2. 128 GB NVIDIA Mellanox BlueField2 DPU-kaart (DPN#GRNMC, Model# MBF2H516C-CECOT)
Op de vorige DOCA 1.5.0 LTS-release wordt slechts één model ondersteund. DPN#CH5RM
Vanaf de release van DOCA 1.5.1 LTS worden beide modellen, DPN#CH5RM en DPN#GRNMC ondersteund.
NVIDIA Mellanox raadt DOCA package (LTS) 1.5.7 of nieuwer aan.

Oplossing

Als de Dell PowerEdge server de genoemde storingssymptomen ervaart met de DSS-gekwalificeerde NVIDIA Mellanox BlueField2 DPU-adapter (DPN#GRNMC), moet u ervoor zorgen dat de DOCA 1.5.1 LTS of een latere versie correct is geïnstalleerd.

Als de DOCA-image wordt vernieuwd naar een oudere niet-ondersteunde versie op deze 128G DPU-adapter, gebruikt u de volgende procedure om de DPU te herstellen:

Installeer DOCA Host Drivers gevonden op https://developer.nvidia.com/networking/docaDeze hyperlink leidt u naar een website buiten Dell Technologies.
voorbeeld: Voor Ubuntu 20.04-hostbesturingssysteem

  1. wget https://content.mellanox.com/DOCA/DOCA_v2.7.0/host/doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.debDeze hyperlink leidt u naar een website buiten Dell Technologies.
  2. dpkg -i doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb
    apt-get update
    apt install doca-all

Download en installeer het nieuwste BF2 DOCA-pakket.

  1. wget https://content.mellanox.com/BlueField/BFBs/Ubuntu22.04/bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfbDeze hyperlink leidt u naar een website buiten Dell Technologies.
  2. bfb-install --bfb bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb --rshim rshim0


Zodra de DOCA-installatie op BF2 is voltooid, zet u de BF2 terug.

  1. echo "SW_RESET 1" > /dev/rshim0/mis

Getroffen producten

Datacenter Scalable Solutions, Mellanox Family of Adapters
Artikeleigenschappen
Artikelnummer: 000228342
Artikeltype: Solution
Laatst aangepast: 03 okt. 2024
Versie:  2
Vind antwoorden op uw vragen via andere Dell gebruikers
Support Services
Controleer of uw apparaat wordt gedekt door Support Services.