R750 DSS: NVIDIA Mellanox BlueField-2 -DPU-kortti DPN-GRNMC PCIe -linkin koulutusvirhe

Riepilogo: PowerEdge R750 Datacenter Scalable Solutions (DSS) -ratkaisut saattavat epäonnistua, kun vanhempia Data Center-on-a-Chip Architecture (DOCA) -versioita käytetään NVIDIA Mellanox BlueField-2 Data Processing Unit (DPU) -kortilla. ...

Questo articolo si applica a Questo articolo non si applica a Questo articolo non è legato a un prodotto specifico. Non tutte le versioni del prodotto sono identificate in questo articolo.

Sintomi

NVIDIA Mellanox MT42822 BlueField-2 100G DPU -kanavakortti, DPN# GRNMC, on DSS-hyväksytty DPU-sovitin, joka voidaan varustaa joillakin DSS-määritetyillä PowerEdge-palvelimilla joidenkin DSS/RCI-käyttäjäkohtaisten vaatimusten mukaisesti.
Dellin DSS/RCI-suunnittelutiimin suunnittelema NVIDIA DOCA 1.5.1 tai uudempi versio tukee tätä sovitinta. 
Jos kyseisen sovittimen DOCA-näköistiedosto vaihdetaan vanhempaan versioon kuin 1.5.1, palvelimessa saattaa ilmetä useita vikaoireita.
Esimerkiksi:

1. PCIe-linkin koulutusvirhetapahtuman UEFI0067 kirjataan iDRAC/LifeCycle-lokiin:
PCIe-linkin koulutusvirhetapahtumat

2. Isäntäkäyttöjärjestelmä (OS) ei pysty alustamaan DPU-sovitinta. 
[  133.575847] kernel: mlx5_core 0000:ca:00.1: firmware version: 24.35.2000
[  133.576304] kernel: mlx5_core 0000:ca:00.1: 252.048 Gb/s available PCIe bandwidth (16.0 GT/s PCIe x16 link)
[  153.576974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 100s
[  173.584974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 79s
[  193.592974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 59s
[  213.600975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 39s
[  233.608975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 19s
[  253.584980] kernel: mlx5_core 0000:ca:00.1: mlx5_function_setup:960:(pid 821): Firmware over 120000 MS in pre-initializing state, aborting
[  253.586029] kernel: mlx5_core 0000:ca:00.1: init_one:1366:(pid 821): mlx5_load_one failed with error code -16
[  253.587272] kernel: mlx5_core: probe of 0000:ca:00.1 failed with error -16

3. PCIe-väylän vakavat virhetapahtumat kirjataan iDRAC-/Lifecycle-lokiin, ja ne osoittavat paikkaan, johon DPU-sovitin on asennettu.
PCIe-väylän vakavat virhetapahtumat

Causa

DSS/RCI-suunnittelijat hyväksyivät kaksi Mellanox BlueField-2 DPU -kanavasovitinmallia.
  1. 32 Gt:n NVIDIA Mellanox BlueField2 -DPU-kortti (DPN#CH5RM, Model# MBF2H516A-CEEOT) 
  2. 128 Gt:n NVIDIA Mellanox BlueField2 -DPU-kortti (DPN#GRNMC, Model# MBF2H516C-CECOT)
Aiemmassa DOCA 1.5.0 LTS -versiossa tuetaan vain yhtä mallia. DPN#CH5RM
DOCA 1.5.1 LTS -julkaisusta alkaen molempia malleja, DPN#CH5RM ja DPN#GRNMC, tuetaan.
NVIDIA Mellanox suosittelee DOCA-pakettia (LTS) 1.5.7 tai uudempaa.

Risoluzione

Jos Dell PowerEdge -palvelin havaitsee edellä mainitut vikaoireet DSS-hyväksytyssä NVIDIA Mellanox BlueField2 DPU -sovittimessa (DPN#GRNMC), varmista, että DOCA 1.5.1 LTS tai uudempi versio on asennettu oikein.

Jos tämän 128 Gt:n DPU-sovittimen DOCA-näköistiedosto päivitetään vanhempaan ei-tuettuun versioon, palauta DPU seuraavasti:

Asenna DOCA-isäntäohjaimet, jotka löytyvät https://developer.nvidia.com/networking/docaTämä hyperlinkki johtaa Dell Technologiesin ulkopuoliseen sivustoon.
Esimerkki: Ubuntu 20.04 -isäntäkäyttöjärjestelmä

  1. https://content.mellanox.com/DOCA/DOCA_v2.7.0/host/doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.debTämä hyperlinkki johtaa Dell Technologiesin ulkopuoliseen sivustoon.
  2. dpkg -i doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb
    apt-get update
    apt install doca-all

Lataa ja asenna uusin BF2 DOCA -paketti.

  1. https://content.mellanox.com/BlueField/BFBs/Ubuntu22.04/bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfbTämä hyperlinkki johtaa Dell Technologiesin ulkopuoliseen sivustoon.
  2. bfb-install --bfb bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb --rshim rshim0


Kun DOCA-asennus BF2:een on valmis, nollaa BF2.

  1. echo "SW_RESET 1" > /dev/rshim0/mis

Prodotti interessati

Datacenter Scalable Solutions, Mellanox Family of Adapters
Proprietà dell'articolo
Numero articolo: 000228342
Tipo di articolo: Solution
Ultima modifica: 03 ott 2024
Versione:  2
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.