R750 DSS: Karta NVIDIA Mellanox BlueField-2 DPU DPN-GRNMC Chyba učení linky PCIe

Riepilogo: U škálovatelných řešení PowerEdge R750 (DSS) může docházet k selhání při používání starších verzí architektury DOCA (Data Center-on-a-Chip) s kartou NVIDIA Mellanox BlueField-2 DPU (Data Processing Unit). ...

Questo articolo si applica a Questo articolo non si applica a Questo articolo non è legato a un prodotto specifico. Non tutte le versioni del prodotto sono identificate in questo articolo.

Sintomi

Kanálová karta NVIDIA Mellanox MT42822 BlueField-2 100G DPU, DPN# GRNMC, je adaptér DPU vhodný pro DSS, který může být vybaven některými servery PowerEdge nakonfigurovanými DSS podle určitých požadavků uživatelů DSS/RCI.
Tento adaptér je kvalifikovaný a podporovaný technickým týmem Dell DSS/RCI pro technologii NVIDIA DOCA 1.5.1 nebo novější. 
Pokud se bitová kopie DOCA na tomto konkrétním adaptéru změní na starší verzi než 1.5.1, může se na serveru objevit několik příznaků selhání.
Například:

1. Do protokolu
Události selhání učení linky PCIe

řadiče iDRAC/LifeCycle se zaznamená událost selhání učení linky PCIe UEFI0067: 2. Hostitelskému operačnímu systému (OS) se nepodaří inicializovat adaptér DPU. 
[  133.575847] kernel: mlx5_core 0000:ca:00.1: firmware version: 24.35.2000
[  133.576304] kernel: mlx5_core 0000:ca:00.1: 252.048 Gb/s available PCIe bandwidth (16.0 GT/s PCIe x16 link)
[  153.576974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 100s
[  173.584974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 79s
[  193.592974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 59s
[  213.600975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 39s
[  233.608975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 19s
[  253.584980] kernel: mlx5_core 0000:ca:00.1: mlx5_function_setup:960:(pid 821): Firmware over 120000 MS in pre-initializing state, aborting
[  253.586029] kernel: mlx5_core 0000:ca:00.1: init_one:1366:(pid 821): mlx5_load_one failed with error code -16
[  253.587272] kernel: mlx5_core: probe of 0000:ca:00.1 failed with error -16

3. Do protokolu řadiče iDRAC/Lifecycle se zaznamenávají závažné chybové události sběrnice PCIe, které ukazují na slot, ve kterém je nainstalován adaptér DPU.
Závažné chybové události sběrnice PCIe

Causa

Technický tým DSS/RCI kvalifikoval dva modely kanálového adaptéru Mellanox BlueField-2 DPU.
  1. Karta 32G NVIDIA Mellanox BlueField2 DPU (DPN#CH5RM, model # MBF2H516A-CEEOT) 
  2. 128GB karta NVIDIA Mellanox BlueField2 DPU (DPN#GRNMC, Model# MBF2H516C-CECOT)
V předchozí verzi DOCA 1.5.0 LTS je podporován pouze jeden model. DPN#CH5RM
Od verze DOCA 1.5.1 LTS jsou podporovány oba modely, DPN#CH5RM a DPN#GRNMC.
NVIDIA Mellanox doporučuje balíček DOCA (LTS) 1.5.7 nebo novější.

Risoluzione

Pokud u serveru Dell PowerEdge dojde k uvedeným příznakům selhání při použití adaptéru NVIDIA Mellanox BlueField2 DPU (DPN#GRNMC) kvalifikovaného pro DSS, ujistěte se, že je správně nainstalován ovladač DOCA 1.5.1 LTS nebo novější verze.

Pokud je bitová kopie DOCA v tomto adaptéru 128G DPU obnovena na starší nepodporovanou verzi, obnovte DPU následujícím postupem:

Nainstalujte ovladače hostitele DOCA, které se nacházejí https://developer.nvidia.com/networking/docaTento hypertextový odkaz vás zavede na webové stránky mimo společnost Dell Technologies.
příkladu: Pro hostitelský operační systém Ubuntu 20.04

  1. wget https://content.mellanox.com/DOCA/DOCA_v2.7.0/host/doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.debTento hypertextový odkaz vás zavede na webové stránky mimo společnost Dell Technologies.
  2. dpkg -i doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb
    apt-get update
    apt install doca-all

Stáhněte si a nainstalujte nejnovější balíček BF2 DOCA.

  1. wget https://content.mellanox.com/BlueField/BFBs/Ubuntu22.04/bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfbTento hypertextový odkaz vás zavede na webové stránky mimo společnost Dell Technologies.
  2. bfb-install --bfb bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb --rshim rshim0


Po dokončení instalace DOCA na BF2 resetujte BF2.

  1. echo "SW_RESET 1" > /dev/rshim0/mis

Prodotti interessati

Datacenter Scalable Solutions, Mellanox Family of Adapters
Proprietà dell'articolo
Numero articolo: 000228342
Tipo di articolo: Solution
Ultima modifica: 03 ott 2024
Versione:  2
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.