R750 DSS: Karta NVIDIA Mellanox BlueField-2 DPU DPN-GRNMC Chyba učení linky PCIe
Riepilogo: U škálovatelných řešení PowerEdge R750 (DSS) může docházet k selhání při používání starších verzí architektury DOCA (Data Center-on-a-Chip) s kartou NVIDIA Mellanox BlueField-2 DPU (Data Processing Unit). ...
Questo articolo si applica a
Questo articolo non si applica a
Questo articolo non è legato a un prodotto specifico.
Non tutte le versioni del prodotto sono identificate in questo articolo.
Sintomi
Kanálová karta NVIDIA Mellanox MT42822 BlueField-2 100G DPU, DPN# GRNMC, je adaptér DPU vhodný pro DSS, který může být vybaven některými servery PowerEdge nakonfigurovanými DSS podle určitých požadavků uživatelů DSS/RCI.
Tento adaptér je kvalifikovaný a podporovaný technickým týmem Dell DSS/RCI pro technologii NVIDIA DOCA 1.5.1 nebo novější.
Pokud se bitová kopie DOCA na tomto konkrétním adaptéru změní na starší verzi než 1.5.1, může se na serveru objevit několik příznaků selhání.
Například:
1. Do protokolu
řadiče iDRAC/LifeCycle se zaznamená událost selhání učení linky PCIe UEFI0067: 2. Hostitelskému operačnímu systému (OS) se nepodaří inicializovat adaptér DPU.
3. Do protokolu řadiče iDRAC/Lifecycle se zaznamenávají závažné chybové události sběrnice PCIe, které ukazují na slot, ve kterém je nainstalován adaptér DPU.

Tento adaptér je kvalifikovaný a podporovaný technickým týmem Dell DSS/RCI pro technologii NVIDIA DOCA 1.5.1 nebo novější.
Pokud se bitová kopie DOCA na tomto konkrétním adaptéru změní na starší verzi než 1.5.1, může se na serveru objevit několik příznaků selhání.
Například:
1. Do protokolu
řadiče iDRAC/LifeCycle se zaznamená událost selhání učení linky PCIe UEFI0067: 2. Hostitelskému operačnímu systému (OS) se nepodaří inicializovat adaptér DPU.
[ 133.575847] kernel: mlx5_core 0000:ca:00.1: firmware version: 24.35.2000 [ 133.576304] kernel: mlx5_core 0000:ca:00.1: 252.048 Gb/s available PCIe bandwidth (16.0 GT/s PCIe x16 link) [ 153.576974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 100s [ 173.584974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 79s [ 193.592974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 59s [ 213.600975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 39s [ 233.608975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 19s [ 253.584980] kernel: mlx5_core 0000:ca:00.1: mlx5_function_setup:960:(pid 821): Firmware over 120000 MS in pre-initializing state, aborting [ 253.586029] kernel: mlx5_core 0000:ca:00.1: init_one:1366:(pid 821): mlx5_load_one failed with error code -16 [ 253.587272] kernel: mlx5_core: probe of 0000:ca:00.1 failed with error -16
3. Do protokolu řadiče iDRAC/Lifecycle se zaznamenávají závažné chybové události sběrnice PCIe, které ukazují na slot, ve kterém je nainstalován adaptér DPU.

Causa
Technický tým DSS/RCI kvalifikoval dva modely kanálového adaptéru Mellanox BlueField-2 DPU.
Od verze DOCA 1.5.1 LTS jsou podporovány oba modely, DPN#CH5RM a DPN#GRNMC.
NVIDIA Mellanox doporučuje balíček DOCA (LTS) 1.5.7 nebo novější.
- Karta 32G NVIDIA Mellanox BlueField2 DPU (DPN#CH5RM, model # MBF2H516A-CEEOT)
- 128GB karta NVIDIA Mellanox BlueField2 DPU (DPN#GRNMC, Model# MBF2H516C-CECOT)
Od verze DOCA 1.5.1 LTS jsou podporovány oba modely, DPN#CH5RM a DPN#GRNMC.
NVIDIA Mellanox doporučuje balíček DOCA (LTS) 1.5.7 nebo novější.
Risoluzione
Pokud u serveru Dell PowerEdge dojde k uvedeným příznakům selhání při použití adaptéru NVIDIA Mellanox BlueField2 DPU (DPN#GRNMC) kvalifikovaného pro DSS, ujistěte se, že je správně nainstalován ovladač DOCA 1.5.1 LTS nebo novější verze.
Pokud je bitová kopie DOCA v tomto adaptéru 128G DPU obnovena na starší nepodporovanou verzi, obnovte DPU následujícím postupem:
Pokud je bitová kopie DOCA v tomto adaptéru 128G DPU obnovena na starší nepodporovanou verzi, obnovte DPU následujícím postupem:
Nainstalujte ovladače hostitele DOCA, které se nacházejí https://developer.nvidia.com/networking/doca
příkladu: Pro hostitelský operační systém Ubuntu 20.04
- wget https://content.mellanox.com/DOCA/DOCA_v2.7.0/host/doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb
-
dpkg -i doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb apt-get update apt install doca-all
Stáhněte si a nainstalujte nejnovější balíček BF2 DOCA.
- wget https://content.mellanox.com/BlueField/BFBs/Ubuntu22.04/bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb
-
bfb-install --bfb bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb --rshim rshim0
Po dokončení instalace DOCA na BF2 resetujte BF2.
-
echo "SW_RESET 1" > /dev/rshim0/mis
Prodotti interessati
Datacenter Scalable Solutions, Mellanox Family of AdaptersProprietà dell'articolo
Numero articolo: 000228342
Tipo di articolo: Solution
Ultima modifica: 03 ott 2024
Versione: 2
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.