Р750 СППР: Збій навчання з'єднання NVIDIA Mellanox BlueField-2 DPN-GRNMC PCIe Link
Riepilogo: У PowerEdge R750 Datacenter Scalable Solutions (DSS) можуть виникати збої під час роботи старіших версій архітектури Data Center-on-a-Chip Architecture (DOCA) з платою NVIDIA Mellanox BlueField-2 Data Processing Unit (DPU). ...
Questo articolo si applica a
Questo articolo non si applica a
Questo articolo non è legato a un prodotto specifico.
Non tutte le versioni del prodotto sono identificate in questo articolo.
Sintomi
Канальна карта NVIDIA Mellanox MT42822 BlueField-2 100G DPU, DPN# GRNMC, є адаптером DPU, кваліфікованим DSS, який може бути оснащений деякими серверами PowerEdge, налаштованими DSS, відповідно до деяких специфічних вимог користувача DSS/RCI.
Цей адаптер кваліфікований і підтримується NVIDIA DOCA 1.5.1 або пізнішими версіями командою інженерів Dell DSS/RCI.
Якщо образ DOCA змінено на більш ранню версію, ніж 1.5.1 на цьому конкретному адаптері, на сервері можуть спостерігатися численні симптоми збою.
Наприклад:
1. Подія невдалого навчання з'єднання PCIe UEFI0067 реєструється в журналі iDRAC/LifeCycle:
2. Операційна система хоста (ОС) не може ініціалізувати адаптер DPU.
3. Події фатальних помилок шини PCIe реєструються в журналі життєвого циклу iDRAC, вказуючи на слот, де встановлено адаптер DPU.

Цей адаптер кваліфікований і підтримується NVIDIA DOCA 1.5.1 або пізнішими версіями командою інженерів Dell DSS/RCI.
Якщо образ DOCA змінено на більш ранню версію, ніж 1.5.1 на цьому конкретному адаптері, на сервері можуть спостерігатися численні симптоми збою.
Наприклад:
1. Подія невдалого навчання з'єднання PCIe UEFI0067 реєструється в журналі iDRAC/LifeCycle:
2. Операційна система хоста (ОС) не може ініціалізувати адаптер DPU.
[ 133.575847] kernel: mlx5_core 0000:ca:00.1: firmware version: 24.35.2000 [ 133.576304] kernel: mlx5_core 0000:ca:00.1: 252.048 Gb/s available PCIe bandwidth (16.0 GT/s PCIe x16 link) [ 153.576974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 100s [ 173.584974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 79s [ 193.592974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 59s [ 213.600975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 39s [ 233.608975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 19s [ 253.584980] kernel: mlx5_core 0000:ca:00.1: mlx5_function_setup:960:(pid 821): Firmware over 120000 MS in pre-initializing state, aborting [ 253.586029] kernel: mlx5_core 0000:ca:00.1: init_one:1366:(pid 821): mlx5_load_one failed with error code -16 [ 253.587272] kernel: mlx5_core: probe of 0000:ca:00.1 failed with error -16
3. Події фатальних помилок шини PCIe реєструються в журналі життєвого циклу iDRAC, вказуючи на слот, де встановлено адаптер DPU.

Causa
Інженери DSS/RCI кваліфікували дві моделі канального адаптера Mellanox BlueField-2 DPU.
Починаючи з випуску DOCA 1.5.1 LTS, підтримуються обидві моделі, DPN#CH5RM та DPN#GRNMC.
NVIDIA Mellanox рекомендує пакет DOCA (LTS) 1.5.7 або новішу.
- 32G карта NVIDIA Mellanox BlueField2 DPU (DPN#CH5RM, модель# MBF2H516A-CEEOT)
- 128G карта NVIDIA Mellanox BlueField2 DPU (DPN#GRNMC, модель# MBF2H516C-CECOT)
Починаючи з випуску DOCA 1.5.1 LTS, підтримуються обидві моделі, DPN#CH5RM та DPN#GRNMC.
NVIDIA Mellanox рекомендує пакет DOCA (LTS) 1.5.7 або новішу.
Risoluzione
Якщо на сервері Dell PowerEdge виникають згадані симптоми збою з адаптером NVIDIA Mellanox BlueField2 DPU (DPN#GRNMC), який відповідає вимогам DSS, переконайтеся, що DOCA 1.5.1 LTS або пізніша версія встановлена правильно.
Якщо зображення DOCA оновлено до старішої непідтримуваної версії на цьому адаптері 128G DPU, виконайте наведену нижче процедуру для відновлення DPU:
Якщо зображення DOCA оновлено до старішої непідтримуваної версії на цьому адаптері 128G DPU, виконайте наведену нижче процедуру для відновлення DPU:
Встановіть драйвери хоста DOCA, знайдені на https://developer.nvidia.com/networking/doca
прикладі: Для хост ОС Ubuntu 20.04
- wget https://content.mellanox.com/DOCA/DOCA_v2.7.0/host/doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb
-
dpkg -i doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb apt-get update apt install doca-all
Завантажте та встановіть останній пакет BF2 DCA.
- wget https://content.mellanox.com/BlueField/BFBs/Ubuntu22.04/bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb
-
bfb-install --bfb bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb --rshim rshim0
Після завершення інсталяції DOCA на BF2 скиньте налаштування BF2.
-
echo "SW_RESET 1" > /dev/rshim0/mis
Prodotti interessati
Datacenter Scalable Solutions, Mellanox Family of AdaptersProprietà dell'articolo
Numero articolo: 000228342
Tipo di articolo: Solution
Ultima modifica: 03 ott 2024
Versione: 2
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.