Система DSS R750: Плата DPU NVIDIA Mellanox BlueField-2 DPN-GRNMC — сбой при обучении канала PCIe

Riepilogo: В масштабируемых решениях для ЦОД (DSS) PowerEdge R750 могут возникать сбои при использовании старых версий архитектуры центра обработки данных (DOCA) с платой NVIDIA Mellanox BlueField-2 Data Processing Unit (DPU). ...

Questo articolo si applica a Questo articolo non si applica a Questo articolo non è legato a un prodotto specifico. Non tutte le versioni del prodotto sono identificate in questo articolo.

Sintomi

Канальная плата NVIDIA Mellanox MT42822 BlueField-2 DPU 100 Гбит/с, DPN# GRNMC, сертифицирована для DSS и может быть оснащена некоторыми серверами PowerEdge с DSS-конфигурацией в соответствии с некоторыми пользовательскими требованиями DSS/RCI.
Этот адаптер сертифицирован и поддерживается командой инженеров Dell DSS/RCI в NVIDIA DOCA 1.5.1 или более поздних версиях. 
Если образ DOCA на этом адаптере изменить до более ранней версии, чем 1.5.1, на сервере может наблюдаться несколько признаков сбоя.
Например:

1. Событие сбоя обучения канала PCIe UEFI0067 регистрируется в журнале iDRAC/LifeCycle:
События сбоя обучения канала PCIe

2. Операционной системе хоста (ОС) не удается инициализировать адаптер DPU. 
[  133.575847] kernel: mlx5_core 0000:ca:00.1: firmware version: 24.35.2000
[  133.576304] kernel: mlx5_core 0000:ca:00.1: 252.048 Gb/s available PCIe bandwidth (16.0 GT/s PCIe x16 link)
[  153.576974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 100s
[  173.584974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 79s
[  193.592974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 59s
[  213.600975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 39s
[  233.608975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 19s
[  253.584980] kernel: mlx5_core 0000:ca:00.1: mlx5_function_setup:960:(pid 821): Firmware over 120000 MS in pre-initializing state, aborting
[  253.586029] kernel: mlx5_core 0000:ca:00.1: init_one:1366:(pid 821): mlx5_load_one failed with error code -16
[  253.587272] kernel: mlx5_core: probe of 0000:ca:00.1 failed with error -16

3. События неустранимых ошибок шины PCIe регистрируются в журнале iDRAC/Lifecycle журнале, указывая на разъем, в который установлен адаптер DPU.
События неустранимых ошибок шины PCIe

Causa

Инженеры DSS/RCI сертифицировали две модели канального адаптера Mellanox BlueField-2 DPU.
  1. Плата DPU NVIDIA Mellanox BlueField2 32 Гбит/с (DPN#CH5RM, модель# MBF2H516A-CEEOT) 
  2. Плата DPU NVIDIA Mellanox BlueField2 128 Гбайт (DPN#GRNMC, модель# MBF2H516C-CECOT)
В предыдущем выпуске DOCA 1.5.0 LTS поддерживалась только одна модель. DPN#CH5RM
Начиная с выпуска DOCA 1.5.1 LTS, поддерживаются обе модели, DPN#CH5RM и DPN#GRNMC.
NVIDIA Mellanox рекомендует использовать пакет DOCA (LTS) версии 1.5.7 или более поздней.

Risoluzione

Если на сервере Dell PowerEdge возникают указанные признаки сбоя при использовании сертифицированного DSS адаптера NVIDIA Mellanox BlueField2 DPU (DPN#GRNMC), убедитесь, что DOCA 1.5.1 LTS или более поздней версии установлен правильно.

Если образ DOCA обновлен до более ранней неподдерживаемой версии на этом адаптере DPU 128 Гбайт, выполните следующие действия для восстановления DPU:

Установка драйверов хоста DOCA, найденных в https://developer.nvidia.com/networking/docaЭта гиперссылка позволяет перейти на сайт за пределами Dell Technologies.
примере: Для ОС хоста Ubuntu 20.04

  1. wget https://content.mellanox.com/DOCA/DOCA_v2.7.0/host/doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.debЭта гиперссылка позволяет перейти на сайт за пределами Dell Technologies.
  2. dpkg -i doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb
    apt-get update
    apt install doca-all

Загрузите и установите последнюю версию пакета BF2 DOCA.

  1. wget https://content.mellanox.com/BlueField/BFBs/Ubuntu22.04/bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfbЭта гиперссылка позволяет перейти на сайт за пределами Dell Technologies.
  2. bfb-install --bfb bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb --rshim rshim0


После завершения установки DOCA на BF2 выполните сброс BF2.

  1. echo "SW_RESET 1" > /dev/rshim0/mis

Prodotti interessati

Datacenter Scalable Solutions, Mellanox Family of Adapters
Proprietà dell'articolo
Numero articolo: 000228342
Tipo di articolo: Solution
Ultima modifica: 03 ott 2024
Versione:  2
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.