Система DSS R750: Плата DPU NVIDIA Mellanox BlueField-2 DPN-GRNMC — сбой при обучении канала PCIe
Riepilogo: В масштабируемых решениях для ЦОД (DSS) PowerEdge R750 могут возникать сбои при использовании старых версий архитектуры центра обработки данных (DOCA) с платой NVIDIA Mellanox BlueField-2 Data Processing Unit (DPU). ...
Questo articolo si applica a
Questo articolo non si applica a
Questo articolo non è legato a un prodotto specifico.
Non tutte le versioni del prodotto sono identificate in questo articolo.
Sintomi
Канальная плата NVIDIA Mellanox MT42822 BlueField-2 DPU 100 Гбит/с, DPN# GRNMC, сертифицирована для DSS и может быть оснащена некоторыми серверами PowerEdge с DSS-конфигурацией в соответствии с некоторыми пользовательскими требованиями DSS/RCI.
Этот адаптер сертифицирован и поддерживается командой инженеров Dell DSS/RCI в NVIDIA DOCA 1.5.1 или более поздних версиях.
Если образ DOCA на этом адаптере изменить до более ранней версии, чем 1.5.1, на сервере может наблюдаться несколько признаков сбоя.
Например:
1. Событие сбоя обучения канала PCIe UEFI0067 регистрируется в журнале iDRAC/LifeCycle:
2. Операционной системе хоста (ОС) не удается инициализировать адаптер DPU.
3. События неустранимых ошибок шины PCIe регистрируются в журнале iDRAC/Lifecycle журнале, указывая на разъем, в который установлен адаптер DPU.

Этот адаптер сертифицирован и поддерживается командой инженеров Dell DSS/RCI в NVIDIA DOCA 1.5.1 или более поздних версиях.
Если образ DOCA на этом адаптере изменить до более ранней версии, чем 1.5.1, на сервере может наблюдаться несколько признаков сбоя.
Например:
1. Событие сбоя обучения канала PCIe UEFI0067 регистрируется в журнале iDRAC/LifeCycle:
2. Операционной системе хоста (ОС) не удается инициализировать адаптер DPU.
[ 133.575847] kernel: mlx5_core 0000:ca:00.1: firmware version: 24.35.2000 [ 133.576304] kernel: mlx5_core 0000:ca:00.1: 252.048 Gb/s available PCIe bandwidth (16.0 GT/s PCIe x16 link) [ 153.576974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 100s [ 173.584974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 79s [ 193.592974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 59s [ 213.600975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 39s [ 233.608975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 19s [ 253.584980] kernel: mlx5_core 0000:ca:00.1: mlx5_function_setup:960:(pid 821): Firmware over 120000 MS in pre-initializing state, aborting [ 253.586029] kernel: mlx5_core 0000:ca:00.1: init_one:1366:(pid 821): mlx5_load_one failed with error code -16 [ 253.587272] kernel: mlx5_core: probe of 0000:ca:00.1 failed with error -16
3. События неустранимых ошибок шины PCIe регистрируются в журнале iDRAC/Lifecycle журнале, указывая на разъем, в который установлен адаптер DPU.

Causa
Инженеры DSS/RCI сертифицировали две модели канального адаптера Mellanox BlueField-2 DPU.
Начиная с выпуска DOCA 1.5.1 LTS, поддерживаются обе модели, DPN#CH5RM и DPN#GRNMC.
NVIDIA Mellanox рекомендует использовать пакет DOCA (LTS) версии 1.5.7 или более поздней.
- Плата DPU NVIDIA Mellanox BlueField2 32 Гбит/с (DPN#CH5RM, модель# MBF2H516A-CEEOT)
- Плата DPU NVIDIA Mellanox BlueField2 128 Гбайт (DPN#GRNMC, модель# MBF2H516C-CECOT)
Начиная с выпуска DOCA 1.5.1 LTS, поддерживаются обе модели, DPN#CH5RM и DPN#GRNMC.
NVIDIA Mellanox рекомендует использовать пакет DOCA (LTS) версии 1.5.7 или более поздней.
Risoluzione
Если на сервере Dell PowerEdge возникают указанные признаки сбоя при использовании сертифицированного DSS адаптера NVIDIA Mellanox BlueField2 DPU (DPN#GRNMC), убедитесь, что DOCA 1.5.1 LTS или более поздней версии установлен правильно.
Если образ DOCA обновлен до более ранней неподдерживаемой версии на этом адаптере DPU 128 Гбайт, выполните следующие действия для восстановления DPU:
Если образ DOCA обновлен до более ранней неподдерживаемой версии на этом адаптере DPU 128 Гбайт, выполните следующие действия для восстановления DPU:
Установка драйверов хоста DOCA, найденных в https://developer.nvidia.com/networking/doca
примере: Для ОС хоста Ubuntu 20.04
- wget https://content.mellanox.com/DOCA/DOCA_v2.7.0/host/doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb
-
dpkg -i doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb apt-get update apt install doca-all
Загрузите и установите последнюю версию пакета BF2 DOCA.
- wget https://content.mellanox.com/BlueField/BFBs/Ubuntu22.04/bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb
-
bfb-install --bfb bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb --rshim rshim0
После завершения установки DOCA на BF2 выполните сброс BF2.
-
echo "SW_RESET 1" > /dev/rshim0/mis
Prodotti interessati
Datacenter Scalable Solutions, Mellanox Family of AdaptersProprietà dell'articolo
Numero articolo: 000228342
Tipo di articolo: Solution
Ultima modifica: 03 ott 2024
Versione: 2
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.