R750 DSS: Karta NVIDIA Mellanox BlueField-2 DPU DPN-GRNMC błąd treningu łącza PCIe
Riepilogo: Skalowalne rozwiązania PowerEdge R750 dla centrów danych (DSS) mogą ulec awarii podczas korzystania ze starszych wersji architektury Data Center-on-a-Chip (DOCA) z kartą NVIDIA Mellanox BlueField-2 Data Processing Unit (DPU). ...
Questo articolo si applica a
Questo articolo non si applica a
Questo articolo non è legato a un prodotto specifico.
Non tutte le versioni del prodotto sono identificate in questo articolo.
Sintomi
Karta kanału NVIDIA Mellanox MT42822 BlueField-2 100G DPU, DPN# GRNMC, to adapter DPU z certyfikatem DSS, który może być wyposażony w niektóre serwery PowerEdge skonfigurowane przez DSS zgodnie z niektórymi wymaganiami użytkownika DSS/RCI.
Ta karta jest zakwalifikowana i obsługiwana przez zespół inżynierów Dell DSS/RCI w wersji NVIDIA DOCA 1.5.1 lub nowszej.
Jeśli obraz DOCA zostanie zmieniony na wersję wcześniejszą niż 1.5.1 na tej konkretnej karcie, na serwerze można zaobserwować wiele objawów awarii.
Na przykład:
1. Zdarzenie niepowodzenia treningu łącza PCIe UEFI0067 jest rejestrowane w dzienniku iDRAC/cyklu eksploatacji:
2. System operacyjny hosta (OS) nie może zainicjować adaptera DPU.
3. Zdarzenia błędu krytycznego magistrali PCIe są rejestrowane w dzienniku iDRAC/cyklu eksploatacji, wskazując gniazdo, w którym zainstalowano adapter DPU.

Ta karta jest zakwalifikowana i obsługiwana przez zespół inżynierów Dell DSS/RCI w wersji NVIDIA DOCA 1.5.1 lub nowszej.
Jeśli obraz DOCA zostanie zmieniony na wersję wcześniejszą niż 1.5.1 na tej konkretnej karcie, na serwerze można zaobserwować wiele objawów awarii.
Na przykład:
1. Zdarzenie niepowodzenia treningu łącza PCIe UEFI0067 jest rejestrowane w dzienniku iDRAC/cyklu eksploatacji:
2. System operacyjny hosta (OS) nie może zainicjować adaptera DPU.
[ 133.575847] kernel: mlx5_core 0000:ca:00.1: firmware version: 24.35.2000 [ 133.576304] kernel: mlx5_core 0000:ca:00.1: 252.048 Gb/s available PCIe bandwidth (16.0 GT/s PCIe x16 link) [ 153.576974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 100s [ 173.584974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 79s [ 193.592974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 59s [ 213.600975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 39s [ 233.608975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 19s [ 253.584980] kernel: mlx5_core 0000:ca:00.1: mlx5_function_setup:960:(pid 821): Firmware over 120000 MS in pre-initializing state, aborting [ 253.586029] kernel: mlx5_core 0000:ca:00.1: init_one:1366:(pid 821): mlx5_load_one failed with error code -16 [ 253.587272] kernel: mlx5_core: probe of 0000:ca:00.1 failed with error -16
3. Zdarzenia błędu krytycznego magistrali PCIe są rejestrowane w dzienniku iDRAC/cyklu eksploatacji, wskazując gniazdo, w którym zainstalowano adapter DPU.

Causa
Inżynierowie DSS/RCI zakwalifikowali dwa modele adaptera kanału Mellanox BlueField-2 DPU.
Począwszy od wydania DOCA 1.5.1 LTS, obsługiwane są oba modele, DPN#CH5RM i DPN#GRNMC.
NVIDIA Mellanox zaleca pakiet DOCA (LTS) 1.5.7 lub nowszy.
- Karta NVIDIA Mellanox BlueField2 DPU 32G (DPN#CH5RM, Model# MBF2H516A-CEEOT)
- Karta DPU NVIDIA Mellanox BlueField2 128 GB (DPN#GRNMC, model# MBF2H516C-CECOT)
Począwszy od wydania DOCA 1.5.1 LTS, obsługiwane są oba modele, DPN#CH5RM i DPN#GRNMC.
NVIDIA Mellanox zaleca pakiet DOCA (LTS) 1.5.7 lub nowszy.
Risoluzione
Jeśli w serwerze Dell PowerEdge wystąpią wymienione objawy awarii z kartą NVIDIA Mellanox BlueField2 DPU (DPN#GRNMC) z kwalifikacją DSS, upewnij się, że poprawnie zainstalowano DOCA 1.5.1 LTS lub nowszą wersję.
Jeśli obraz DOCA zostanie odświeżony do starszej, nieobsługiwanej wersji na tej karcie DPU 128G, wykonaj następującą procedurę, aby odzyskać DPU:
Jeśli obraz DOCA zostanie odświeżony do starszej, nieobsługiwanej wersji na tej karcie DPU 128G, wykonaj następującą procedurę, aby odzyskać DPU:
Zainstaluj sterowniki hosta DOCA znalezione na https://developer.nvidia.com/networking/doca
przykładzie: System operacyjny hosta Ubuntu 20.04
- wget https://content.mellanox.com/DOCA/DOCA_v2.7.0/host/doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb
-
dpkg -i doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb apt-get update apt install doca-all
Pobierz i zainstaluj najnowszy pakiet BF2 DOCA.
- wget https://content.mellanox.com/BlueField/BFBs/Ubuntu22.04/bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb
-
bfb-install --bfb bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb --rshim rshim0
Po zakończeniu instalacji DOCA w BF2 zresetuj BF2.
-
echo "SW_RESET 1" > /dev/rshim0/mis
Prodotti interessati
Datacenter Scalable Solutions, Mellanox Family of AdaptersProprietà dell'articolo
Numero articolo: 000228342
Tipo di articolo: Solution
Ultima modifica: 03 ott 2024
Versione: 2
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.