R750 DSS: Karta NVIDIA Mellanox BlueField-2 DPU DPN-GRNMC błąd treningu łącza PCIe

Riepilogo: Skalowalne rozwiązania PowerEdge R750 dla centrów danych (DSS) mogą ulec awarii podczas korzystania ze starszych wersji architektury Data Center-on-a-Chip (DOCA) z kartą NVIDIA Mellanox BlueField-2 Data Processing Unit (DPU). ...

Questo articolo si applica a Questo articolo non si applica a Questo articolo non è legato a un prodotto specifico. Non tutte le versioni del prodotto sono identificate in questo articolo.

Sintomi

Karta kanału NVIDIA Mellanox MT42822 BlueField-2 100G DPU, DPN# GRNMC, to adapter DPU z certyfikatem DSS, który może być wyposażony w niektóre serwery PowerEdge skonfigurowane przez DSS zgodnie z niektórymi wymaganiami użytkownika DSS/RCI.
Ta karta jest zakwalifikowana i obsługiwana przez zespół inżynierów Dell DSS/RCI w wersji NVIDIA DOCA 1.5.1 lub nowszej. 
Jeśli obraz DOCA zostanie zmieniony na wersję wcześniejszą niż 1.5.1 na tej konkretnej karcie, na serwerze można zaobserwować wiele objawów awarii.
Na przykład:

1. Zdarzenie niepowodzenia treningu łącza PCIe UEFI0067 jest rejestrowane w dzienniku iDRAC/cyklu eksploatacji:
Zdarzenia niepowodzenia treningu łącza PCIe

2. System operacyjny hosta (OS) nie może zainicjować adaptera DPU. 
[  133.575847] kernel: mlx5_core 0000:ca:00.1: firmware version: 24.35.2000
[  133.576304] kernel: mlx5_core 0000:ca:00.1: 252.048 Gb/s available PCIe bandwidth (16.0 GT/s PCIe x16 link)
[  153.576974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 100s
[  173.584974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 79s
[  193.592974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 59s
[  213.600975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 39s
[  233.608975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 19s
[  253.584980] kernel: mlx5_core 0000:ca:00.1: mlx5_function_setup:960:(pid 821): Firmware over 120000 MS in pre-initializing state, aborting
[  253.586029] kernel: mlx5_core 0000:ca:00.1: init_one:1366:(pid 821): mlx5_load_one failed with error code -16
[  253.587272] kernel: mlx5_core: probe of 0000:ca:00.1 failed with error -16

3. Zdarzenia błędu krytycznego magistrali PCIe są rejestrowane w dzienniku iDRAC/cyklu eksploatacji, wskazując gniazdo, w którym zainstalowano adapter DPU.
Zdarzenia błędów krytycznych magistrali PCIe

Causa

Inżynierowie DSS/RCI zakwalifikowali dwa modele adaptera kanału Mellanox BlueField-2 DPU.
  1. Karta NVIDIA Mellanox BlueField2 DPU 32G (DPN#CH5RM, Model# MBF2H516A-CEEOT) 
  2. Karta DPU NVIDIA Mellanox BlueField2 128 GB (DPN#GRNMC, model# MBF2H516C-CECOT)
W poprzedniej wersji DOCA 1.5.0 LTS obsługiwany jest tylko jeden model. DPN#CH5RM
Począwszy od wydania DOCA 1.5.1 LTS, obsługiwane są oba modele, DPN#CH5RM i DPN#GRNMC.
NVIDIA Mellanox zaleca pakiet DOCA (LTS) 1.5.7 lub nowszy.

Risoluzione

Jeśli w serwerze Dell PowerEdge wystąpią wymienione objawy awarii z kartą NVIDIA Mellanox BlueField2 DPU (DPN#GRNMC) z kwalifikacją DSS, upewnij się, że poprawnie zainstalowano DOCA 1.5.1 LTS lub nowszą wersję.

Jeśli obraz DOCA zostanie odświeżony do starszej, nieobsługiwanej wersji na tej karcie DPU 128G, wykonaj następującą procedurę, aby odzyskać DPU:

Zainstaluj sterowniki hosta DOCA znalezione na https://developer.nvidia.com/networking/docaKliknięcie tego hiperłącza powoduje wyświetlenie strony spoza witryny Dell Technologies.
przykładzie: System operacyjny hosta Ubuntu 20.04

  1. wget https://content.mellanox.com/DOCA/DOCA_v2.7.0/host/doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.debKliknięcie tego hiperłącza powoduje wyświetlenie strony spoza witryny Dell Technologies.
  2. dpkg -i doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb
    apt-get update
    apt install doca-all

Pobierz i zainstaluj najnowszy pakiet BF2 DOCA.

  1. wget https://content.mellanox.com/BlueField/BFBs/Ubuntu22.04/bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfbKliknięcie tego hiperłącza powoduje wyświetlenie strony spoza witryny Dell Technologies.
  2. bfb-install --bfb bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb --rshim rshim0


Po zakończeniu instalacji DOCA w BF2 zresetuj BF2.

  1. echo "SW_RESET 1" > /dev/rshim0/mis

Prodotti interessati

Datacenter Scalable Solutions, Mellanox Family of Adapters
Proprietà dell'articolo
Numero articolo: 000228342
Tipo di articolo: Solution
Ultima modifica: 03 ott 2024
Versione:  2
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.