R750 DSS: NVIDIA Mellanox BlueField-2 DPU Kartı DPN-GRNMC PCIe bağlantı eğitimi hatası

Riepilogo: PowerEdge R750 Datacenter Scalable Solutions (DSS), NVIDIA Mellanox BlueField-2 Veri İşleme Birimi (DPU) Kartı ile eski Yonga Üzerinde Veri Merkezi Mimarisi (DOCA) sürümlerini çalıştırırken arızalarla karşılaşabilir. ...

Questo articolo si applica a Questo articolo non si applica a Questo articolo non è legato a un prodotto specifico. Non tutte le versioni del prodotto sono identificate in questo articolo.

Sintomi

NVIDIA Mellanox MT42822 BlueField-2 100G DPU kanal kartı DPN# GRNMC, DSS/RCI kullanıcıya özel gereksinimlere göre DSS yapılandırılmış PowerEdge sunucularla donatılabilen DSS onaylı bir DPU adaptörüdür.
Bu adaptör, Dell DSS/RCI mühendislik ekibi tarafından NVIDIA DOCA 1.5.1 veya sonraki sürümler tarafından onaylanmıştır ve desteklenir. 
DOCA görüntüsü bu adaptörde 1.5.1'den önceki bir sürüme değiştirilirse sunucuda birden fazla arıza belirtisi gözlemlenebilir.
Örneğin:

1. PCIe bağlantı eğitimi hatası olay UEFI0067, iDRAC/LifeCycle günlüğüne kaydedilir:
PCIe bağlantı eğitimi arızası olayları

2. Ana Bilgisayar İşletim Sistemi (OS), DPU adaptörünü başlatamıyor. 
[  133.575847] kernel: mlx5_core 0000:ca:00.1: firmware version: 24.35.2000
[  133.576304] kernel: mlx5_core 0000:ca:00.1: 252.048 Gb/s available PCIe bandwidth (16.0 GT/s PCIe x16 link)
[  153.576974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 100s
[  173.584974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 79s
[  193.592974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 59s
[  213.600975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 39s
[  233.608975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 19s
[  253.584980] kernel: mlx5_core 0000:ca:00.1: mlx5_function_setup:960:(pid 821): Firmware over 120000 MS in pre-initializing state, aborting
[  253.586029] kernel: mlx5_core 0000:ca:00.1: init_one:1366:(pid 821): mlx5_load_one failed with error code -16
[  253.587272] kernel: mlx5_core: probe of 0000:ca:00.1 failed with error -16

3. iDRAC/Yaşam Döngüsü günlüğüne DPU adaptörünün takılı olduğu yuvayı işaret eden PCIe veri yolu önemli hata olayları kaydedilir.
PCIe veriyolu önemli hata olayları

Causa

DSS/RCI mühendislik ekibi, Mellanox BlueField-2 DPU kanal adaptörünün iki modelini onayladı.
  1. 32G NVIDIA Mellanox BlueField2 DPU kartı (DPN#CH5RM, Model# MBF2H516A-CEEOT) 
  2. 128G NVIDIA Mellanox BlueField2 DPU kartı (DPN#GRNMC, Model# MBF2H516C-CECOT)
Önceki DOCA 1.5.0 LTS sürümünde yalnızca bir model desteklenir. DPN#CH5RM
DOCA 1.5.1 LTS sürümünden itibaren, DPN#CH5RM ve DPN#GRNMC olmak üzere her iki model de desteklenmektedir.
NVIDIA Mellanox, DOCA paketi (LTS) 1.5.7 veya daha yenisini önerir.

Risoluzione

Dell PowerEdge sunucusu, DSS onaylı NVIDIA Mellanox BlueField2 DPU adaptörüyle (DPN#GRNMC) belirtilen arıza belirtilerini yaşıyorsa, DOCA 1.5.1 LTS veya sonraki bir sürümün doğru şekilde yüklendiğinden emin olun.

DOCA görüntüsü bu 128G DPU adaptöründe desteklenmeyen eski bir sürüme yenilenirse DPU'yu kurtarmak için aşağıdaki prosedürü kullanın:

https://developer.nvidia.com/networking/docaBu köprü bağlantı sizi Dell Technologies dışındaki bir web sitesine yönlendirir.
örnekte bulunan DOCA Ana Bilgisayar Sürücülerini yükleme: Ubuntu 20.04 Ana Bilgisayar İşletim Sistemi için

  1. wget https://content.mellanox.com/DOCA/DOCA_v2.7.0/host/doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.debBu köprü bağlantı sizi Dell Technologies dışındaki bir web sitesine yönlendirir.
  2. dpkg -i doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb
    apt-get update
    apt install doca-all

En yeni BF2 DOCA paketini indirin ve yükleyin.

  1. wget https://content.mellanox.com/BlueField/BFBs/Ubuntu22.04/bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfbBu köprü bağlantı sizi Dell Technologies dışındaki bir web sitesine yönlendirir.
  2. bfb-install --bfb bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb --rshim rshim0


BF2'ye DOCA yüklemesi tamamlandıktan sonra BF2'yi sıfırlayın.

  1. echo "SW_RESET 1" > /dev/rshim0/mis

Prodotti interessati

Datacenter Scalable Solutions, Mellanox Family of Adapters
Proprietà dell'articolo
Numero articolo: 000228342
Tipo di articolo: Solution
Ultima modifica: 03 ott 2024
Versione:  2
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.