R750 DSS: NVIDIA Mellanox BlueField-2 DPU 카드 DPN-GRNMC PCIe 링크 교육 실패
Riepilogo: NVIDIA Mellanox BlueField-2 DPU(Data Processing Unit) 카드로 이전 DOCA(Data Center-on-a-Chip Architecture) 버전을 실행하면 PowerEdge R750 DSS(Datacenter Scalable Solutions)에서 장애가 발생할 수 있습니다.
Questo articolo si applica a
Questo articolo non si applica a
Questo articolo non è legato a un prodotto specifico.
Non tutte le versioni del prodotto sono identificate in questo articolo.
Sintomi
NVIDIA Mellanox MT42822 BlueField-2 100G DPU 채널 카드인 DPN# GRNMC는 DSS/RCI 사용자별 요구 사항에 따라 일부 DSS 구성 PowerEdge 서버가 장착될 수 있는 DSS 인증 DPU 어댑터입니다.
이 어댑터는 Dell DSS/RCI 엔지니어링 팀에서 NVIDIA DOCA 1.5.1 이상 버전에 인증하고 지원합니다.
이 특정 어댑터에서 DOCA 이미지를 1.5.1 이전 버전으로 변경하면 서버에서 여러 오류 증상이 나타날 수 있습니다.
예:
1. PCIe 링크 교육 실패 이벤트 UEFI0067는 iDRAC/수명주기 로그에
기록됩니다.2. 호스트 운영 체제(OS)가 DPU 어댑터를 초기화하지 못합니다.
3. PCIe 버스 치명적인 오류 이벤트는 DPU 어댑터가 설치된 슬롯을 가리키며 iDRAC/수명주기 로그에 기록됩니다.

이 어댑터는 Dell DSS/RCI 엔지니어링 팀에서 NVIDIA DOCA 1.5.1 이상 버전에 인증하고 지원합니다.
이 특정 어댑터에서 DOCA 이미지를 1.5.1 이전 버전으로 변경하면 서버에서 여러 오류 증상이 나타날 수 있습니다.
예:
1. PCIe 링크 교육 실패 이벤트 UEFI0067는 iDRAC/수명주기 로그에
기록됩니다.2. 호스트 운영 체제(OS)가 DPU 어댑터를 초기화하지 못합니다.
[ 133.575847] kernel: mlx5_core 0000:ca:00.1: firmware version: 24.35.2000 [ 133.576304] kernel: mlx5_core 0000:ca:00.1: 252.048 Gb/s available PCIe bandwidth (16.0 GT/s PCIe x16 link) [ 153.576974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 100s [ 173.584974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 79s [ 193.592974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 59s [ 213.600975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 39s [ 233.608975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 19s [ 253.584980] kernel: mlx5_core 0000:ca:00.1: mlx5_function_setup:960:(pid 821): Firmware over 120000 MS in pre-initializing state, aborting [ 253.586029] kernel: mlx5_core 0000:ca:00.1: init_one:1366:(pid 821): mlx5_load_one failed with error code -16 [ 253.587272] kernel: mlx5_core: probe of 0000:ca:00.1 failed with error -16
3. PCIe 버스 치명적인 오류 이벤트는 DPU 어댑터가 설치된 슬롯을 가리키며 iDRAC/수명주기 로그에 기록됩니다.

Causa
DSS/RCI 엔지니어링 팀은 Mellanox BlueField-2 DPU 채널 어댑터의 두 가지 모델을 인증했습니다.
DOCA 1.5.1 LTS 릴리즈부터 DPN#CH5RM과 DPN#GRNMC 모델이 모두 지원됩니다.
NVIDIA Mellanox는 DOCA 패키지(LTS) 1.5.7 이상을 권장합니다.
- 32G NVIDIA Mellanox BlueField2 DPU 카드(DPN#CH5RM, 모델# MBF2H516A-CEEOT)
- 128G NVIDIA Mellanox BlueField2 DPU 카드(DPN#GRNMC, 모델# MBF2H516C-CECOT)
DOCA 1.5.1 LTS 릴리즈부터 DPN#CH5RM과 DPN#GRNMC 모델이 모두 지원됩니다.
NVIDIA Mellanox는 DOCA 패키지(LTS) 1.5.7 이상을 권장합니다.
Risoluzione
DSS 인증 NVIDIA Mellanox BlueField2 DPU 어댑터(DPN#GRNMC)에서 Dell PowerEdge 서버에 언급된 장애 증상이 발생하는 경우 DOCA 1.5.1 LTS 이상이 올바르게 설치되어 있는지 확인하십시오.
DOCA 이미지가 이 128G DPU 어댑터에서 지원되지 않는 이전 버전으로 새로 고쳐진 경우 다음 절차를 사용하여 DPU를 복구합니다.
DOCA 이미지가 이 128G DPU 어댑터에서 지원되지 않는 이전 버전으로 새로 고쳐진 경우 다음 절차를 사용하여 DPU를 복구합니다.
https://developer.nvidia.com/networking/doca
예제에 있는 DOCA 호스트 드라이버 설치: Ubuntu 20.04 호스트 OS의 경우
- wget https://content.mellanox.com/DOCA/DOCA_v2.7.0/host/doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb
-
dpkg -i doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb apt-get update apt install doca-all
최신 BF2 DOCA 패키지를 다운로드하여 설치합니다.
- WGET https://content.mellanox.com/BlueField/BFBs/Ubuntu22.04/bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb
-
bfb-install --bfb bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb --rshim rshim0
BF2에 DOCA 설치가 완료되면 BF2를 재설정합니다.
-
echo "SW_RESET 1" > /dev/rshim0/mis
Prodotti interessati
Datacenter Scalable Solutions, Mellanox Family of AdaptersProprietà dell'articolo
Numero articolo: 000228342
Tipo di articolo: Solution
Ultima modifica: 03 ott 2024
Versione: 2
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.