R750 DSS: NVIDIA Mellanox BlueField-2 DPUカードDPN-GRNMC PCIeリンク トレーニング障害
Riepilogo: NVIDIA Mellanox BlueField-2データ処理ユニット(DPU)カードを使用して古いデータ センター オンチップ アーキテクチャ(DOCA)バージョンを実行すると、PowerEdge R750 Datacenter スケーラブル ソリューション(DSS)で障害が発生することがあります。
Questo articolo si applica a
Questo articolo non si applica a
Questo articolo non è legato a un prodotto specifico.
Non tutte le versioni del prodotto sono identificate in questo articolo.
Sintomi
NVIDIA Mellanox MT42822 BlueField-2 100G DPUチャネル カード(DPN# GRNMC)はDSS認定のDPUアダプターであり、DSS/RCIユーザー固有の要件に従ってDSS構成のPowerEdgeサーバーに搭載されている場合があります。
このアダプターは、Dell DSS/RCIエンジニアリング チームによってNVIDIA DOCA 1.5.1以降のバージョンで認定およびサポートされています。
この特定のアダプターでDOCAイメージを1.5.1より前のバージョンに変更すると、サーバーで複数の障害症状が発生する可能性があります。
例:
1.PCIeリンク トレーニング障害イベント UEFI0067がiDRAC/LifeCycleログ:
2に記録されます。ホスト オペレーティング システム(OS)がDPUアダプターの初期化に失敗します。
3.PCIeバスの致命的なエラー イベントがiDRAC/Lifecycleログに記録され、DPUアダプターが取り付けられているスロットを指し示します。

このアダプターは、Dell DSS/RCIエンジニアリング チームによってNVIDIA DOCA 1.5.1以降のバージョンで認定およびサポートされています。
この特定のアダプターでDOCAイメージを1.5.1より前のバージョンに変更すると、サーバーで複数の障害症状が発生する可能性があります。
例:
1.PCIeリンク トレーニング障害イベント UEFI0067がiDRAC/LifeCycleログ:
2に記録されます。ホスト オペレーティング システム(OS)がDPUアダプターの初期化に失敗します。
[ 133.575847] kernel: mlx5_core 0000:ca:00.1: firmware version: 24.35.2000 [ 133.576304] kernel: mlx5_core 0000:ca:00.1: 252.048 Gb/s available PCIe bandwidth (16.0 GT/s PCIe x16 link) [ 153.576974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 100s [ 173.584974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 79s [ 193.592974] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 59s [ 213.600975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 39s [ 233.608975] kernel: mlx5_core 0000:ca:00.1: wait_fw_init:195:(pid 821): Waiting for FW initialization, timeout abort in 19s [ 253.584980] kernel: mlx5_core 0000:ca:00.1: mlx5_function_setup:960:(pid 821): Firmware over 120000 MS in pre-initializing state, aborting [ 253.586029] kernel: mlx5_core 0000:ca:00.1: init_one:1366:(pid 821): mlx5_load_one failed with error code -16 [ 253.587272] kernel: mlx5_core: probe of 0000:ca:00.1 failed with error -16
3.PCIeバスの致命的なエラー イベントがiDRAC/Lifecycleログに記録され、DPUアダプターが取り付けられているスロットを指し示します。

Causa
DSS/RCIエンジニアリングは、Mellanox BlueField-2 DPUチャネル アダプターの2つのモデルを認定しました。
DOCA 1.5.1 LTSリリース以降、DPN#CH5RMとDPN#GRNMCの両方のモデルがサポートされています。
NVIDIA Mellanox では、DOCA パッケージ (LTS) 1.5.7 以降が推奨されています。
- 32G NVIDIA Mellanox BlueField2 DPUカード(DPN#CH5RM、モデル# MBF2H516A-CEEOT)
- 128G NVIDIA Mellanox BlueField2 DPUカード(DPN#GRNMC、モデル# MBF2H516C-CECOT)
DOCA 1.5.1 LTSリリース以降、DPN#CH5RMとDPN#GRNMCの両方のモデルがサポートされています。
NVIDIA Mellanox では、DOCA パッケージ (LTS) 1.5.7 以降が推奨されています。
Risoluzione
Dell PowerEdgeサーバーでDSS認定NVIDIA Mellanox BlueField2 DPUアダプター(DPN#GRNMC)で前述の障害症状が発生した場合は、DOCA 1.5.1 LTS以降のバージョンが正しくインストールされていることを確認してください。
この128G DPUアダプターでDOCAイメージがサポートされていない古いバージョンに更新された場合は、次の手順を使用してDPUをリカバリーします。
この128G DPUアダプターでDOCAイメージがサポートされていない古いバージョンに更新された場合は、次の手順を使用してDPUをリカバリーします。
https://developer.nvidia.com/networking/doca
例にあるDOCAホスト ドライバーをインストールします。Ubuntu 20.04ホストOSの場合
- wget https://content.mellanox.com/DOCA/DOCA_v2.7.0/host/doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb
-
dpkg -i doca-host_2.7.0-204000-24.04-ubuntu2004_amd64.deb apt-get update apt install doca-all
最新のBF2 DOCAパッケージをダウンロードしてインストールします。
- wget https://content.mellanox.com/BlueField/BFBs/Ubuntu22.04/bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb
-
bfb-install --bfb bf-bundle-2.7.0-33_24.04_ubuntu-22.04_prod.bfb --rshim rshim0
BF2へのDOCAのインストールが完了したら、BF2をリセットします。
-
echo "SW_RESET 1" > /dev/rshim0/mis
Prodotti interessati
Datacenter Scalable Solutions, Mellanox Family of AdaptersProprietà dell'articolo
Numero articolo: 000228342
Tipo di articolo: Solution
Ultima modifica: 03 ott 2024
Versione: 2
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.