NVIDIA Mellanox ConnectX NICデバイスのタイムアウトとリセット

Summary: AXおよびACP For Azureローカル ソリューションを実行しているお客様は、NICドライバー25.1.26647を使用してSBE 4.1.2506.nまたは4.1.2507.nをインストールした後、複数のノードでNICリセットが頻繁に発生する可能性があります。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

概要

NVIDIA ConnectX NIC (ネットワーク インターフェイス カード) を搭載したマシンを含む Azure ローカル インスタンスでは、SBE バージョン 4.2.2506.n (AX) または 4.2.2507.n (MC) をインストールした後、警告レベルの NDIS イベント ID 10400 と mlx5 イベント ID 386 が発生する可能性があります。

 

 

次のコマンドを使用すると、これらのイベントのイベント ログを検索できます。

Get-WinEvent -FilterHashtable @{LogName="System";ID=10400,386} -ErrorAction SilentlyContinue | Format-list -Property Id,TimeCreated,ContainerLog,LevelDisplayName,Message

これらのイベントには、ConnectX NIC のリセットが含まれており、ネットワークの中断、Azure ローカル クラスターからのマシンの削除、不定期のバグチェック イベントが発生する可能性があります。この状態はmlx5.sysドライバー バージョン25.1.26647.0と、SBE 4.2.2506.n (AX)または4.2.2507.n (MC)によってインストールされた対応するConnectXファームウェアを使用する特定のワークロードで確認されています。

 

影響を受けるAzureローカル インスタンスの特定

問題のある動作は、次のすべての条件が満たされた場合に発生する可能性があります。

  • マシンは Azure ローカル インスタンスのメンバーです
  • マシンには 1 つ以上の ConnectX NIC がインストールされています
  • Azureローカル インスタンスにSBE 4.2.2506.n (AX)または4.2.2507.n (MC)がインストールされている
  • 実行中のConnectX NICドライバーのバージョンは25.1.26647.0です。

 

インストールされているConnectXファームウェア バージョンの特定

次の手順は、Azureローカル インスタンスの各マシンで実行できます。

  1. iDRAC Webインターフェイスに接続し、[System]ドロップ ダウンと[Inventory]を選択します。
  2. [ファームウェア インベントリー]を展開し、説明に「ConnectX」が機能しているコンポーネントを探します。インストールされているファームウェアのバージョンをメモします。

 

 

インストールされているConnectXドライバーのバージョンを確認する

次の手順は、Azureローカル インスタンスの各マシンで実行できます。

  1. ホスト OS で次のコマンドを実行して、実行中の ConnectX ドライバーのバージョンを特定します。
    Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

ConnectXドライバーおよびファームウェアのバージョン

コンポーネント

影響を受けるバージョン

修復バージョン

修復バージョンのダウンロード

ConnectXドライバー

25.1.26647.0

24.4.26429.0

該当なし(SBEペイロード)

ConnectX-6 LXファームウェア

26.44.10.36

26.41.10.00

午後1時4分

ConnectX-6 DX FW

22.44.10.36

22.41.10.00

2CMVW型

ConnectX-5 EN/EXファームウェア

16.35.40.30

16.35.30.06

XY16R型

ConnectX-4 LX

14.32.21.02

14.32.20.04

XGP2Xの

 

 

Cause

この状態は、ドライバー バージョン25.1.26647.0と、SBE 4.2.2506.n (AX)または4.2.2507.n (MC)によってインストールされた対応するConnectXファームウェアmlx5.sysを搭載した特定のワークロードのDell AXおよびMC Azureローカル ソリューションで発生しています。 

Resolution

修復の実行

ConnectX NICファームウェアのダウングレード SBE 4.2.2509.n (AX)をインストールする前に

影響を受けるAzureローカル インスタンス内の各マシンで次の手順を実行します。

  1. iDRAC Webインターフェイスに接続し、[Maintenance]ドロップ ダウンを選択して、[System Update]を選択します。
  2. [Choose File]ボタンをクリックして、お使いのマシンのConnectX NIC用にインストールするファームウェア ファイルの実行可能ファイルを選択します。[開く]ボタンをクリックして選択を完了します。
  3. [Upload]ボタンをクリックして、アップロード プロセスを開始します。
  4. アップロード プロセスが完了したら、アップロードされたファイルの横にあるプラス記号をクリックして、このファームウェア ファイルが適用されるコンポーネントを表示します。現在インストールされているファームウェアのバージョンと使用可能なファームウェアのバージョンが表示されます。使用可能なファームウェア バージョンは、インストールされるバージョンです。
     
  5. インストールするファームウェア ファイルの横にあるチェック ボックスをクリックし、インストールを選択します。このアクションにより、ConnectX NICファームウェアのアップグレードがステージングされます。ファームウェアのアップグレードは、後の手順でホストOSが再起動されたときに完了します。
  6. フォーメーション・インストール・ジョブがジョブ・キューに追加されます。Job Queueボタンをクリックして、ジョブ キュー内のジョブを表示します。
  7. ジョブの進行状況が表示されます。
  8. ジョブのステータスが100%完了と表示されるまで待ちます。示された[Server Reboot Pending]ステータスをメモします。
  9. [Lifecycle Log]をクリックして、ファームウェア アップデートが有効になるのはサーバーの再起動後です。サーバーは、後の手順でSBEインストールの一環として自動的に再起動されます。

 

SBE 4.2.2509.nのインストール

標準のSBEインストール プロセスを使用して、SBE 4.2.2509.nをインストールします。SBE 4.2.2509.nをインストールすると、ステージングされたConnectXファームウェアのインストールを起動し、SBE 4.2.2509.nドライバーとファームウェア ペイロードをインストールします。SBE 4.2.2509.nのインストールの一環として、mlx5ドライバー バージョン24.4.26429.0もインストールされます。

 

正常な修復の確認

SBE 4.2.2509.nが正常にインストールされた後、ConnectXドライバーとファームウェアのバージョンを確認します。

インストールされているConnectXファームウェア バージョンの確認

次の手順は、Azureローカル インスタンスの各マシンで実行できます。

  1. iDRAC Webインターフェイスに接続し、[System]ドロップ ダウンと[Inventory]を選択します。
  2. [ファームウェア インベントリー]を展開し、説明に「ConnectX」が機能しているコンポーネントを探します。インストールされているファームウェアのバージョンをメモします。

インストールされているConnectXドライバーのバージョンを確認する

次の手順は、Azureローカル インスタンスの各マシンで実行できます。

  1. ホスト OS で次のコマンドを実行して、実行中の ConnectX ドライバーのバージョンを特定します。
    Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

 

 

メモ: MCノードの場合は、このKBの方法を使用して、次のApex Cloud Platformソフトウェア アップデートまでNVIDIAドライバーとファームウェアを手動でダウングレードしてください。 

 

メモ: すでにSBE 4.2.2509.nを適用しているが、Mellanoxファームウェアをダウングレードしていない場合は、次の手順に従ってファームウェアをドライバーと同じレベルにダウングレードしてください。 

 

  1.       ノードを一時停止してドレインします。
  2.       C言語でBitLockerを一時停止する:  -> 
    Suspend-BitLocker -MountPoint "C:" -RebootCount 0
  3.       「修復の実装」セクションの手順に従って、NICモデルに応じて適切なDUPを起動してファームウェアのダウングレードを実行し、システムを再起動します。
  4.      iDRACで、ファームウェアのダウングレードが成功したことを確認します。
  5.      Mellanox NICの適切な接続を確認し、BitLockerを再開します。  
    Resume-BitLocker -MountPoint "C:"
  6.      ノードをメンテナンス モードから外します。他のノードを一時停止する前に、ストレージ ジョブが完了するまで待ちます。 

 

Affected Products

APEX MC-660, APEX MC-760, ax-650, AX-6515, AX-660, AX-750, AX-7525, AX-760
Article Properties
Article Number: 000376360
Article Type: Solution
Last Modified: 10 Oct 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.