NVIDIA Mellanox ConnectX NICデバイスのタイムアウトとリセット
Summary: AXおよびACP For Azureローカル ソリューションを実行しているお客様は、NICドライバー25.1.26647を使用してSBE 4.1.2506.nまたは4.1.2507.nをインストールした後、複数のノードでNICリセットが頻繁に発生する可能性があります。
Symptoms
概要
NVIDIA ConnectX NIC (ネットワーク インターフェイス カード) を搭載したマシンを含む Azure ローカル インスタンスでは、SBE バージョン 4.2.2506.n (AX) または 4.2.2507.n (MC) をインストールした後、警告レベルの NDIS イベント ID 10400 と mlx5 イベント ID 386 が発生する可能性があります。


次のコマンドを使用すると、これらのイベントのイベント ログを検索できます。
Get-WinEvent -FilterHashtable @{LogName="System";ID=10400,386} -ErrorAction SilentlyContinue | Format-list -Property Id,TimeCreated,ContainerLog,LevelDisplayName,Message
これらのイベントには、ConnectX NIC のリセットが含まれており、ネットワークの中断、Azure ローカル クラスターからのマシンの削除、不定期のバグチェック イベントが発生する可能性があります。この状態はmlx5.sysドライバー バージョン25.1.26647.0と、SBE 4.2.2506.n (AX)または4.2.2507.n (MC)によってインストールされた対応するConnectXファームウェアを使用する特定のワークロードで確認されています。
影響を受けるAzureローカル インスタンスの特定
問題のある動作は、次のすべての条件が満たされた場合に発生する可能性があります。
- マシンは Azure ローカル インスタンスのメンバーです
- マシンには 1 つ以上の ConnectX NIC がインストールされています
- Azureローカル インスタンスにSBE 4.2.2506.n (AX)または4.2.2507.n (MC)がインストールされている
- 実行中のConnectX NICドライバーのバージョンは25.1.26647.0です。
インストールされているConnectXファームウェア バージョンの特定
次の手順は、Azureローカル インスタンスの各マシンで実行できます。
- iDRAC Webインターフェイスに接続し、[System]ドロップ ダウンと[Inventory]を選択します。
- [ファームウェア インベントリー]を展開し、説明に「ConnectX」が機能しているコンポーネントを探します。インストールされているファームウェアのバージョンをメモします。

インストールされているConnectXドライバーのバージョンを確認する
次の手順は、Azureローカル インスタンスの各マシンで実行できます。
- ホスト OS で次のコマンドを実行して、実行中の ConnectX ドライバーのバージョンを特定します。
Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

ConnectXドライバーおよびファームウェアのバージョン
|
コンポーネント |
影響を受けるバージョン |
修復バージョン |
修復バージョンのダウンロード |
|
ConnectXドライバー |
25.1.26647.0 |
24.4.26429.0 |
該当なし(SBEペイロード) |
|
ConnectX-6 LXファームウェア |
26.44.10.36 |
26.41.10.00 |
|
|
ConnectX-6 DX FW |
22.44.10.36 |
22.41.10.00 |
|
|
ConnectX-5 EN/EXファームウェア |
16.35.40.30 |
16.35.30.06 |
|
|
ConnectX-4 LX |
14.32.21.02 |
14.32.20.04 |
Cause
この状態は、ドライバー バージョン25.1.26647.0と、SBE 4.2.2506.n (AX)または4.2.2507.n (MC)によってインストールされた対応するConnectXファームウェアmlx5.sysを搭載した特定のワークロードのDell AXおよびMC Azureローカル ソリューションで発生しています。
Resolution
修復の実行
ConnectX NICファームウェアのダウングレード SBE 4.2.2509.n (AX)をインストールする前に
影響を受けるAzureローカル インスタンス内の各マシンで次の手順を実行します。
- iDRAC Webインターフェイスに接続し、[Maintenance]ドロップ ダウンを選択して、[System Update]を選択します。
- [Choose File]ボタンをクリックして、お使いのマシンのConnectX NIC用にインストールするファームウェア ファイルの実行可能ファイルを選択します。[開く]ボタンをクリックして選択を完了します。

- [Upload]ボタンをクリックして、アップロード プロセスを開始します。

- アップロード プロセスが完了したら、アップロードされたファイルの横にあるプラス記号をクリックして、このファームウェア ファイルが適用されるコンポーネントを表示します。現在インストールされているファームウェアのバージョンと使用可能なファームウェアのバージョンが表示されます。使用可能なファームウェア バージョンは、インストールされるバージョンです。
- インストールするファームウェア ファイルの横にあるチェック ボックスをクリックし、インストールを選択します。このアクションにより、ConnectX NICファームウェアのアップグレードがステージングされます。ファームウェアのアップグレードは、後の手順でホストOSが再起動されたときに完了します。

- フォーメーション・インストール・ジョブがジョブ・キューに追加されます。Job Queueボタンをクリックして、ジョブ キュー内のジョブを表示します。

- ジョブの進行状況が表示されます。

- ジョブのステータスが100%完了と表示されるまで待ちます。示された[Server Reboot Pending]ステータスをメモします。

- [Lifecycle Log]をクリックして、ファームウェア アップデートが有効になるのはサーバーの再起動後です。サーバーは、後の手順でSBEインストールの一環として自動的に再起動されます。

SBE 4.2.2509.nのインストール
標準のSBEインストール プロセスを使用して、SBE 4.2.2509.nをインストールします。SBE 4.2.2509.nをインストールすると、ステージングされたConnectXファームウェアのインストールを起動し、SBE 4.2.2509.nドライバーとファームウェア ペイロードをインストールします。SBE 4.2.2509.nのインストールの一環として、mlx5ドライバー バージョン24.4.26429.0もインストールされます。
正常な修復の確認
SBE 4.2.2509.nが正常にインストールされた後、ConnectXドライバーとファームウェアのバージョンを確認します。
インストールされているConnectXファームウェア バージョンの確認
次の手順は、Azureローカル インスタンスの各マシンで実行できます。
- iDRAC Webインターフェイスに接続し、[System]ドロップ ダウンと[Inventory]を選択します。
- [ファームウェア インベントリー]を展開し、説明に「ConnectX」が機能しているコンポーネントを探します。インストールされているファームウェアのバージョンをメモします。

インストールされているConnectXドライバーのバージョンを確認する
次の手順は、Azureローカル インスタンスの各マシンで実行できます。
- ホスト OS で次のコマンドを実行して、実行中の ConnectX ドライバーのバージョンを特定します。
Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

メモ: MCノードの場合は、このKBの方法を使用して、次のApex Cloud Platformソフトウェア アップデートまでNVIDIAドライバーとファームウェアを手動でダウングレードしてください。
メモ: すでにSBE 4.2.2509.nを適用しているが、Mellanoxファームウェアをダウングレードしていない場合は、次の手順に従ってファームウェアをドライバーと同じレベルにダウングレードしてください。
- ノードを一時停止してドレインします。
- C言語でBitLockerを一時停止する: ->
Suspend-BitLocker -MountPoint "C:" -RebootCount 0 - 「修復の実装」セクションの手順に従って、NICモデルに応じて適切なDUPを起動してファームウェアのダウングレードを実行し、システムを再起動します。
- iDRACで、ファームウェアのダウングレードが成功したことを確認します。
- Mellanox NICの適切な接続を確認し、BitLockerを再開します。
Resume-BitLocker -MountPoint "C:" - ノードをメンテナンス モードから外します。他のノードを一時停止する前に、ストレージ ジョブが完了するまで待ちます。