Nvidia Mellanox ConnectX NIC Aygıt zaman aşımı ve sıfırlama

Summary: AX ve ACP Azure Yerel çözümünü çalıştıran Azure Yerel çözümünü çalıştıran müşteriler, NIC sürücüsü 25.1.26647 ile SBE 4.1.2506.n veya 4.1.2507.n yükledikten sonra birden çok düğümde sık NIC sıfırlamalarıyla karşılaşabilir ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Genel Bakış

NVIDIA ConnectX NIC'ye (Ağ Arabirim Kartı) sahip Makinelere sahip Azure Yerel örnekleri, SBE sürüm 4.2.2506.n (AX) yüklendikten sonra uyarı düzeyi NDIS Olay Kimliği 10400 ve mlx5 olay kimliği 386 ile karşılaşabilir.

 

 

Bu olayların olay günlüğünü aramak için aşağıdaki komut kullanılabilir:

Get-WinEvent -FilterHashtable @{LogName="System";ID=10400,386} -ErrorAction SilentlyContinue | Format-list -Property Id,TimeCreated,ContainerLog,LevelDisplayName,Message

Bu olaylar, ağ kesintisine, makinenin Azure Yerel kümesinden çıkarılmasına ve ara sıra hata denetimi olaylarına neden olabilecek ConnectX NIC sıfırlamalarını içerir. Bu durum, 25.1.26647.0 mlx5.sys sürücü sürümüne ve SBE 4.2.2506.n (AX) veya 4.2.2507.n (MC) tarafından yüklenen karşılık gelen ConnectX bellenimine sahip belirli iş yüklerinde gözlemlenmiştir.

 

Etkilenen Azure Yerel Örneklerini Belirleme

Sorunlu davranış, aşağıdaki koşulların tümü karşılandığında ortaya çıkabilir:

  • Makineler bir Azure Yerel örneğinin üyeleridir
  • Makinelerde bir veya daha fazla ConnectX NIC takılı olmalıdır
  • SBE 4.2.2506.n (AX) veya 4.2.2507.n (MC), Azure Yerel örneğine yüklenir
  • Çalışan ConnectX NIC sürücü sürümü 25.1.26647.0'dır

 

Yüklü ConnectX Bellenim Sürümünü Tanımlama

Aşağıdaki yordam, bir Azure Yerel örneğindeki her makinede gerçekleştirilebilir.

  1. IDRAC web arayüzüne bağlanın, Sistem açılır menüsünü ve Envanter i seçin.
  2. Ürün Yazılımı Envanteri'ni genişletin ve açıklamasında ConnectX işi olan bileşenleri arayın. Yüklü ürün yazılımı sürümünü not edin.

 

 

Yüklü ConnectX Sürücü Sürümünü Tanımlama

Aşağıdaki yordam, bir Azure Yerel örneğindeki her makinede gerçekleştirilebilir.

  1. Çalışan ConnectX sürücü sürümünü belirlemek için ana işletim sisteminde aşağıdaki komutu çalıştırın:
    Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

ConnectX Sürücü ve Bellenim Sürümleri

Bileşen

Etkilenen Sürüm

Düzeltme Sürümü

Düzeltme Sürümü İndirme

ConnectX Sürücüsü

25.1.26647.0

24.4.26429.0

N/A (SBE Yükü)

ConnectX-6 LX FW

26.44.10.36

26.41.10.00

1H4PM

ConnectX-6 DX FW

22.44.10.36

22.41.10.00

2CMVW

ConnectX-5 EN/EX FW

16.35.40.30

16.35.30.06

XY16R

ConnectX-4 LX

14.32.21.02

14.32.20.04

XGP2X

 

 

Cause

Bu durum, 25.1.26647.0 mlx5.sys sürücü sürümüne ve SBE 4.2.2506.n (AX) veya 4.2.2507.n (MC) tarafından yüklenen ilgili ConnectX bellenimine sahip belirli iş yükleri altında Dell AX ve MC Azure Yerel çözümünde gözlemlenmiştir. 

Resolution

Düzeltmenin uygulanması

SBE 4.2.2509.n (AX) yüklemeden önce ConnectX NIC Bellenimini düşürme

Etkilenen Azure Yerel örneğindeki her makinede aşağıdaki yordamı gerçekleştirin.

  1. iDRAC web arayüzüne bağlanın, Bakım açılır menüsünü seçin ve System Update öğesini seçin.
  2. Choose File düğmesine tıklayın ve makinenizde ConnectX NIC için kurulacak bellenim dosyası yürütülebilir dosyasını seçin. Seçimi tamamlamak için Aç düğmesine tıklayın.
  3. Yükleme işlemini başlatmak için Yükle düğmesini tıklayın.
  4. Yükleme işlemi tamamlandıktan sonra, bu bellenim dosyasının geçerli olduğu bileşenleri görmek için yüklenen dosyanın yanındaki artı işaretine tıklayın. Şu anda yüklü olan bellenim sürümü ve kullanılabilir bellenim sürümü görüntülenecektir. Mevcut bellenim sürümü, yüklenecek olan sürümdür.
     
  5. Yüklenecek ürün yazılımı dosyasının yanındaki onay kutusuna tıklayın ve yükle öğesini seçin. Bu eylem, ConnectX NIC bellenim yükseltmesini düzenler; daha sonraki bir adımda ana işletim sistemi yeniden başlatıldığında bellenim yükseltmesi tamamlanır.
  6. Formasyon yükleme işi iş kuyruğuna eklenir. İş kuyruğundaki işi görüntülemek için İş Kuyruğu düğmesine tıklayın.
  7. İşin ilerleme durumu görüntülenir.
  8. İş durumunda %100 tamamlandı olarak görünene kadar bekleyin. Belirtilen Server Reboot Pending durumunu not edin.
  9. Yaşam Döngüsü Günlüğü'ne tıklayın ve sunucu yeniden başlatıldıktan sonra ürün yazılımı güncellemesinin etkili olacağını tekrar not edin. Sunucu, daha sonraki bir adımda SBE kurulumu kapsamında otomatik olarak yeniden başlatılacaktır.

 

SBE 4.2.2509.n yi yükleme

Standart SBE takma işlemini kullanarak SBE 4.2.2509.n'yi yükleyin. SBE 4.2.2509.n kurulumu, aşamalı ConnectX belleniminin yüklemesini çağırır, SBE 4.2.2509.n sürücüsünü ve bellenim yükünü yükler. mlx5 sürücü sürümü 24.4.26429.0 da SBE 4.2.2509.n yüklemesinin bir parçası olarak yüklenecektir.

 

Başarılı Düzeltmeyi Doğrulama

SBE 4.2.2509.n başarıyla yüklendikten sonra ConnectX sürücüsünü ve bellenim sürümünü doğrulayın.

Yüklü ConnectX bellenim sürümünü doğrulayın

Aşağıdaki yordam, bir Azure Yerel örneğindeki her makinede gerçekleştirilebilir.

  1. IDRAC web arayüzüne bağlanın, Sistem açılır menüsünü ve Envanter i seçin.
  2. Ürün Yazılımı Envanteri'ni genişletin ve açıklamasında ConnectX işi olan bileşenleri arayın. Yüklü ürün yazılımı sürümünü not edin.

Yüklü ConnectX Sürücü Sürümünü Doğrulama

Aşağıdaki yordam, bir Azure Yerel örneğindeki her makinede gerçekleştirilebilir.

  1. Çalışan ConnectX sürücü sürümünü belirlemek için ana işletim sisteminde aşağıdaki komutu çalıştırın:
    Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

 

 

NOT: MC düğümleri için, bir sonraki Apex Cloud Platform yazılım güncellemesine kadar Nvidia Sürücüsünü ve bellenimini manuel olarak düşürmek için lütfen bu KB'deki yöntemleri kullanın. 

 

NOT: SBE 4.2.2509.n sürümünü zaten uyguladıysanız ancak Mellanox bellenimini düşürmediyseniz, bellenimi sürücüyle aynı düzeye düşürmek için lütfen aşağıdaki adımları kullanın. 

 

  1.       Düğümü duraklatın ve boşaltın.
  2.       C'de BitLocker'ı askıya alma:  -> 
    Suspend-BitLocker -MountPoint "C:" -RebootCount 0
  3.       NIC modeline bağlı olarak uygun DUP'yi çağırarak bellenim sürümü düşürme işlemi gerçekleştirmek ve sistemi yeniden başlatmak için "Düzeltme Uygulama" bölümündeki adımları izleyin.
  4.      IDRAC'ta FW sürüm düşürme işleminin başarılı olduğunu doğrulayın.
  5.      Mellanox nic'lerde bağlantının doğru olduğunu doğrulayın ve BitLocker'ı devam ettirin:  
    Resume-BitLocker -MountPoint "C:"
  6.      Düğümü bakım modundan çıkarın. Başka bir düğümü duraklatmadan önce Depolama işlerinin tamamlanmasını bekleyin. 

 

Affected Products

APEX MC-660, APEX MC-760, ax-650, AX-6515, AX-660, AX-750, AX-7525, AX-760
Article Properties
Article Number: 000376360
Article Type: Solution
Last Modified: 10 Oct 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.