Nvidia Mellanox ConnectX NIC Aygıt zaman aşımı ve sıfırlama
Summary: AX ve ACP Azure Yerel çözümünü çalıştıran Azure Yerel çözümünü çalıştıran müşteriler, NIC sürücüsü 25.1.26647 ile SBE 4.1.2506.n veya 4.1.2507.n yükledikten sonra birden çok düğümde sık NIC sıfırlamalarıyla karşılaşabilir ...
Symptoms
Genel Bakış
NVIDIA ConnectX NIC'ye (Ağ Arabirim Kartı) sahip Makinelere sahip Azure Yerel örnekleri, SBE sürüm 4.2.2506.n (AX) yüklendikten sonra uyarı düzeyi NDIS Olay Kimliği 10400 ve mlx5 olay kimliği 386 ile karşılaşabilir.


Bu olayların olay günlüğünü aramak için aşağıdaki komut kullanılabilir:
Get-WinEvent -FilterHashtable @{LogName="System";ID=10400,386} -ErrorAction SilentlyContinue | Format-list -Property Id,TimeCreated,ContainerLog,LevelDisplayName,Message
Bu olaylar, ağ kesintisine, makinenin Azure Yerel kümesinden çıkarılmasına ve ara sıra hata denetimi olaylarına neden olabilecek ConnectX NIC sıfırlamalarını içerir. Bu durum, 25.1.26647.0 mlx5.sys sürücü sürümüne ve SBE 4.2.2506.n (AX) veya 4.2.2507.n (MC) tarafından yüklenen karşılık gelen ConnectX bellenimine sahip belirli iş yüklerinde gözlemlenmiştir.
Etkilenen Azure Yerel Örneklerini Belirleme
Sorunlu davranış, aşağıdaki koşulların tümü karşılandığında ortaya çıkabilir:
- Makineler bir Azure Yerel örneğinin üyeleridir
- Makinelerde bir veya daha fazla ConnectX NIC takılı olmalıdır
- SBE 4.2.2506.n (AX) veya 4.2.2507.n (MC), Azure Yerel örneğine yüklenir
- Çalışan ConnectX NIC sürücü sürümü 25.1.26647.0'dır
Yüklü ConnectX Bellenim Sürümünü Tanımlama
Aşağıdaki yordam, bir Azure Yerel örneğindeki her makinede gerçekleştirilebilir.
- IDRAC web arayüzüne bağlanın, Sistem açılır menüsünü ve Envanter i seçin.
- Ürün Yazılımı Envanteri'ni genişletin ve açıklamasında ConnectX işi olan bileşenleri arayın. Yüklü ürün yazılımı sürümünü not edin.

Yüklü ConnectX Sürücü Sürümünü Tanımlama
Aşağıdaki yordam, bir Azure Yerel örneğindeki her makinede gerçekleştirilebilir.
- Çalışan ConnectX sürücü sürümünü belirlemek için ana işletim sisteminde aşağıdaki komutu çalıştırın:
Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

ConnectX Sürücü ve Bellenim Sürümleri
|
Bileşen |
Etkilenen Sürüm |
Düzeltme Sürümü |
Düzeltme Sürümü İndirme |
|
ConnectX Sürücüsü |
25.1.26647.0 |
24.4.26429.0 |
N/A (SBE Yükü) |
|
ConnectX-6 LX FW |
26.44.10.36 |
26.41.10.00 |
|
|
ConnectX-6 DX FW |
22.44.10.36 |
22.41.10.00 |
|
|
ConnectX-5 EN/EX FW |
16.35.40.30 |
16.35.30.06 |
|
|
ConnectX-4 LX |
14.32.21.02 |
14.32.20.04 |
Cause
Bu durum, 25.1.26647.0 mlx5.sys sürücü sürümüne ve SBE 4.2.2506.n (AX) veya 4.2.2507.n (MC) tarafından yüklenen ilgili ConnectX bellenimine sahip belirli iş yükleri altında Dell AX ve MC Azure Yerel çözümünde gözlemlenmiştir.
Resolution
Düzeltmenin uygulanması
SBE 4.2.2509.n (AX) yüklemeden önce ConnectX NIC Bellenimini düşürme
Etkilenen Azure Yerel örneğindeki her makinede aşağıdaki yordamı gerçekleştirin.
- iDRAC web arayüzüne bağlanın, Bakım açılır menüsünü seçin ve System Update öğesini seçin.
- Choose File düğmesine tıklayın ve makinenizde ConnectX NIC için kurulacak bellenim dosyası yürütülebilir dosyasını seçin. Seçimi tamamlamak için Aç düğmesine tıklayın.

- Yükleme işlemini başlatmak için Yükle düğmesini tıklayın.

- Yükleme işlemi tamamlandıktan sonra, bu bellenim dosyasının geçerli olduğu bileşenleri görmek için yüklenen dosyanın yanındaki artı işaretine tıklayın. Şu anda yüklü olan bellenim sürümü ve kullanılabilir bellenim sürümü görüntülenecektir. Mevcut bellenim sürümü, yüklenecek olan sürümdür.
- Yüklenecek ürün yazılımı dosyasının yanındaki onay kutusuna tıklayın ve yükle öğesini seçin. Bu eylem, ConnectX NIC bellenim yükseltmesini düzenler; daha sonraki bir adımda ana işletim sistemi yeniden başlatıldığında bellenim yükseltmesi tamamlanır.

- Formasyon yükleme işi iş kuyruğuna eklenir. İş kuyruğundaki işi görüntülemek için İş Kuyruğu düğmesine tıklayın.

- İşin ilerleme durumu görüntülenir.

- İş durumunda %100 tamamlandı olarak görünene kadar bekleyin. Belirtilen Server Reboot Pending durumunu not edin.

- Yaşam Döngüsü Günlüğü'ne tıklayın ve sunucu yeniden başlatıldıktan sonra ürün yazılımı güncellemesinin etkili olacağını tekrar not edin. Sunucu, daha sonraki bir adımda SBE kurulumu kapsamında otomatik olarak yeniden başlatılacaktır.

SBE 4.2.2509.n yi yükleme
Standart SBE takma işlemini kullanarak SBE 4.2.2509.n'yi yükleyin. SBE 4.2.2509.n kurulumu, aşamalı ConnectX belleniminin yüklemesini çağırır, SBE 4.2.2509.n sürücüsünü ve bellenim yükünü yükler. mlx5 sürücü sürümü 24.4.26429.0 da SBE 4.2.2509.n yüklemesinin bir parçası olarak yüklenecektir.
Başarılı Düzeltmeyi Doğrulama
SBE 4.2.2509.n başarıyla yüklendikten sonra ConnectX sürücüsünü ve bellenim sürümünü doğrulayın.
Yüklü ConnectX bellenim sürümünü doğrulayın
Aşağıdaki yordam, bir Azure Yerel örneğindeki her makinede gerçekleştirilebilir.
- IDRAC web arayüzüne bağlanın, Sistem açılır menüsünü ve Envanter i seçin.
- Ürün Yazılımı Envanteri'ni genişletin ve açıklamasında ConnectX işi olan bileşenleri arayın. Yüklü ürün yazılımı sürümünü not edin.

Yüklü ConnectX Sürücü Sürümünü Doğrulama
Aşağıdaki yordam, bir Azure Yerel örneğindeki her makinede gerçekleştirilebilir.
- Çalışan ConnectX sürücü sürümünü belirlemek için ana işletim sisteminde aşağıdaki komutu çalıştırın:
Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

NOT: MC düğümleri için, bir sonraki Apex Cloud Platform yazılım güncellemesine kadar Nvidia Sürücüsünü ve bellenimini manuel olarak düşürmek için lütfen bu KB'deki yöntemleri kullanın.
NOT: SBE 4.2.2509.n sürümünü zaten uyguladıysanız ancak Mellanox bellenimini düşürmediyseniz, bellenimi sürücüyle aynı düzeye düşürmek için lütfen aşağıdaki adımları kullanın.
- Düğümü duraklatın ve boşaltın.
- C'de BitLocker'ı askıya alma: ->
Suspend-BitLocker -MountPoint "C:" -RebootCount 0 - NIC modeline bağlı olarak uygun DUP'yi çağırarak bellenim sürümü düşürme işlemi gerçekleştirmek ve sistemi yeniden başlatmak için "Düzeltme Uygulama" bölümündeki adımları izleyin.
- IDRAC'ta FW sürüm düşürme işleminin başarılı olduğunu doğrulayın.
- Mellanox nic'lerde bağlantının doğru olduğunu doğrulayın ve BitLocker'ı devam ettirin:
Resume-BitLocker -MountPoint "C:" - Düğümü bakım modundan çıkarın. Başka bir düğümü duraklatmadan önce Depolama işlerinin tamamlanmasını bekleyin.