Karta sieciowa NVIDIA Mellanox ConnectX Limit czasu i resetowanie urządzenia

Summary: AX i ACP W przypadku platformy Azure klienci korzystający z lokalnego rozwiązania platformy Azure mogą doświadczać częstych resetów kart sieciowych w wielu węzłach po zainstalowaniu SBE 4.1.2506.n lub 4.1.2507.n ze sterownikiem karty sieciowej 25.1.26647 ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Omówienie

Wystąpienia lokalne platformy Azure z maszynami, które mają kartę sieciową NVIDIA ConnectX (kartę interfejsu sieciowego) mogą napotkać poziom ostrzeżenia NDIS Event ID 10400 i mlx5 event ID 386 po zainstalowaniu SBE w wersji 4.2.2506.n (AX) lub 4.2.2507.n (MC).

 

 

Do wyszukania dziennika tych zdarzeń można użyć następującego polecenia:

Get-WinEvent -FilterHashtable @{LogName="System";ID=10400,386} -ErrorAction SilentlyContinue | Format-list -Property Id,TimeCreated,ContainerLog,LevelDisplayName,Message

Te zdarzenia obejmują resetowanie karty sieciowej ConnectX, co może spowodować zakłócenia sieci, eksmisję maszyny z klastra lokalnego platformy Azure i sporadyczne zdarzenia sprawdzania błędów. Ten stan zaobserwowano mlx5.sys przypadku niektórych obciążeń roboczych ze sterownikiem w wersji 25.1.26647.0 i odpowiednim oprogramowaniem wewnętrznym ConnectX zainstalowanym przez SBE 4.2.2506.n (AX) lub 4.2.2507.n (MC).

 

Identyfikowanie lokalnych wystąpień platformy Azure, których dotyczy problem

Problematyczne zachowanie może wystąpić, gdy spełnione są wszystkie następujące warunki:

  • Maszyny są elementami członkowskimi lokalnego wystąpienia platformy Azure
  • Urządzenia mają zainstalowaną co najmniej jedną kartę sieciową ConnectX
  • SBE 4.2.2506.n (AX) lub 4.2.2507.n (MC) jest zainstalowany w lokalnym wystąpieniu platformy Azure
  • Wersja sterownika karty sieciowej ConnectX to 25.1.26647.0

 

Identyfikacja zainstalowanej wersji oprogramowania wewnętrznego ConnectX

Poniższą procedurę można wykonać na każdej maszynie w wystąpieniu lokalnym platformy Azure.

  1. Połącz się z interfejsem internetowym kontrolera iDRAC, wybierz menu rozwijane System i Inventory.
  2. Rozwiń Inwentarz oprogramowania wewnętrznego i poszukaj elementów z roboczym ConnectX w opisie. Zanotuj zainstalowaną wersję oprogramowania wewnętrznego.

 

 

Ustalanie wersji zainstalowanego sterownika ConnectX

Poniższą procedurę można wykonać na każdej maszynie w wystąpieniu lokalnym platformy Azure.

  1. Uruchom następujące polecenie w systemie operacyjnym hosta, aby zidentyfikować uruchomioną wersję sterownika ConnectX:
    Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

Wersje sterownika i oprogramowania wewnętrznego ConnectX

Komponent

Wersja, której dotyczy problem

Wersja rozwiązania korygowania

Pobieranie wersji korygowania

Sterownik ConnectX

25.1.26647.0

24.4.26429.0

Nie dotyczy (ładunek SBE)

Oprogramowanie wewnętrzne ConnectX-6 LX

26.44.10.36

26.41.10.00

13:4

Oprogramowanie wewnętrzne ConnectX-6 DX

22.44.10.36

22.41.10.00

2CMVW

Oprogramowanie wewnętrzne ConnectX-5 EN/EX

16.35.40.30

16.35.30.06

XY16R

ConnectX-4 LX

14.32.21.02

14.32.20.04

XGP2X

 

 

Cause

Ten stan zaobserwowano w lokalnym rozwiązaniu Dell AX i MC Azure przy niektórych obciążeniach roboczych ze sterownikiem mlx5.sys w wersji 25.1.26647.0 i odpowiednim oprogramowaniem wewnętrznym ConnectX zainstalowanym przez SBE 4.2.2506.n (AX) lub 4.2.2507.n (MC). 

Resolution

Wdrażanie środków zaradczych

Obniżanie wersji oprogramowania wewnętrznego karty sieciowej ConnectX Przed zainstalowaniem SBE 4.2.2509.n (AX)

Wykonaj poniższą procedurę na każdej maszynie w wystąpieniu lokalnym platformy Azure, którego dotyczy problem.

  1. Połącz się z interfejsem sieciowym kontrolera iDRAC, wybierz menu rozwijane Maintenance i wybierz opcję System Update.
  2. Kliknij przycisk Choose File i wybierz plik wykonywalny oprogramowania wewnętrznego, który ma zostać zainstalowany dla karty sieciowej ConnectX w komputerze. Kliknij przycisk Otwórz, aby zakończyć wybieranie.
  3. Kliknij przycisk Prześlij, aby rozpocząć proces przesyłania.
  4. Po zakończeniu procesu przesyłania kliknij znak obok przesłanego pliku, aby zobaczyć komponenty, których dotyczy ten plik oprogramowania wewnętrznego. Zostanie wyświetlona aktualnie zainstalowana wersja oprogramowania wewnętrznego oraz dostępna wersja oprogramowania wewnętrznego. Dostępna wersja oprogramowania wewnętrznego to wersja, która zostanie zainstalowana.
     
  5. Kliknij pole wyboru obok pliku oprogramowania wewnętrznego, który ma zostać zainstalowany, i wybierz opcję Zainstaluj. Ta czynność przeprowadzi aktualizację oprogramowania wewnętrznego karty sieciowej ConnectX; aktualizacja zostanie zakończona po ponownym uruchomieniu systemu operacyjnego hosta w późniejszym kroku.
  6. Zadanie instalacji formacji zostanie dodane do kolejki zadań. Kliknij przycisk Job Queue, aby wyświetlić zadanie w kolejce zadań.
  7. Zostanie wyświetlony postęp zadania.
  8. Poczekaj, aż zadanie zostanie ukończone w 100%. Zanotuj wskazany stan oczekiwania na ponowne uruchomienie serwera.
  9. Kliknij dziennik cyklu eksploatacji i ponownie zapamiętaj, że aktualizacja oprogramowania wewnętrznego zostanie wdrożona po ponownym uruchomieniu serwera. Serwer zostanie automatycznie uruchomiony ponownie w ramach instalacji SBE w późniejszym kroku.

 

Instalowanie SBE 4.2.2509.n

Zainstaluj SBE 4.2.2509.n przy użyciu standardowego procesu instalacji SBE. Instalacja SBE 4.2.2509.n zainstaluje wywołanie instalacji etapowej aktualizacji oprogramowania wewnętrznego ConnectX, zainstaluje sterownik SBE 4.2.2509.n oraz pakiet danych oprogramowania wewnętrznego. Sterownik mlx5 w wersji 24.4.26429.0 zostanie również zainstalowany w ramach instalacji SBE 4.2.2509.n.

 

Weryfikowanie pomyślnego rozwiązywania problemów

Sprawdź wersję sterownika i oprogramowania wewnętrznego ConnectX po pomyślnym zainstalowaniu SBE 4.2.2509.n.

Weryfikacja zainstalowanej wersji oprogramowania wewnętrznego ConnectX

Poniższą procedurę można wykonać na każdej maszynie w wystąpieniu lokalnym platformy Azure.

  1. Połącz się z interfejsem internetowym kontrolera iDRAC, wybierz menu rozwijane System i Inventory.
  2. Rozwiń Inwentarz oprogramowania wewnętrznego i poszukaj elementów z roboczym ConnectX w opisie. Zanotuj zainstalowaną wersję oprogramowania wewnętrznego.

Sprawdzanie wersji zainstalowanego sterownika ConnectX

Poniższą procedurę można wykonać na każdej maszynie w wystąpieniu lokalnym platformy Azure.

  1. Uruchom następujące polecenie w systemie operacyjnym hosta, aby zidentyfikować uruchomioną wersję sterownika ConnectX:
    Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

 

 

UWAGA: W przypadku węzłów MC należy skorzystać z metod opisanych w tym artykule bazy wiedzy, aby ręcznie obniżyć wersję sterownika i oprogramowania wewnętrznego Nvidia do następnej aktualizacji oprogramowania Apex Cloud Platform. 

 

UWAGA: Jeśli zastosowano już SBE 4.2.2509.n, ale nie obniżono wersji oprogramowania wewnętrznego Mellanox, wykonaj poniższe czynności, aby obniżyć wersję oprogramowania wewnętrznego do tego samego poziomu, co sterownik. 

 

  1.       Wstrzymaj i opróżnij węzeł.
  2.       Wstrzymaj funkcję BitLocker w C:  -> 
    Suspend-BitLocker -MountPoint "C:" -RebootCount 0
  3.       Wykonaj czynności opisane w sekcji "Wdrażanie środków zaradczych", aby obniżyć wersję oprogramowania wewnętrznego przez wywołanie odpowiedniego pakietu DUP w zależności od modelu karty sieciowej, a następnie ponownie uruchomić system.
  4.      Sprawdź w kontrolerze iDRAC, czy przywrócenie starszej wersji oprogramowania wewnętrznego powiodło się.
  5.      Sprawdź poprawność połączeń w kartach sieciowych Mellanox i wznów działanie funkcji BitLocker:  
    Resume-BitLocker -MountPoint "C:"
  6.      Wyłącz tryb konserwacji węzła. Przed wstrzymaniem innych węzłów poczekaj na zakończenie zadań pamięci masowej. 

 

Affected Products

APEX MC-660, APEX MC-760, ax-650, AX-6515, AX-660, AX-750, AX-7525, AX-760
Article Properties
Article Number: 000376360
Article Type: Solution
Last Modified: 10 Oct 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.