Karta sieciowa NVIDIA Mellanox ConnectX Limit czasu i resetowanie urządzenia
Summary: AX i ACP W przypadku platformy Azure klienci korzystający z lokalnego rozwiązania platformy Azure mogą doświadczać częstych resetów kart sieciowych w wielu węzłach po zainstalowaniu SBE 4.1.2506.n lub 4.1.2507.n ze sterownikiem karty sieciowej 25.1.26647 ...
Symptoms
Omówienie
Wystąpienia lokalne platformy Azure z maszynami, które mają kartę sieciową NVIDIA ConnectX (kartę interfejsu sieciowego) mogą napotkać poziom ostrzeżenia NDIS Event ID 10400 i mlx5 event ID 386 po zainstalowaniu SBE w wersji 4.2.2506.n (AX) lub 4.2.2507.n (MC).


Do wyszukania dziennika tych zdarzeń można użyć następującego polecenia:
Get-WinEvent -FilterHashtable @{LogName="System";ID=10400,386} -ErrorAction SilentlyContinue | Format-list -Property Id,TimeCreated,ContainerLog,LevelDisplayName,Message
Te zdarzenia obejmują resetowanie karty sieciowej ConnectX, co może spowodować zakłócenia sieci, eksmisję maszyny z klastra lokalnego platformy Azure i sporadyczne zdarzenia sprawdzania błędów. Ten stan zaobserwowano mlx5.sys przypadku niektórych obciążeń roboczych ze sterownikiem w wersji 25.1.26647.0 i odpowiednim oprogramowaniem wewnętrznym ConnectX zainstalowanym przez SBE 4.2.2506.n (AX) lub 4.2.2507.n (MC).
Identyfikowanie lokalnych wystąpień platformy Azure, których dotyczy problem
Problematyczne zachowanie może wystąpić, gdy spełnione są wszystkie następujące warunki:
- Maszyny są elementami członkowskimi lokalnego wystąpienia platformy Azure
- Urządzenia mają zainstalowaną co najmniej jedną kartę sieciową ConnectX
- SBE 4.2.2506.n (AX) lub 4.2.2507.n (MC) jest zainstalowany w lokalnym wystąpieniu platformy Azure
- Wersja sterownika karty sieciowej ConnectX to 25.1.26647.0
Identyfikacja zainstalowanej wersji oprogramowania wewnętrznego ConnectX
Poniższą procedurę można wykonać na każdej maszynie w wystąpieniu lokalnym platformy Azure.
- Połącz się z interfejsem internetowym kontrolera iDRAC, wybierz menu rozwijane System i Inventory.
- Rozwiń Inwentarz oprogramowania wewnętrznego i poszukaj elementów z roboczym ConnectX w opisie. Zanotuj zainstalowaną wersję oprogramowania wewnętrznego.

Ustalanie wersji zainstalowanego sterownika ConnectX
Poniższą procedurę można wykonać na każdej maszynie w wystąpieniu lokalnym platformy Azure.
- Uruchom następujące polecenie w systemie operacyjnym hosta, aby zidentyfikować uruchomioną wersję sterownika ConnectX:
Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

Wersje sterownika i oprogramowania wewnętrznego ConnectX
|
Komponent |
Wersja, której dotyczy problem |
Wersja rozwiązania korygowania |
Pobieranie wersji korygowania |
|
Sterownik ConnectX |
25.1.26647.0 |
24.4.26429.0 |
Nie dotyczy (ładunek SBE) |
|
Oprogramowanie wewnętrzne ConnectX-6 LX |
26.44.10.36 |
26.41.10.00 |
|
|
Oprogramowanie wewnętrzne ConnectX-6 DX |
22.44.10.36 |
22.41.10.00 |
|
|
Oprogramowanie wewnętrzne ConnectX-5 EN/EX |
16.35.40.30 |
16.35.30.06 |
|
|
ConnectX-4 LX |
14.32.21.02 |
14.32.20.04 |
Cause
Ten stan zaobserwowano w lokalnym rozwiązaniu Dell AX i MC Azure przy niektórych obciążeniach roboczych ze sterownikiem mlx5.sys w wersji 25.1.26647.0 i odpowiednim oprogramowaniem wewnętrznym ConnectX zainstalowanym przez SBE 4.2.2506.n (AX) lub 4.2.2507.n (MC).
Resolution
Wdrażanie środków zaradczych
Obniżanie wersji oprogramowania wewnętrznego karty sieciowej ConnectX Przed zainstalowaniem SBE 4.2.2509.n (AX)
Wykonaj poniższą procedurę na każdej maszynie w wystąpieniu lokalnym platformy Azure, którego dotyczy problem.
- Połącz się z interfejsem sieciowym kontrolera iDRAC, wybierz menu rozwijane Maintenance i wybierz opcję System Update.
- Kliknij przycisk Choose File i wybierz plik wykonywalny oprogramowania wewnętrznego, który ma zostać zainstalowany dla karty sieciowej ConnectX w komputerze. Kliknij przycisk Otwórz, aby zakończyć wybieranie.

- Kliknij przycisk Prześlij, aby rozpocząć proces przesyłania.

- Po zakończeniu procesu przesyłania kliknij znak obok przesłanego pliku, aby zobaczyć komponenty, których dotyczy ten plik oprogramowania wewnętrznego. Zostanie wyświetlona aktualnie zainstalowana wersja oprogramowania wewnętrznego oraz dostępna wersja oprogramowania wewnętrznego. Dostępna wersja oprogramowania wewnętrznego to wersja, która zostanie zainstalowana.
- Kliknij pole wyboru obok pliku oprogramowania wewnętrznego, który ma zostać zainstalowany, i wybierz opcję Zainstaluj. Ta czynność przeprowadzi aktualizację oprogramowania wewnętrznego karty sieciowej ConnectX; aktualizacja zostanie zakończona po ponownym uruchomieniu systemu operacyjnego hosta w późniejszym kroku.

- Zadanie instalacji formacji zostanie dodane do kolejki zadań. Kliknij przycisk Job Queue, aby wyświetlić zadanie w kolejce zadań.

- Zostanie wyświetlony postęp zadania.

- Poczekaj, aż zadanie zostanie ukończone w 100%. Zanotuj wskazany stan oczekiwania na ponowne uruchomienie serwera.

- Kliknij dziennik cyklu eksploatacji i ponownie zapamiętaj, że aktualizacja oprogramowania wewnętrznego zostanie wdrożona po ponownym uruchomieniu serwera. Serwer zostanie automatycznie uruchomiony ponownie w ramach instalacji SBE w późniejszym kroku.

Instalowanie SBE 4.2.2509.n
Zainstaluj SBE 4.2.2509.n przy użyciu standardowego procesu instalacji SBE. Instalacja SBE 4.2.2509.n zainstaluje wywołanie instalacji etapowej aktualizacji oprogramowania wewnętrznego ConnectX, zainstaluje sterownik SBE 4.2.2509.n oraz pakiet danych oprogramowania wewnętrznego. Sterownik mlx5 w wersji 24.4.26429.0 zostanie również zainstalowany w ramach instalacji SBE 4.2.2509.n.
Weryfikowanie pomyślnego rozwiązywania problemów
Sprawdź wersję sterownika i oprogramowania wewnętrznego ConnectX po pomyślnym zainstalowaniu SBE 4.2.2509.n.
Weryfikacja zainstalowanej wersji oprogramowania wewnętrznego ConnectX
Poniższą procedurę można wykonać na każdej maszynie w wystąpieniu lokalnym platformy Azure.
- Połącz się z interfejsem internetowym kontrolera iDRAC, wybierz menu rozwijane System i Inventory.
- Rozwiń Inwentarz oprogramowania wewnętrznego i poszukaj elementów z roboczym ConnectX w opisie. Zanotuj zainstalowaną wersję oprogramowania wewnętrznego.

Sprawdzanie wersji zainstalowanego sterownika ConnectX
Poniższą procedurę można wykonać na każdej maszynie w wystąpieniu lokalnym platformy Azure.
- Uruchom następujące polecenie w systemie operacyjnym hosta, aby zidentyfikować uruchomioną wersję sterownika ConnectX:
Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

UWAGA: W przypadku węzłów MC należy skorzystać z metod opisanych w tym artykule bazy wiedzy, aby ręcznie obniżyć wersję sterownika i oprogramowania wewnętrznego Nvidia do następnej aktualizacji oprogramowania Apex Cloud Platform.
UWAGA: Jeśli zastosowano już SBE 4.2.2509.n, ale nie obniżono wersji oprogramowania wewnętrznego Mellanox, wykonaj poniższe czynności, aby obniżyć wersję oprogramowania wewnętrznego do tego samego poziomu, co sterownik.
- Wstrzymaj i opróżnij węzeł.
- Wstrzymaj funkcję BitLocker w C: ->
Suspend-BitLocker -MountPoint "C:" -RebootCount 0 - Wykonaj czynności opisane w sekcji "Wdrażanie środków zaradczych", aby obniżyć wersję oprogramowania wewnętrznego przez wywołanie odpowiedniego pakietu DUP w zależności od modelu karty sieciowej, a następnie ponownie uruchomić system.
- Sprawdź w kontrolerze iDRAC, czy przywrócenie starszej wersji oprogramowania wewnętrznego powiodło się.
- Sprawdź poprawność połączeń w kartach sieciowych Mellanox i wznów działanie funkcji BitLocker:
Resume-BitLocker -MountPoint "C:" - Wyłącz tryb konserwacji węzła. Przed wstrzymaniem innych węzłów poczekaj na zakończenie zadań pamięci masowej.