Délai d’expiration et réinitialisation de l’appareil de la carte réseau NVIDIA Mellanox ConnectX
Summary: AX et ACP Pour Azure, les clients qui exécutent la solution Azure Local peuvent rencontrer des réinitialisations fréquentes de la carte NIC sur plusieurs nœuds après l’installation de SBE 4.1.2506.n ou 4.1.2507.n, avec le pilote de carte NIC 25.1.26647 ...
Symptoms
Présentation
Les instances Azure Local dotées de machines équipées de la carte d’interface réseau (NIC) NVIDIA ConnectX peuvent rencontrer l’ID d’événement NDIS 10400 et l’ID d’événement mlx5 386 de niveau d’avertissement après l’installation de SBE version 4.2.2506.n (AX) ou 4.2.2507.n (MC).


La commande suivante peut être utilisée pour rechercher ces événements dans le journal des événements :
Get-WinEvent -FilterHashtable @{LogName="System";ID=10400,386} -ErrorAction SilentlyContinue | Format-list -Property Id,TimeCreated,ContainerLog,LevelDisplayName,Message
Ces événements impliquent les réinitialisations de la carte NIC ConnectX, ce qui peut entraîner une interruption du réseau, l’éviction de la machine du cluster Azure Local et des événements de vérification des bogues occasionnels. Cette condition a été observée dans certaines charges applicatives avec mlx5.sys pilote version 25.1.26647.0 et le firmware ConnectX correspondant installé par SBE 4.2.2506.n (AX) ou 4.2.2507.n (MC).
Identification des instances locales Azure affectées
Le comportement problématique peut se produire lorsque toutes les conditions suivantes sont remplies :
- Les machines sont membres d’une instance Azure Local
- Une ou plusieurs cartes NIC ConnectX sont installées sur les machines
- SBE 4.2.2506.n (AX) ou 4.2.2507.n (MC) est installé sur l’instance locale Azure
- La version du pilote de la carte NIC ConnectX en cours d’exécution est 25.1.26647.0
Identification de la version du firmware ConnectX installée
La procédure suivante peut être effectuée sur chaque machine d’une instance Azure Local.
- Connectez-vous à l’interface Web iDRAC, sélectionnez Liste déroulante Système et Inventaire.
- Développez Inventaire du firmware et recherchez les composants correspondant à ConnectX dans la description. Notez la version du firmware installée.

Identification de la version du pilote ConnectX installé
La procédure suivante peut être effectuée sur chaque machine d’une instance Azure Local.
- Exécutez la commande suivante dans le système d’exploitation hôte pour identifier la version du pilote ConnectX en cours d’exécution :
Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

Versions du pilote et du firmware ConnectX
|
Composant |
Version concernée |
Version de la mesure corrective |
Téléchargement de la version corrective |
|
Pilote ConnectX |
25.1.26647.0 |
24.4.26429.0 |
N/A (SBE Payload) |
|
Firmware ConnectX-6 LX |
26.44.10.36 |
26.41.10.00 |
|
|
Firmware ConnectX-6 DX |
22.44.10.36 |
22.41.10.00 |
|
|
ConnectX-5 EN/EX FW |
16.35.40.30 |
16.35.30.06 |
|
|
ConnectX-4 LX |
14.32.21.02 |
14.32.20.04 |
Cause
Cette condition a été observée sur la solution Dell AX et MC Azure Local sous certaines charges applicatives avec mlx5.sys pilote version 25.1.26647.0 et le firmware ConnectX correspondant installé par SBE 4.2.2506.n (AX) ou 4.2.2507.n (MC).
Resolution
Mise en œuvre de mesures correctives
Rétrogradation du firmware de la carte NIC ConnectX avant d’installer SBE 4.2.2509.n (AX)
Effectuez la procédure suivante sur chaque machine de l’instance Azure Local concernée.
- Connectez-vous à l’interface Web iDRAC, sélectionnez le menu déroulant Maintenance, puis System Update.
- Cliquez sur le bouton Choisir un fichier et sélectionnez le fichier exécutable du firmware à installer pour la carte réseau ConnectX sur votre machine. Cliquez sur le bouton Ouvrir pour terminer la sélection.

- Cliquez sur le bouton Télécharger pour lancer le processus de téléchargement.

- Une fois le processus de téléchargement terminé, cliquez sur le signe plus en regard du fichier téléchargé pour afficher les composants auxquels ce fichier de firmware s’applique. La version du firmware actuellement installée et la version disponible du firmware s’affichent. La version disponible du firmware est la version qui sera installée.
- Cochez la case en regard du fichier du firmware à installer, puis sélectionnez Installer. Cette action prépare la mise à niveau du firmware de la carte NIC ConnectX. La mise à niveau du firmware sera terminée lorsque le système d’exploitation hôte sera redémarré lors d’une étape ultérieure.

- La tâche d’installation de la formation sera ajoutée à la file d’attente des tâches. Cliquez sur le bouton File d’attente des tâches pour afficher la tâche dans la file d’attente des tâches.

- La progression de la tâche s’affiche.

- Patientez jusqu’à ce que l’état de la tâche indique 100 % d’achèvement. Notez l’état en attente de redémarrage du serveur indiqué.

- Cliquez sur le journal Lifecycle et notez à nouveau que la mise à jour du firmware prendra effet après le redémarrage du serveur. Le serveur sera redémarré automatiquement dans le cadre de l’installation de SBE dans une étape ultérieure.

Installation de SBE 4.2.2509.n
Installez SBE 4.2.2509.n à l’aide du processus d’installation standard de SBE. L’installation de SBE 4.2.2509.n installe et appelle l’installation du firmware ConnectX intermédiaire, installe le pilote SBE 4.2.2509.n et la charge utile du firmware. La version 24.4.26429.0 du pilote MLX5 sera également installée dans le cadre de l’installation de SBE 4.2.2509.n.
Vérification de la réussite des mesures correctives
Vérifiez la version du pilote et du firmware ConnectX après l’installation réussie de SBE 4.2.2509.n.
Vérifier la version du firmware ConnectX installée
La procédure suivante peut être effectuée sur chaque machine d’une instance Azure Local.
- Connectez-vous à l’interface Web iDRAC, sélectionnez Liste déroulante Système et Inventaire.
- Développez Inventaire du firmware et recherchez les composants correspondant à ConnectX dans la description. Notez la version du firmware installée.

Vérifier la version du pilote ConnectX installé
La procédure suivante peut être effectuée sur chaque machine d’une instance Azure Local.
- Exécutez la commande suivante dans le système d’exploitation hôte pour identifier la version du pilote ConnectX en cours d’exécution :
Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

Remarque : Pour les nœuds MC, veuillez utiliser les méthodes de cet article de la base de connaissances pour rétrograder manuellement le pilote et le firmware Nvidia jusqu’à la prochaine mise à jour logicielle d’Apex Cloud Platform.
Remarque : Si vous avez déjà appliqué SBE 4.2.2509.n, mais que vous n’avez pas rétrogradé le firmware Mellanox, veuillez suivre les étapes ci-dessous pour rétrograder le firmware au même niveau que le pilote.
- Mettez en pause et déchargez le nœud.
- Suspendez BitLocker dans C : ->
Suspend-BitLocker -MountPoint "C:" -RebootCount 0 - Suivez les étapes de la section « Mise en œuvre de mesures correctives » pour effectuer une rétrogradation du firmware en appelant le DUP approprié en fonction du modèle de carte NIC, puis redémarrez le système.
- Vérifiez dans l’iDRAC que la mise à niveau vers une version antérieure du firmware a réussi.
- Vérifiez la connectivité appropriée dans les cartes réseau Mellanox et redémarrez BitLocker :
Resume-BitLocker -MountPoint "C:" - Retirez le nœud du mode maintenance. Attendez la fin des tâches de stockage avant de suspendre tout autre nœud.