PowerEdge : Erreur du pilote NVIDIA : nvidia-smi a échoué car il n’a pas pu communiquer avec le pilote NVIDIA
Summary: Lors de l’exécution de la commande nvidia-smi, vous pouvez rencontrer une erreur de pilote indiquant que « nvidia-smi a échoué car il n’a pas pu communiquer avec le pilote NVIDIA.
Symptoms
La commande nvidia-smi La commande ne s’exécute pas et renvoie le message d’erreur suivant :
nvidia-smi has failed because it could not communicate with the NVIDIA driver.
Les informations du processeur graphique NVIDIA ne s’affichent pas lors de l’exécution nvidia-smi.
nvidia-smi has failed because it could not communicate with the NVIDIA driver
NVRM: nvidia_ctl_session_announce failed as driver unload is in progress.
Cause
L’erreur "nvidia-smi has failed because it could not communicate with the NVIDIA driver" peut être causée par plusieurs facteurs :
-
Pilote NVIDIA non installé ou corrompu : Le pilote NVIDIA n’est peut-être pas installé sur le système ou l’installation peut être corrompue, ce qui peut entraîner
nvidia-smiL’outil échoue lorsque vous tentez d’interagir avec le processeur graphique. -
Incompatibilité des pilotes : La version du pilote NVIDIA installée peut ne pas être compatible avec le processeur graphique ou le système d’exploitation, ce qui entraîne des problèmes de communication.
-
Module de noyau NVIDIA non chargé : Le module de noyau NVIDIA requis (
nvidia.ko) peuvent ne pas être chargés dans le système, ce qui empêche une communication correcte entre lesnvidia-smiet le processeur graphique. -
Échec de l’initialisation du processeur graphique : Le processeur graphique n’a peut-être pas été initialisé correctement au démarrage ou en raison d’une défaillance matérielle, ce qui signifie que
nvidia-smiImpossible d’établir la communication avec le service informatique. -
Versions de pilotes en conflit : Plusieurs pilotes de processeur graphique en conflit (par exemple, Nouveau pilote open source ou versions de pilote NVIDIA plus anciennes) peuvent être installés, ce qui entraîne l’échec du chargement du pilote NVIDIA approprié par le système.
-
Matériel défectueux : Il peut y avoir un problème matériel avec le processeur graphique lui-même, tel qu’un dysfonctionnement physique, une surchauffe ou une mauvaise connexion, empêchant le système d’y accéder.
-
Licence NVIDIA manquante ou expirée (pour les configurations vGPU) : Dans les environnements virtualisés, une licence NVIDIA vGPU manquante ou expirée peut empêcher le pilote de fonctionner correctement, entraînant des échecs de communication.
-
Mises à jour du système ou modifications du noyau : Des mises à jour récentes du système d’exploitation ou des modifications apportées au noyau peuvent avoir affecté la compatibilité ou le fonctionnement du pilote NVIDIA, provoquant son échec.
Pour résoudre ce problème, vérifiez l’installation du pilote, assurez-vous que le pilote approprié est chargé, et assurez-vous que le matériel et les logiciels sont compatibles.
Resolution
Guide étape par étape pour activer vGPU dans ESXi 7.0 et versions ultérieures :
-
Installez NVIDIA vGPU Manager :
- Téléchargez la dernière version de NVIDIA vGPU Manager for VMware ESXi à partir du site Web
de NVIDIA.
- Utilisez SSH pour accéder à l’hôte ESXi ou au shell ESXi pour installer le package vGPU Manager.
- Téléchargez la dernière version de NVIDIA vGPU Manager for VMware ESXi à partir du site Web
-
Installez les pilotes NVIDIA vGPU sur les machines virtuelles (VM) :
- Pour chaque machine virtuelle utilisant vGPU, installez le pilote de processeur graphique NVIDIA approprié dans le système d’exploitation invité (par exemple, Windows, Linux).
- Téléchargez les pilotes du système d’exploitation spécifique à partir du site Web de NVIDIA.
- Installez les pilotes à l’intérieur de la machine virtuelle comme vous le feriez sur une machine physique.
-
Redémarrez l’hôte ESXi :
- Après avoir installé NVIDIA vGPU Manager, redémarrez l’hôte ESXi pour appliquer les modifications.
-
Vérifiez si le pilote NVIDIA est chargé :
- Exécutez la commande :
esxcli system module list | grep nvidia
- Ce contrôle vérifie si le module de noyau NVIDIA est chargé.
- Exécutez la commande :
-
Chargez manuellement le pilote NVIDIA (s’il n’est pas chargé) :
- Si le module NVIDIA n’est pas chargé, vous pouvez le charger manuellement en exécutant la commande :
esxcli system module load --module=nvidia
- Si le module NVIDIA n’est pas chargé, vous pouvez le charger manuellement en exécutant la commande :
-
Activez la virtualisation matérielle (si elle n’est pas activée) :
- Connectez-vous à l’hôte ESXi via le client hôte ESXi ou le client vSphere.
- Vérifiez qu’Intel VT-x ou AMD-V est activé dans le BIOS/UEFI du serveur physique. Ces options sont requises pour la virtualisation.
-
Vérifiez si le processeur graphique NVIDIA est détecté :
- Exécutez la commande :
lspci | grep -i nvidia
- Ce contrôle vérifie si le processeur graphique NVIDIA est détecté par ESXi.
- Exécutez la commande :
-
Recherchez des erreurs dans les journaux système :
- Utilisez la commande pour rechercher des messages d’erreur spécifiques liés au pilote NVIDIA :
tail -f /var/log/vmkernel.log
- Utilisez la commande pour rechercher des messages d’erreur spécifiques liés au pilote NVIDIA :
-
Vérifiez les journaux spécifiques à NVIDIA :
- Consultez les journaux spécifiques à NVIDIA disponibles à l’adresse suivante :
/var/log/nvidia-installer.log
- Consultez les journaux spécifiques à NVIDIA disponibles à l’adresse suivante :
-
Configurez vGPU dans vSphere :
- Ouvrez vSphere Client et accédez à votre hôte ESXi.
- Cliquez avec le bouton droit de la souris sur la machine virtuelle qui utilise vGPU, puis sélectionnez Edit Settings.
- Dans l’onglet VM Hardware , cliquez sur Add New Device et sélectionnez PCI Device.
- Choisissez le processeur graphique NVIDIA (vGPU) que vous souhaitez attribuer à la machine virtuelle.
- Sélectionnez le profil vGPU souhaité (par exemple, GRID, vComputeServer, etc.) en fonction des ressources de processeur graphique et des licences disponibles.
-
Attribution d’un profil vGPU :
- Lors de la configuration de la machine virtuelle, attribuez un profil vGPU qui détermine la quantité de ressources du processeur graphique physique à allouer à chaque machine virtuelle. Les options de profil dépendent du modèle de processeur graphique.
-
Configurez la licence NVIDIA :
- Assurez-vous que la licence NVIDIA vGPU correcte est installée sur l’hôte ESXi.
- Pour installer ou mettre à jour la licence vGPU, utilisez l’utilitaire de gestion des licences vGPU fourni avec le package NVIDIA vGPU.
- La licence est requise pour que la fonctionnalité vGPU fonctionne correctement, et elle peut être appliquée à l’hôte ESXi via la ligne de commande.
-
Vérifiez que vGPU est activé :
- Après avoir configuré le vGPU, vérifiez qu’il est correctement reconnu dans la machine virtuelle.
- Connectez-vous à la machine virtuelle et exécutez la commande suivante :
nvidia-smi
- Cela doit afficher l’état du processeur graphique virtuel, semblable à la façon dont il apparaîtrait sur une machine physique.
Additional Information
Dell doit suggérer au client d’ouvrir un dossier auprès de NVIDIA pour les problèmes liés au processeur vGPU en envoyant un e-mail à enterprisesupport@nvidia.com OU en soumettant un dossier Web via son portail, ou en le contactant par téléphone.
Portail Web : https://www.nvidia.com/en-us/support/
Support technique par téléphone :