PowerEdge : Problèmes de régulation thermique du processeur graphique ou de processeur graphique non détecté
Résumé: Cet article fournit des conseils de dépannage pour les problèmes de régulation thermique du processeur graphique et de problème de processeur graphique non détecté sur les serveurs Dell PowerEdge. Ces problèmes peuvent se produire en raison de conditions de température, de problèmes de configuration matérielle ou de paramètres de configuration du système. ...
Symptômes
- Les performances du processeur graphique sont réduites en cas de charge applicative élevée.
- La vitesse d’horloge du processeur graphique baisse automatiquement pour protéger le matériel.
- La température du processeur graphique atteint des valeurs élevées pendant les charges applicatives de stress.
- Le journal des événements système (SEL) affiche des avertissements relatifs à la température d’entrée du système.
- Le processeur graphique n’apparaît pas dans le système d’exploitation ou les outils de gestion.
- Il arrive que la commande
nvidia-smin’affiche aucun périphérique de processeur graphique. - L’iDRAC ou le BIOS ne détecte pas le processeur graphique installé.
Cause
- Température ambiante élevée du datacenter
- Circulation d’air insuffisante ou entrée d’air bloquée dans le rack de serveurs
- Profil de ventilateur ou paramètres de stratégie thermique incorrects
- Processeur graphique mal installé dans le logement PCIe
- Configuration de processeur graphique non prise en charge ou non-correspondance du firmware
- Firmware obsolète du BIOS, de l’iDRAC ou du processeur graphique
- Problèmes d’alimentation ou de connexion de câble pour les modules de processeur graphique
Résolution
1. Vérifiez la température du processeur graphique et l’état de régulation :
Exécutez la commande suivante dans le système d’exploitation pour vérifier les performances du processeur graphique et l’état de régulation des processeurs graphiques NVIDIA :
nvidia-smi -q -d performance
Si les raisons de régulation s’affichent comme « Non actif », cela signifie que le processeur graphique fonctionne normalement.
2. Surveiller la température du système :
- Vérifiez le journal des événements système (SEL) dans l’iDRAC.
- Consultez le journal Lifecycle pour connaître les avertissements de température.
- Vérifiez la température d’entrée du système dans la section Présentation de la température.
3. Amélioration des conditions de refroidissement :
- Assurez-vous que la température ambiante du datacenter se trouve dans les limites prises en charge.
- Retirez les blocages de la circulation d’air dans le rack.
- Vérifiez que tous les ventilateurs du système fonctionnent correctement.
- Utilisez des carénages de circulation d’air et des kits de refroidissement de processeur graphique appropriés.
4. Vérifiez l’installation matérielle du processeur graphique :
- Vérifiez que le processeur graphique est correctement inséré dans le logement PCIe.
- Vérifiez les câbles et connecteurs d’alimentation du processeur graphique.
- Vérifiez que le processeur graphique est pris en charge sur la plate-forme du serveur.
5. Mettre à jour le firmware du système :
- Mettez à jour le BIOS du serveur.
- Mettez à jour le firmware iDRAC.
- Mettez à jour les pilotes et le firmware du processeur graphique.
6. Vérifiez la détection du processeur graphique :
Utilisez la commande suivante pour vérifier si le processeur graphique Nvidia est détecté par le système :
nvidia-smi
Si le processeur graphique n’est pas détecté, vérifiez les paramètres du BIOS et l’installation matérielle.
7. Testez le processeur graphique dans un autre logement PCIe :
Si le processeur graphique n’est pas détecté ou continue de rencontrer des problèmes de performances, essayez de l’installer dans un autre logement PCIe disponible.
- Mettez le serveur hors tension et débranchez les câbles d’alimentation.
- Retirez le processeur graphique du logement PCIe actuel.
- Installez le processeur graphique dans un autre logement PCIe pris en charge.
- Rebranchez l’alimentation et mettez le système sous tension.
- Vérifiez si le processeur graphique est détecté à l’aide de la commande
nvidia-smiou à partir de l’inventaire matériel de l’iDRAC.
Si le processeur graphique est détecté dans un autre logement, le logement PCIe d’origine peut présenter un problème de configuration ou de matériel.
8. Exécutez le test de diagnostic du processeur graphique :
Exécutez l’outil de diagnostic NVIDIA Data Center GPU Manager (DCGM) pour vérifier l’intégrité du processeur graphique Nvidia et détecter d’éventuels problèmes matériels ou thermiques.
- Accédez au système d’exploitation via SSH ou la console.
- Exécutez la commande suivante pour effectuer un test de diagnostic étendu du processeur graphique :
sudo dcgmi diag
Cette commande effectue un test de diagnostic complet qui vérifie la mémoire du processeur graphique, la connectivité PCIe et le comportement thermique. Vérifiez la sortie pour identifier tout problème lié au matériel ou aux performances.