PowerEdge : Dépannage des problèmes de détection et de limitation thermique du processeur graphique
Sommaire: Cet article guide les utilisateurs dans le diagnostic et la résolution des problèmes de limitation et de détection thermiques du processeur graphique sur les serveurs Dell PowerEdge. Il couvre la vérification de la température et de l’état de régulation du processeur graphique, l’examen des journaux système, l’amélioration du refroidissement, la vérification de l’installation matérielle, la mise à jour du firmware du BIOS/iDRAC et du processeur graphique, et l’exécution d’utilitaires de diagnostic tels que nvidia-smi et DCGM. ...
Cet article s’applique à
Cet article ne s’applique pas à
Cet article n’est lié à aucun produit spécifique.
Toutes les versions de produits ne sont pas identifiées dans cet article.
Instructions
Préparation
- Accès au système d’exploitation avec des privilèges d’administration.
- Accès à l’iDRAC ou au BIOS pour afficher les journaux et les paramètres du système.
- Installation du pilote NVIDIA/CUDA et de l’utilitaire NVIDIA-SMI
- Accès physique au serveur pour les vérifications du matériel
Exécution de tâches
- Vérifier la température du processeur graphique et l’état de régulation
- Exécutez la commande suivante dans le système d’exploitation pour vérifier les performances du processeur graphique et l’état de régulation :
nvidia-smi -q -d performance
- Si les raisons de régulation s’affichent comme « Non actif », cela signifie que le processeur graphique fonctionne normalement.
- Exécutez la commande suivante dans le système d’exploitation pour vérifier les performances du processeur graphique et l’état de régulation :
- Surveiller la température du système
- Vérifiez le journal des événements système (SEL) dans l’iDRAC.
- Consultez le journal de cycle de vie pour connaître les avertissements de température.
- Vérifiez la température d’entrée du système dans la section Présentation de la température.
- Améliorer les conditions de refroidissement
- Assurez-vous que la température ambiante du datacenter se trouve dans les limites prises en charge.
- Retirez tout blocage de la circulation d’air dans le rack.
- Vérifiez que tous les ventilateurs du système fonctionnent correctement.
- Installez les carénages de circulation d’air appropriés et les kits de refroidissement du processeur graphique, le cas échéant.
- Vérifier l’installation matérielle du processeur graphique
- Vérifiez que le processeur graphique est correctement inséré dans le logement PCIe.
- Vérifiez que les câbles d’alimentation et les connecteurs sont solidement fixés.
- Vérifiez que le modèle de processeur graphique est pris en charge sur la plate-forme du serveur.
- Mettre à jour le firmware du système
- Mettez à jour le BIOS du serveur vers la dernière version.
- Mettez à jour le firmware iDRAC vers la dernière version.
- Mettez à jour les pilotes et le firmware du processeur graphique vers les dernières versions.
- Vérifier la détection du processeur graphique
- Utilisez la commande suivante pour vérifier si le processeur graphique est détecté par le système :
nvidia-smi
- Si le processeur graphique n’est pas détecté, vérifiez les paramètres du BIOS et l’installation matérielle.
- Utilisez la commande suivante pour vérifier si le processeur graphique est détecté par le système :
- Tester le processeur graphique dans un autre logement PCIe
- Mettez le serveur hors tension et débranchez les câbles d’alimentation.
- Retirez le processeur graphique du logement PCIe actuel.
- Installez le processeur graphique dans un autre logement PCIe pris en charge.
- Rebranchez l’alimentation et mettez le système sous tension.
- Vérifier la détection à l’aide de
nvidia-smiou l’inventaire matériel de l’iDRAC. - Si le processeur graphique est détecté dans le nouveau logement, le logement d’origine peut présenter un problème de configuration ou un problème matériel.
- Exécuter le test de diagnostic du processeur graphique
- Outil DCGMi
- Voir l’utilitaire DCGM
- Pour plus d’instructions, consultez PowerEdge : Installation de NVIDIA DataCenter GPU Manager (DCGM) et exécution des diagnostics
- Voir l’utilitaire DCGM
- Journaux NVIDIA SMI
- Exécutez
# nvidia-smipour obtenir un récapitulatif de l’utilisation et de l’état du processeur graphique. - Exécutez
# nvidia-smi -qPour obtenir des informations détaillées sur le processeur graphique. - Exécutez
# nvidia-smi nvlink -spour afficher l’état et les erreurs de NVLink.
- Exécutez
- Sorties au niveau du système d’exploitation
- Exécutez
(remplacez l’ID de périphérique, le cas échéant) pour afficher les détails PCIe du processeur graphique.)# lspci -s 9b: 00.0 -vv
- Exécutez
- Outil DCGMi
Vérification
- La température du processeur graphique reste dans la plage de fonctionnement normale et l’état de l’accélérateur indique « Non actif »
- Le processeur graphique s’affiche dans la sortie de
nvidia-smiet dans l’inventaire matériel de l’iDRAC. - Aucun avertissement lié à la température n’est présent dans le journal des événements système.
Produits touchés
Rack ServersProduits
Tower Servers, XE ServersPropriétés de l’article
Numéro d’article: 000452203
Type d’article: How To
Dernière modification: 05 mai 2026
Version: 1
Obtenez des réponses à vos questions auprès d’autre utilisateurs de Dell
Services de soutien
Vérifiez si votre appareil est couvert par les services de soutien.