Base de connaissances

Serveurs PowerEdge : Informations sur les erreurs de Processeurs et les Techniques de dépannage.


Le processeur est l'élément clé d'un serveur, il s'agit de l'ordonnanceur qui effectue tous les calculs. Il s'occupe également de la gestion des composants tels que les barrettes mémoires ou les emplacements PCI-e. Quand un CPU remonte des messages d'erreurs, cela peut devenir préoccupant.
Toutefois, les défaillances physiques des processeurs sont extrêmement rares. Dans la plupart des remplacements, le processeur, une fois testé individuellement, ne présente aucun défaut. Un CPU qui rentre en erreur est généralement le symptôme d'une surtension électrique, de la défaillance d'un autre composant, ou de problèmes thermiques. Il est essentiel de suivre les étapes de dépannage afin de bien identifier le composant en erreur.

Les informations fournies dans cet article vous aideront à mieux comprendre la source possible du problème. Cliquez sur le titre pour agrandir la section

Avec chaque génération de serveurs, le rôle du processeur a évolué pour améliorer les performances et la stabilité.

Remarque: Les détails sur les processeurs pris en charge par votre serveur sont disponibles sur la page d'information des processeurs.


Génération 11:

La plupart des serveurs de la 11e génération sont équipés de processeurs Intel® Nehalem-EP. Nehalem-EP est le nom de code pour les sockets 1-2, avec un processeur incluant jusqu'à quatre coeurs pour le chipset Intel 5520 (compatible aussi avec le chipset Intel® Xeon® 5500). Nehalem-EP fait partie de la famille de processeurs gravés en 45 nm.

Le principal changement de cette microarchitecture est que le contrôleur mémoire fait maintenant partie du processeur. Cela aura un impact sur les performances du serveur, mais aussi sur les erreurs qui peuvent être considérées comme des erreurs de traitement.

Génération 12:

Pour cette génération de serveurs, lorsqu'ils sont équipés de processeurs Intel, la nouvelle plate-forme est appelée Sandy Bridge EP, en remplacement de la microarchitecture Nehalem. L'intégration des lignes PCI-E dans ce processeur est une nouvelle étape vers une unité de traitement polyvalente.


Génération 13:

La 13e génération de serveurs PowerEdge utilise la famille de produits Intel Haswell EP, offrant une combinaison idéale de performance, d'efficacité de puissance et de coût.

Remarque: Plus d'informations sont disponibles sur le site Web du fabricant www.intel.com. Pour déterminer à quelle génération appartient votre serveur, consultez cet article.

Comme le processeur interagit avec tous les composants dans un serveur, les symptômes et les erreurs qui peuvent se produire sont très variés.


1. No POST : Pas de démarrage
Le serveur ne passe pas la séquence de démarrage. Cela signifie qu'un composant bloque le démarrage du serveur lors des tests automatiques.
Voici les étapes à suivre:
  • Recherchez sur la face avant du serveur un message d'erreur sur l'écran LCD par exemple. Si un message d'erreur est disponible, il fournira des informations précieuses.
    Vous pouvez consulter la page des messages d'erreur de CPU ou taper ce message dans un moteur de recherche pour trouver de plus amples informations.
  • Effectuer un drain électrique du serveur. Pour cela, il faut :
    1. Eteindre le serveur.
    2. Retirer les câbles d'alimentation.
    3. Appuyer sur le bouton d'alimentation pendant 5 secondes pour éliminer l'énergie résiduelle.
    4. Reconnecter l'alimentation.
    5. Allumer le serveur.
  • Si le processeur a récemment été changé, vérifiez qu'il soit bien installé, en effectuant un contrôle visuel à l'intérieur du châssis pour voir si quelque chose a été endommagé.
  • Minimum pour démarrer: Vu qu'un composant pourrait être à l'origine de la situation, enlever tous les composants inutiles pour compléter la phase de démarrage peut aider à identifier celui qui pose problème.
    Habituellement, cela signifie un démarrage avec les composants suivants : la carte mère, 1 processeur, 1 module de mémoire et les risers.
    Vous pouvez contacter le support technique afin d'obtenir la liste de composants nécessaires au démarrage de votre modèle de serveur.
Attention: Si vous voulez enlever ou réinstaller le processeur de votre serveur, vous devez vous assurer que vous utilisez les outils appropriés. Utilisez nos vidéos pour voir les étapes détaillées:
- Archive vidéo des CPU pour serveurs PowerEdge
- Comment éviter les décharges électrostatiques lors des manipulations

2. Problèmes de température :

Les symptômes de problèmes thermiques peuvent être très variés : message d'erreur à propos des ventilateurs ou de la température sur l'écran LCD, serveur qui s'éteint après un lapse de temps, les ventilateurs du système tournent à pleine vitesse tout le temps. Voici quelques messages d'erreurs possibles:

Erreurs sur l'écran LCD Dans le journal d'évènements
E0119 - Temp CPU,
E0119 - Temp PROC,
E1414 - CPU # Thermtrip,
E1119 - Chipset # temp out of range. Check motherboard heatsinks
CPU0001 - CPU has a thermal trip (over-temperature) event
CPU0010 - The CPU is throttled due to thermal or power conditions.

Pour plus d'information sur les messages CPU, vous pouvez consultez la page dédiée aux erreurs CPU.

Voici une liste des principaux points à vérifier en cas de problèmes thermiques :

  • Vérifiez l'écran LCD et ESM.
  • Assurez-vous que la ventilation est optimale.
  • Vérifiez la température ambiante.
  • Vérifiez la vitesse de rotation de ventilateurs, et s'il n'y a pas de problèmes mécaniques.
  • Vérifiez que les caches plastiques soient bien mis en place.
  • Il peut être utile de renouveler la pâte thermique entre le processeur et le radiateur.
  • Si vous avez plusieurs processeurs, testez chaque processeur dans l'emplacement n°1.
Attention: Si vous voulez enlever ou réinstaller le processeur de votre serveur, vous devez vous assurer que vous utilisez les outils appropriés. Utilisez notre archive vidéos des CPU pour voir les étapes détaillées:
- Archive vidéo des CPU pour serveurs PowerEdge
- Comment éviter les décharges électrostatiques lors des manipulations

3. Journal d'erreurs matériel:

La 1ère étape pour résoudre n'importe quel problème est de vérifier les journaux du serveur. Vous pouvez consulter l'article Messages d'erreurs dans le journal d'évènement matériel pour accéder à ces journaux et comprendre comment les interpréter.

Vous pouvez aussi avoir le message CPU IErr (par exemple "E1410 CPU Internal Error ...").
Le CPU est la tête pensante du serveur est lorsqu'il détecte une erreur sur l'un de ses composants (mémoires, bus PCI,...) l'information remonte et ce message est affiché.

Pour plus d'informations sur ce type d'erreur et les étapes de dépannage, vous pouvez lire notre article dédié: Dépannage CPU Internal Error

4. Erreurs dans le système d'exploitation:

Les symptômes possibles pour un problème de CPU sont variés : ralentissement des performances, redémarrages aléatoires, écran bleus/violets.

Voici les éléments clés pour assurer une utilisation optimale du processeur par le système d'exploitation:

  • Le firmware BIOS du serveur et iDRAC doivent être à jour.
    Le BIOS et l'IDRAC ont un rôle primordial dans l'interprétation et la gestion des erreurs. Assurez-vous d'être dans la dernière version. Effectuez un drain électrique après avoir appliqué une mise à jour.
    Article expliquant les différentes méthodes de mise à jour de serveur disponibles : SLN293301.
  • Vérifiez la compatibilité matérielle de votre équipement, surtout si vous avez rajouté des cartes additionnelles.


Plus de contenu sur notre page de Ressources PowerEdge.


Identificateur de l'article : SLN298206

Date de la dernière modification : 06/02/2017 09:04


Évaluer cet article

Précis
Utile
Facile à comprendre
Cet article était-il utile?
Oui Non
Envoyez-nous votre évaluation
Les commentaires ne peuvent pas contenir ces caractères spéciaux : <>()\
Désolés, notre système d’évaluation n’est pas accessible actuellement. Veuillez réessayer plus tard.

Nous vous remercions pour vos commentaires.