Diagnostiquer les erreurs mémoire sur les systèmes PowerEdge par interversion

Diagnostiquer les erreurs mémoire sur les systèmes PowerEdge par interversion


Quand une erreur sur un seul bit (SBE) et / ou sur de multiples bits (MBE) est déclarée sur un ou plusieurs emplacements de mémoire DIMM, la cause pourrait ne pas se limiter à la barrette DIMM elle-même, de sorte que certains tests simples doivent être effectués pour déterminer exactement où est la panne. La figure 1 ci-dessous (en anglais seulement) pour des exemples d'erreurs mémoire apparus dans les journaux de l'iDRAC sur un R715.



Figure 1: Erreurs mémoire comme remontées dans les journaux de l'iDRAC 6.

Isoler des problèmes de mémoire implique l'interversion des DIMM de mémoire entre les différents emplacements mémoire, les canaux, les banques et les contrôleurs. Il y a plusieurs façons d'échanger les modules DIMM pour diagnostiquer la panne. Vous pourriez avoir besoin d'utiliser plus d'une de ces méthodes pour identifier le module DIMM ou l'emplacement défectueux. Ci-dessous vous trouverez une représentation de ces méthodes. Pour rendre les explications plus claires, nous supposerons que le module DIMM défectueux est en A1 ou l'un de l'ensemble marqué en bleu dans les illustrations.

Note : Vous pouvez trouver plus d'informations sur la mémoire de vos systèmes PowerEdge dans nos articles sur la mémoire.


La permutation des modules DIMM en groupe (par canal ou banque) plutôt qu'individuellement est la meilleure méthode pour identifier le module DIMM défectueux.
Une fois qu'un groupe de modules DIMM a été identifié comme contenant le DIMM ou les DIMMs défectueux, déplacer les DIMMs individuellement permet d'identifier les DIMM(s) défectueux.

Note : L'archive vidéo sur le thème la mémoire contient des vidéos montrant comment retirer et installer de la mémoire dans différents serveurs PowerEdge.


Méthode 1: Permutation simple sur 1 seul processeur

Permuter le DIMM A1 (en bleu) avec le DIMM A9 (en rouge) afin de tester le module dans un autre canal ou une autre banque.


Figure 2: Permuter le DIMM A1 avec le DIMM A9.


Méthode 2: Permutation simple sur 2 processeurs

Permuter le DIMM A1 (en bleu) avec le DIMM B1 (en rouge) afin de tester le module sur un autre contrôleur mémoire (Processeur / CPU).


Figure 3: Permuter le DIMM A1 avec le DIMM B1.

Méthode 3: Permutation d'une banque mémoire

Permuter la banque mémoire A1 - A2 - A3 (en bleu) avec la banque mémoire B1 - B2 - B3 (en rouge) testera la banque sur un nouveau contrôleur mémoire (Processeur / CPU).


Figure 4: Permuter les DIMMs A1, A2, A3 et les DIMMs B1, B2, B3


Méthode 4 : Permutation d'un canal mémoire

Permuter le canal mémoire A1 - A4 - A7 (en bleu) avec le canal mémoire B1 - B4 - B7 (en rouge) testera le canal entier sur un nouveau canal et un nouveau contrôleur mémoire (Processeur / CPU).


Figure 5: Permuter les DIMMs A1, A4, A7 et les DIMMs B1, B4, B7


Interpréter les résultats des permutations de DIMMs

En règle générale, les erreurs DIMM ont tendance à suivre les modules DIMM identifiés dans les erreurs. Par exemple avec un rapport SBE sur le DIMM A1, échanger ce DIMM par un module différent peut se traduire par :

  1. Le message d'erreur n'apparait plus et le problème est résolu
  • Cela indique que réinstaller la mémoire a résolu la panne.
  1. Le message d'erreur suit le DIMM (DIMM A1 est permuté avec le DIMM B1 et le message d'erreur est maintenant sur le DIMM B1)
  • Cela indique que ce DIMM est probablement défectueux et doit être remplacé.
  1. Le message d'erreur reste sur l'emplacement du DIMM (DIMM A1 est permuté avec le DIMM B1 et le message d'erreur est reste sur le DIMM A1)
  • Cela indique que soit la carte mère soit le processeur a un problème.
  • Permuter les processeurs permet de confirmer le composant à remplacer
    • Si le message d'erreur suit le processeur (le message d'erreur change après la permutation), remplacer le CPU/processeur.
    • Si le problème reste sur le même emplacement, remplacer la carte mère.
  1. Le message d'erreur ne suit pas le DIMM ou l'emplacement (l'erreur change pour un tout autre DIMM après l'interversion)
  • Cela indique qu'un ou plusieurs autres DIMM(s) posent problème. Les méthodes décrites ci-dessus peuvent être utilisées de nouveau pour déterminer lequel.
Note : Il est également recommandé de mettre à jour les firmware de votre serveur afin de réduire le risque d'erreurs mémoire et prolonger la durée de vie des modules.

PowerEdge Knowledge Resources Plus de contenu avec nos Ressources Techniques PowerEdge
Contactez nos experts! Outils de Support pour les Professionnels
Twitter @DellVousAidePro Dell SupporAssist Dell SupportAssist
(Support automatisé et proactif)
Google + Google+ Dell Professionnels Dell TechDirect Dell TechDirect
(Gestion d'incidents en ligne)
Dell TechCenter Forum d’Aide Dell



Identificateur de l'article : SLN289424

Date de la dernière modification : 23/05/2018 14:00


Évaluer cet article

Précis
Utile
Facile à comprendre
Cet article était-il utile?
Oui Non
Envoyez-nous votre évaluation
Les commentaires ne peuvent pas contenir ces caractères spéciaux : <>()\
Désolés, notre système d’évaluation n’est pas accessible actuellement. Veuillez réessayer plus tard.

Nous vous remercions pour vos commentaires.