Remarque : cet article ne s’applique pas aux systèmes plus récents dotés d’un processeur Xeon Scalable. Pour les systèmes plus récents, consultez cet article Qu’est-ce que l’autoréparation DDR4 sur les serveurs Dell PowerEdge équipés de processeurs Intel Xeon Scalable.
Dépannage des erreurs de mémoire sur les systèmes PowerEdge par test d’échange
Lorsqu’une erreur sur un seul bit (SBE) et/ou une erreur multibit (MBE) est signalée sur un ou plusieurs emplacements de mémoire DIMM, la cause peut ne pas être liée au DIMM lui-même. Un dépannage simple doit donc être effectué pour déterminer où se trouve exactement la panne. Reportez-vous à la Figure 1 pour obtenir un exemple d’erreurs de mémoire apparaissant dans l’interface iDRAC sur un R715.
Graphique 1 : Erreurs de mémoire affichées dans les journaux iDRAC 6 (en anglais uniquement)
Les problèmes de localisation de mémoire impliquent la permutation des barrettes de mémoire DIMM dans différents sockets, canaux, banques et contrôleurs de mémoire. Pour réduire la panne, vous pouvez échanger les modules DIMM de plusieurs manières. Vous devrez peut-être utiliser plusieurs méthodes pour identifier le module DIMM ou le socket défectueux. Vous trouverez ci-dessous une représentation de ces méthodes. Pour simplifier l’explication, nous supposons que la barrette DIMM défectueuse est A1 ou l’un des ensembles marqués en bleu sur les images.
L’échange des modules DIMM en groupes (par canal ou par banque) plutôt qu’individuellement est la meilleure méthode pour identifier le ou les modules DIMM défectueux.
Une fois qu’un groupe de DIMM a été identifié comme contenant le ou les DIMM défaillants, il est possible de déplacer des DIMM individuelles pour identifier les DIMM défaillants.
Échange du module DIMM A1 (marqué en bleu) avec le module DIMM A9 (marqué en rouge) pour essayer le module DIMM dans un canal de mémoire et une banque différents
Figure 2 : Échange du module DIMM A1 avec le module DIMM A9
Le remplacement du module DIMM A1 (marqué en bleu) par le module DIMM B1 (marqué en rouge) place le module DIMM sur un tout autre contrôleur de mémoire (CPU).
Graphique 3 : Échange du module DIMM A1 avec le module DIMM B1
Le remplacement de l’ensemble de la banque de modules DIMM (A1, A2, A3, marquée en bleu) par une autre (B1, B2, B3, marquée en rouge) permet de tester l’ensemble de la banque de modules DIMM dans une nouvelle banque, sur un nouveau contrôleur de mémoire.
Graphique 4 : Échange des modules DIMM A1, A2, A3 avec des modules DIMM B1, B2, B3
Le remplacement d’un canal entier de modules DIMM (A1, A4, A7, marqué en bleu) par un autre canal (B1, B2, B3, marqué en rouge) permet de tester l’ensemble du canal de modules DIMM dans un nouveau canal et sur un nouveau contrôleur de mémoire.
Graphique 5 : Échange des modules DIMM A1, A4, A7 avec des modules DIMM B1, B4, B7
En règle générale, les erreurs de DIMM ont tendance à suivre les DIMM identifiés dans les erreurs. Par exemple, dans le cas d’un SBE qui crée un rapport sur DIMM A1, le remplacement de ce module DIMM par un autre DIMM entraîne l’une des opérations suivantes :
Sans objet
Sans objet