Passer au contenu principal
  • Passer des commandes rapidement et facilement
  • Afficher les commandes et suivre l’état de votre expédition
  • Profitez de récompenses et de remises réservées aux membres
  • Créez et accédez à une liste de vos produits
  • Gérer vos sites, vos produits et vos contacts au niveau des produits Dell EMC à l’aide de la rubrique Gestion des informations de l’entreprise.

Dépannage des erreurs de mémoire sur les systèmes PowerEdge via des tests d’échange

Résumé: Remplacement des barrettes de mémoire DIMM pour résoudre les erreurs de mémoire sur les serveurs Dell Technologies PowerEdge.

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article


Symptômes

Remarque : cet article ne s’applique pas aux systèmes plus récents dotés d’un processeur Xeon Scalable. Pour les systèmes plus récents, consultez cet article Qu’est-ce que l’autoréparation DDR4 sur les serveurs Dell PowerEdge équipés de processeurs Intel Xeon Scalable.

Dépannage des erreurs de mémoire sur les systèmes PowerEdge par test d’échange

Lorsqu’une erreur sur un seul bit (SBE) et/ou une erreur multibit (MBE) est signalée sur un ou plusieurs emplacements de mémoire DIMM, la cause peut ne pas être liée au DIMM lui-même. Un dépannage simple doit donc être effectué pour déterminer où se trouve exactement la panne. Reportez-vous à la Figure 1 pour obtenir un exemple d’erreurs de mémoire apparaissant dans l’interface iDRAC sur un R715.

Journaux iDRAC 6
Graphique 1 : Erreurs de mémoire affichées dans les journaux iDRAC 6 (en anglais uniquement)

Les problèmes de localisation de mémoire impliquent la permutation des barrettes de mémoire DIMM dans différents sockets, canaux, banques et contrôleurs de mémoire. Pour réduire la panne, vous pouvez échanger les modules DIMM de plusieurs manières. Vous devrez peut-être utiliser plusieurs méthodes pour identifier le module DIMM ou le socket défectueux. Vous trouverez ci-dessous une représentation de ces méthodes. Pour simplifier l’explication, nous supposons que la barrette DIMM défectueuse est A1 ou l’un des ensembles marqués en bleu sur les images.

Remarque : Pour en savoir plus sur la mémoire de vos systèmes, consultez nos articles dédiés à la mémoire.


L’échange des modules DIMM en groupes (par canal ou par banque) plutôt qu’individuellement est la meilleure méthode pour identifier le ou les modules DIMM défectueux.
Une fois qu’un groupe de DIMM a été identifié comme contenant le ou les DIMM défaillants, il est possible de déplacer des DIMM individuelles pour identifier les DIMM défaillants.


Méthode 1 :

Échange du module DIMM A1 (marqué en bleu) avec le module DIMM A9 (marqué en rouge) pour essayer le module DIMM dans un canal de mémoire et une banque différents

DIMM A1 à A9
Figure 2 : Échange du module DIMM A1 avec le module DIMM A9
 

Méthode 2 :

Le remplacement du module DIMM A1 (marqué en bleu) par le module DIMM B1 (marqué en rouge) place le module DIMM sur un tout autre contrôleur de mémoire (CPU).

DIMM A1 à B1
Graphique 3 : Échange du module DIMM A1 avec le module DIMM B1
 

Méthode 3 :

Le remplacement de l’ensemble de la banque de modules DIMM (A1, A2, A3, marquée en bleu) par une autre (B1, B2, B3, marquée en rouge) permet de tester l’ensemble de la banque de modules DIMM dans une nouvelle banque, sur un nouveau contrôleur de mémoire.

DIMMA 123 à B123
Graphique 4 : Échange des modules DIMM A1, A2, A3 avec des modules DIMM B1, B2, B3
 

Méthode 4

Le remplacement d’un canal entier de modules DIMM (A1, A4, A7, marqué en bleu) par un autre canal (B1, B2, B3, marqué en rouge) permet de tester l’ensemble du canal de modules DIMM dans un nouveau canal et sur un nouveau contrôleur de mémoire.

DIMM A147 à B147
Graphique 5 : Échange des modules DIMM A1, A4, A7 avec des modules DIMM B1, B4, B7
 

Interprétation des résultats après l’échange des modules DIMM

En règle générale, les erreurs de DIMM ont tendance à suivre les DIMM identifiés dans les erreurs. Par exemple, dans le cas d’un SBE qui crée un rapport sur DIMM A1, le remplacement de ce module DIMM par un autre DIMM entraîne l’une des opérations suivantes :

  1. Le message d’erreur n’est plus signalé et le problème est résolu
  •   Cela indique que la réinstallation de la mémoire a résolu le problème.
  1. Le message d’erreur suit le module DIMM (DIMM A1 est échangé avec DIMM B1 et le message d’erreur est désormais signalé pour le module DIMM B1).
  • Cela indique que le module DIMM est probablement défectueux et nécessite un remplacement.
  1. Le message d’erreur suit le socket DIMM (le module DIMM A1 est échangé avec le module DIMM B1 et le message d’erreur sont toujours signalés pour le module DIMM A1).
  • Cela indique que la carte système ou le processeur est probablement défectueux.
  • Le remplacement des processeurs permet de déterminer quel composant doit être remplacé
  • Si le problème provient du processeur (le message d’erreur se déplace après le changement de processeur), remplacez le processeur
  • Si le problème persiste avec le socket DIMM, remplacez la carte système
  1. Le message d’erreur ne suit pas le module DIMM ou le socket (l’erreur est signalée pour un autre module DIMM après le remplacement)
  • Cela indique qu’un ou plusieurs autres modules DIMM sont probablement défectueux.
 
Remarque : Nous vous conseillons également de maintenir vos niveaux de firmware à jour, car cela peut réduire le risque de recevoir des erreurs de mémoire et prolonger la durée de vie des modules DIMM.
Pour plus d’informations, voir l’article de la base de connaissances Dell Dell Repository Manager (DRM).

Cause

Sans objet

Résolution

Sans objet

Propriétés de l’article


Produit concerné

PowerEdge

Dernière date de publication

15 avr. 2024

Version

8

Type d’article

Solution