Passer au contenu principal
  • Passer des commandes rapidement et facilement
  • Afficher les commandes et suivre l’état de votre expédition
  • Profitez de récompenses et de remises réservées aux membres
  • Créez et accédez à une liste de vos produits
  • Gérer vos sites, vos produits et vos contacts au niveau des produits Dell EMC à l’aide de la rubrique Gestion des informations de l’entreprise.

Troubleshooting von Speicherfehlern auf PowerEdge-Systemen durch Tauschtests

Résumé: Austauschen von Arbeitsspeicher-DIMMs zur Behebung von Speicherfehlern auf Dell Technologies PowerEdge-Servern.

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article


Symptômes

HINWEIS: Dieser Artikel gilt nicht für neuere Systeme mit skalierbarem Xeon-Prozessor. Informationen zu neueren Systemen finden Sie in diesem Artikel: Was ist die automatische DDR4-Fehlerkorrektur auf Dell PowerEdge-Servern mit skalierbaren Intel Xeon Prozessoren?

Troubleshooting von Speicherfehlern auf PowerEdge-Systemen durch Swap-Tests

Wenn ein Single-Bit-Fehler (SBE) und/oder Multi-Bit-Fehler (MBE) an einem oder mehreren DIMM-Steckplätzen gemeldet wird, liegt die Ursache möglicherweise nicht am DIMM selbst, sodass ein einfaches Troubleshooting durchgeführt werden muss, um festzustellen, wo genau der Fehler liegt. Abbildung 1 zeigt ein Beispiel für Speicherfehler, die in der iDRAC-Schnittstelle auf einem R715 auftreten.

iDRAC 6 Protokolle
Abbildung 1: Speicherfehler, wie in iDRAC 6-Protokollen angezeigt (Nur Englisch)

Die Isolierung von Speicherproblemen bedeutet das Austauschen von Speicher-DIMMs in verschiedene Speichersockel, -kanäle, -bänke und -controller. Es gibt mehrere Möglichkeiten, die DIMMs auszutauschen, um den Fehler einzugrenzen. Möglicherweise müssen Sie mehr als eine dieser Methoden verwenden, um das fehlerhafte DIMM oder den fehlerhaften Sockel zu ermitteln. Nachfolgend finden Sie eine Darstellung dieser Methoden. Um die Erklärung einfach zu machen, gehen wir davon aus, dass es sich bei dem fehlerhaften DIMM um A1 oder eines der in den Abbildungen blau markierten Sets handelt.

Das Austauschen von DIMMs in Gruppen (nach Kanal oder Bank) statt einzeln ist die beste Methode, um die fehlerhaften DIMMs oder DIMMs zu identifizieren.
Sobald eine Gruppe von DIMMs identifiziert wurde, die das fehlerhafte DIMM oder die fehlerhaften DIMMs enthält, kann durch das Verschieben einzelner DIMMs ermittelt werden, welche DIMMs ausgefallen sind.


Methode 1:

Tauschen Sie DIMM A1 (blau markiert) durch DIMM A9 (rot markiert) aus, um das DIMM in einem anderen Speicherkanal und einer anderen Bank zu testen

DIMM A1 bis A9
Abbildung 2: Austauschen von DIMM A1 durch DIMM A9
 

Methode 2:

Durch den Austausch von DIMM A1 (blau markiert) gegen DIMM B1 (rot markiert) wird das DIMM auf einem völlig anderen Speichercontroller (CPU) eingesetzt.

DIMM A1 zu B1
Abbildung 3: Austauschen von DIMM A1 durch DIMM B1
 

Methode 3:

Durch den Austausch der gesamten DIMM-Bank (A1, A2, A3 - blau markiert) gegen eine andere Bank (B1, B2, B3 - rot markiert) wird die gesamte Bank von DIMMs in einer neuen Bank auf einem neuen Speicher-Controller getestet.

DIMMA 123 zu B123
Abbildung 4: Austauschen der DIMMs A1, A2, A3 mit DIMMs B1, B2, B3
 

Methode 4

Tauschen Sie einen ganzen DIMM-Kanal (A1, A4, A7 - blau markiert) gegen einen anderen Kanal (B1, B2, B3 - rot markiert) aus und testen Sie den gesamten Kanal der DIMMs in einem neuen Kanal und auf einem neuen Speicher-Controller.

DIMM A147 auf B147
Abbildung 5: Austauschen der DIMMs A1, A4, A7 mit DIMMs B1, B4, B7
 

Interpretieren der Ergebnisse nach dem Austauschen von DIMMs

Im Allgemeinen folgen DIMM-Fehler in der Regel den in den Fehlern identifizierten DIMMs. Wenn beispielsweise ein SBE auf DIMM A1 gemeldet wird, führt der Austausch dieses DIMM gegen ein anderes DIMM zu einem der folgenden Ergebnisse:

  1. Die Fehlermeldung wird nicht mehr gemeldet und das Problem ist behoben
  •   Dies weist darauf hin, dass das Problem durch erneutes Einsetzen des Arbeitsspeichers behoben wurde.
  1. Die Fehlermeldung folgt dem DIMM (DIMM A1 wird durch DIMM B1 getauscht und Fehlermeldungen werden jetzt für DIMM B1 gemeldet)
  • Dies weist darauf hin, dass das DIMM höchstwahrscheinlich ausgefallen ist und ersetzt werden muss.
  1. Die Fehlermeldung folgt dem DIMM-Sockel (DIMM A1 wird durch DIMM B1 getauscht und Fehlermeldungen werden weiterhin für DIMM A1 gemeldet).
  • Dies weist darauf hin, dass die Systemplatine oder CPU höchstwahrscheinlich ausgefallen ist.
  • Durch den CPU-Austausch wird bestätigt, welche Komponente ausgetauscht werden muss.
  • Wenn das Problem der CPU folgt (die Fehlermeldung wird nach dem Austausch der CPUs verschoben), ersetzen Sie die CPU.
  • Wenn das Problem weiterhin beim DIMM-Sockel besteht, tauschen Sie die Systemplatine aus
  1. Die Fehlermeldung gilt nicht für das DIMM oder den Sockel (der Fehler wird nach dem Tausch für ein anderes DIMM gemeldet)
  • Dies weist darauf hin, dass ein oder mehrere andere DIMMs höchstwahrscheinlich fehlerhaft sind.
 
HINWEIS: Wir empfehlen Ihnen, auch Ihre Firmware auf dem neuesten Stand zu halten, da dies das Risiko von Speicherfehlern verringern und die Lebensdauer der DIMMs verlängern kann.
Weitere Informationen finden Sie im Dell Wissensdatenbank-Artikel Dell Repository Manager (DRM).

Cause

Nicht zutreffend

Résolution

Nicht zutreffend

Propriétés de l’article


Produit concerné

PowerEdge

Dernière date de publication

15 avr. 2024

Version

8

Type d’article

Solution