Speicher-Kreuztest bei PowerEdge Servern zur Identifizierung von Fehlerquellen

Speicher-Kreuztest bei PowerEdge Servern zur Identifizierung von Fehlerquellen




Wenn ein Single-Bit Error (SBE) und/oder ein Multi-Bit Error (MBE) auf einem oder mehreren DIMMs angezeigt wird, muss das Speichermodul nicht zwingend die Fehlerquelle sein. Eine einfache Fehlersuche hilft bei der Bestimmung der defekten Komponente. Abbildung 1 (nur Englisch) zeigte eine Fehlermeldung, wie sie beispielsweise im Ereignisprotokoll des integrierten Dell Remote Access Controllers (iDRAC) eines PowerEdge R715 angezeigt wird.


Abbildung 1: Speicherfehlermeldung im Log eines iDRAC6

Das Isolieren von Speicherproblemen beinhaltet einen Kreuztest von Speicher-DIMMs an verschiedenen Sockeln, Channeln, Bänken und Controllern. Es gibt mehrere Möglichkeiten, wie Sie die DIMMs tauschen um gezielt die Fehlerquelle zu identifizieren. Möglicherweise müssen Sie mehr als eine dieser Methoden verwenden, um den fehlerhaften DIMM oder Sockel zu lokalisieren. Nachfolgend finden Sie eine Darstellung dieser Methoden. Um die Ausführungen zu erleichtern, gehen wir davon aus das fehlerhafte DIMM ist A1, oder einer aus der in den Abbildungen blau markierten Menge.

Sie finden weitere Informationen über Arbeitsspeicher in unseren Speicher-Artikeln


Das Tauschen von DIMMs in Gruppen (Channel oder Bank) anstatt einzeln ist die beste Methode zu Identifizierung des/der fehlerhaften DIMM/DIMMs
Sobald eine Gruppe von DIMMs identifiziert wurde, welche den oder die fehlerhaften DIMM oder DIMMs enthalten, kann dann die Bewegung einzelner DIMMs verwendet werden, um die Fehlerquelle genau zu identifizieren

Das Speicher Video Archiv enthält Videos über die Entfernung und Installation von Speicher in verschiedenen Servern.


Methode 1:

Tauschen Sie DIMM A1 (blau markiert) mit DIMM A9 (rot markiert), um den DIMM in einem anderen Speicherkanal und einer anderen Bank zu testen


Abbildung 2: Tausch von DIMM A1 mit DIMM A9

Methode 2:

Tauschen Sie DIMM A1 (blau markiert) mit DIMM B1 (marked in red) was den DIMM einem anderen Controller (CPU) zuweist.


Abbildung 3: Tausch von DIMM A1 mit DIMM B1

Methode 3:

Tauschen Sie die DIMMs einer gesammten Bank (A1, A2, A3 - blau markiert) mit denen einer anderen Bank (B1, B2, B3 - rot markiert), um diese an einem anderen Controller (CPU) zu testen.


Abbildung 4: Tauschen der DIMMs A1, A2, A3 mit DIMMs B1, B2, B3

Methode 4:

Tauschen Sie die DIMMs eines ganzen Channels (A1, A4, A7 - blau markiert) mit denen eines anderen Channels (B1, B2, B3 - rot markiert), um die DIMMs eines ganzen Channels in einen anderen Channel und gleichzeitig an einem anderen Controller (CPU) zu testen.


Abbildung 5: Tauschen der DIMMs A1, A4, A7 mit DIMMs B1, B4, B7

Interpretation nach dem Tauschen der DIMMs

Als allgemeine Regel gilt: DIMM Fehler den als fehlerhaft identifizierten DIMMs. Wenn Sie z.B. bei einer SBE-Fehlermeldung auf DIMM A1 diesen DIMM mit einem anderen DIMM tauschen, dann erhalten Sie eines der folgenden Ergebnisse:

  1. Die Fehlermeldung wird nicht mehr angezeigt und das Problem ist gelöst
  • Dies zeigt, dass das erneute Einsetzen des Speichers das Problem behoben hat
  1. Die Fehlermeldung folgt dem DIMM (DIMM A1 wurde mit DIMM B1 getauscht, und die Fehlermeldung wird nun auf DIMM B1 angezeigt)
  • Dies zeigt, dass der DIMM fehlerhaft ist und ersetzt werden sollte
  1. Die Fehlermeldung bleibt auf dem DIMM-Sockel (DIMM A1 wurde mit DIMM B1 getauscht, und die Fehlermeldung zeigt immer noch DIMM A1 an)
  • Dies zeigt, dass entweder das Systemboard oder die CPU defekt ist
  • Ein Tauschen der CPUs untereinander (bei Systemen mit zwei Prozessoren oder 2 gleichen Systemen) bestätigt dann, welche Komponente defekt ist
  • Folgt der Fehler der CPU (Fehlermeldung nach Tausch der CPU), dann sollte die CPU ersetzt werden
  • Bleibt der Fehler weiterhin auf dem DIMM-Sockel, sollte das Systemboard getauscht werden
  1. Die Fehlermeldung folgt nicht dem DIMM und bleibt nicht auf dem Sockel (Fehler wird auf einem ganz anderen DIMM angezeigt)
  • Dies zeigt, dass wohl ein oder mehrer andere DIMMs die Fehlerquelle sind
Bitte halten Sie stets die Firmware-Versionen aktuell, da dies das Risiko von Speicherfehlern verringen und die Lebensdauer der DIMMs erhöhen kann.

PowerEdge Knowledge Resources Weitere technische Informationen in unserer PowerEdge-Wissensdatenbank
Erreichen Sie unsere Experten Andere Enterprise Support Tools
Twitter @DellHilftPro Dell SupporAssist Dell SupportAssist
(Automatisierter, proaktiver Support)
Google + Google+ Dell Hilft Dell TechDirect Dell TechDirect
(Online-Tool für effiziente Problemlösung)
Dell TechCenter Dell TechCenter Foren

Artikel-ID: SLN289424

Datum der letzten Änderung: 07.02.2017 03:34


Diesen Artikel bewerten

Präzise
Nützlich
Leicht verständlich
War dieser Artikel hilfreich?
Ja Nein
Schicken Sie uns Ihr Feedback.
Die folgenden Sonderzeichen dürfen in Kommentaren nicht verwendet werden: <>()\
Derzeit ist kein Zugriff auf das Feedbacksystem möglich. Bitte versuchen Sie es später erneut.

Vielen Dank für Ihr Feedback.