Data Domain: Speicherkarte oder DIMM mit Fehler

Summary: Dieses Dokument unterstützt bei der Identifizierung des Fehlers und stellt einen Lösungspfad bereit.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Data Domain-Systeme (DD) überwachen den Status der Systemspeicherhardware (DIMMs). Wenn DIMM-bezogene Fehler auftreten, wird eine entsprechende Warnmeldungsbenachrichtigung angezeigt.

Gilt für:
  • Alle Data Domain-Systeme
  • Alle Softwareversionen des Data Domain Operating System (DDOS)
Mögliche Warnmeldungsbenachrichtigungen vom DDOS:
DIMM-00001: Correctable ECC logging limit reached
DIMM-00002: Multibit Uncorrectable ECC error
DIMM-00003: A memory card has failed
ENVIRONMENT-00009: Memory correctable ECC errors exceed warning threshold
ENVIRONMENT-00013: Memory uncorrectable ECC error alert. 
ENVIRONMENT-00044: Memory riser fault has been detected
MEM-00001: DIMM failure detected after install. DDFS ""will not be started.
MEM-00002: Memory size(nnnnnnnnKB) goes below the configured size(nnnnnnnnKB)

Cause

Die auf Data Domain-Systemen installierten DIMMs verfügen über ECC (Error Correction Code), mit dem korrigierbare Speicherfehler umgehend behoben werden können. Wenn ein Fehlerschwellenwert verletzt wird, identifiziert DDOS den Fehler und eine entsprechende Warnmeldung wird auf dem System erzeugt.

Nicht korrigierbare Arbeitsspeicherfehler können einen Neustart des Systems zur Folge haben und werden als harter Arbeitsspeicherfehler betrachtet. Der Totalausfall eines einzelnen DIMM oder Speicher-Risers kann zu einem Systemausfallereignis führen und verhindern, dass das Dateisystem aktiviert wird. Dies liegt daran, dass der DDFS-Prozess (Data Domain File System) den größten Teil des physischen Speichers belegt.

HINWEIS: Andere Symptome oder Warnmeldungen können Speicherfehler maskieren, z. B. CPU-Maschinenprüffehler. Hier sind möglicherweise eine umfassendere Protokollanalyse und Troubleshooting erforderlich.

Resolution

HINWEIS: Wenn ein DIMM-Fehler auf Dell PowerEdge-basierten Systemen gemeldet wird, besteht die erste Wiederherstellungsmaßnahme darin, die DataDomain-Einheit neu zu starten. Dadurch wird die PPR (POST Package Repair) initiiert, um das DIMM wiederherzustellen.

Es müssen Anstrengungen unternommen werden, um die Ursache der Warnung zu ermitteln und die betroffenen Komponenten-DIMMs, CPU oder Hauptplatinen zu identifizieren und Teile nach Bedarf auszutauschen. 

Wenn möglich, erfassen Sie ein Support-Bundle und erstellen Sie einen Service-Request bei Ihrem vertraglichen Serviceanbieter. Das folgende Video zeigt, wie Sie ein Support-Bundle erfassen: Erfassen eines Support-BundlesDieser Hyperlink führt Sie zu einer Website außerhalb von Dell Technologies.

Lösungsrichtlinien:

  • Initiieren Sie bei Dell PowerEdge-basierten Systemen einen Systemneustart, um die automatische POST-Package-Reparatur (PPR) zu ermöglichen. für die Wiederherstellung des DIMM.
    • Verbesserungen in der BIOS-Firmware ermöglichen es PPR, korrigierbare und nicht korrigierbare DIMM-Fehler wiederherzustellen (Referenz)
  • Vergleichen Sie den aktuellen Systemstatus mit einem Auto-Support von VOR dem DIMM-Ausfall oder der Warnmeldung.
  • Nützliche DD-CLI-Befehle (SSH) zur Überprüfung des Speichers:
# alerts show current
# system show meminfo
# enclosure show memory
# log view debug/messages.engineering  ('q' to quit)
  • Verwenden Sie die DDOS-Offlinediagnose, um zu testen und den Fehler zu ermitteln. Rufen Sie die Dell Supportwebsite auf, um auf das Benutzerhandbuch für Offline-Diagnosesuite für Dell EMC Data Domain Operating System 6.x zuzugreifen.
  • Führen Sie nach Möglichkeit physische Troubleshootingmethoden durch, um fehlerhafte Komponenten zu ermitteln und zu eliminieren (mithilfe dokumentierter Anleitungen und Verfahren für den Austausch).
  • Setzen Sie das DIMM neu ein – stellen Sie sicher, dass beide Seiten ordnungsgemäß verriegelt sind.
  • Tauschen Sie es gegen ein zweifelsfrei funktionierendes DIMM aus einem anderen Steckplatz, Kanal, einer anderen Bank oder einem anderen Controller aus:
  • Wenn ein System aufgrund eines vermuteten Speicher/DIMM-Fehlers inaktiv ist (kein Start), versuchen Sie es mit einer minimalen Startoption (entfernen Sie Peripheriegeräte oder Karten und belassen Sie 1 DIMM in Steckplatz „0“).

Additional Information

Referenzen:

Affected Products

Data Domain, Integrated Data Protection Appliance Family

Products

PowerProtect Data Protection Appliance, Data Domain, Data Domain Deduplication Storage Systems, PowerProtect Data Protection Hardware
Article Properties
Article Number: 000204330
Article Type: Solution
Last Modified: 03 Mar 2025
Version:  11
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.