Data Domain: Speicherkarte oder DIMM mit Fehler
Summary: Dieses Dokument unterstützt bei der Identifizierung des Fehlers und stellt einen Lösungspfad bereit.
Symptoms
Gilt für:
- Alle Data Domain-Systeme
- Alle Softwareversionen des Data Domain Operating System (DDOS)
DIMM-00001: Correctable ECC logging limit reached
DIMM-00002: Multibit Uncorrectable ECC error
DIMM-00003: A memory card has failed
ENVIRONMENT-00009: Memory correctable ECC errors exceed warning threshold
ENVIRONMENT-00013: Memory uncorrectable ECC error alert.
ENVIRONMENT-00044: Memory riser fault has been detected
MEM-00001: DIMM failure detected after install. DDFS ""will not be started.
MEM-00002: Memory size(nnnnnnnnKB) goes below the configured size(nnnnnnnnKB)
Cause
Die auf Data Domain-Systemen installierten DIMMs verfügen über ECC (Error Correction Code), mit dem korrigierbare Speicherfehler umgehend behoben werden können. Wenn ein Fehlerschwellenwert verletzt wird, identifiziert DDOS den Fehler und eine entsprechende Warnmeldung wird auf dem System erzeugt.
Nicht korrigierbare Arbeitsspeicherfehler können einen Neustart des Systems zur Folge haben und werden als harter Arbeitsspeicherfehler betrachtet. Der Totalausfall eines einzelnen DIMM oder Speicher-Risers kann zu einem Systemausfallereignis führen und verhindern, dass das Dateisystem aktiviert wird. Dies liegt daran, dass der DDFS-Prozess (Data Domain File System) den größten Teil des physischen Speichers belegt.
Resolution
HINWEIS: Wenn ein DIMM-Fehler auf Dell PowerEdge-basierten Systemen gemeldet wird, besteht die erste Wiederherstellungsmaßnahme darin, die DataDomain-Einheit neu zu starten. Dadurch wird die PPR (POST Package Repair) initiiert, um das DIMM wiederherzustellen.
Es müssen Anstrengungen unternommen werden, um die Ursache der Warnung zu ermitteln und die betroffenen Komponenten-DIMMs, CPU oder Hauptplatinen zu identifizieren und Teile nach Bedarf auszutauschen.
Wenn möglich, erfassen Sie ein Support-Bundle und erstellen Sie einen Service-Request bei Ihrem vertraglichen Serviceanbieter. Das folgende Video zeigt, wie Sie ein Support-Bundle erfassen: Erfassen eines Support-Bundles
Lösungsrichtlinien:
- Initiieren Sie bei Dell PowerEdge-basierten Systemen einen Systemneustart, um die automatische POST-Package-Reparatur (PPR) zu ermöglichen. für die Wiederherstellung des DIMM.
- Verbesserungen in der BIOS-Firmware ermöglichen es PPR, korrigierbare und nicht korrigierbare DIMM-Fehler wiederherzustellen (Referenz)
- Vergleichen Sie den aktuellen Systemstatus mit einem Auto-Support von VOR dem DIMM-Ausfall oder der Warnmeldung.
- Nützliche DD-CLI-Befehle (SSH) zur Überprüfung des Speichers:
# alerts show current
# system show meminfo
# enclosure show memory
# log view debug/messages.engineering ('q' to quit)
- Verwenden Sie die DDOS-Offlinediagnose, um zu testen und den Fehler zu ermitteln. Rufen Sie die Dell Supportwebsite auf, um auf das Benutzerhandbuch für Offline-Diagnosesuite für Dell EMC Data Domain Operating System 6.x zuzugreifen.
- Führen Sie nach Möglichkeit physische Troubleshootingmethoden durch, um fehlerhafte Komponenten zu ermitteln und zu eliminieren (mithilfe dokumentierter Anleitungen und Verfahren für den Austausch).
- Setzen Sie das DIMM neu ein – stellen Sie sicher, dass beide Seiten ordnungsgemäß verriegelt sind.
- Tauschen Sie es gegen ein zweifelsfrei funktionierendes DIMM aus einem anderen Steckplatz, Kanal, einer anderen Bank oder einem anderen Controller aus:
- Wenn ein System aufgrund eines vermuteten Speicher/DIMM-Fehlers inaktiv ist (kein Start), versuchen Sie es mit einer minimalen Startoption (entfernen Sie Peripheriegeräte oder Karten und belassen Sie 1 DIMM in Steckplatz „0“).
Additional Information
- Lesen Sie den Wissensdatenbank-Artikel 130388: PowerProtect- und Data Domain-Hardwaredokumente für relevante Informationen zur DIMM-Konfiguration und zum -Layout.
- Siehe zugehörigen Wissensdatenbank-Artikel 82030: Data Domain: Systemspeicheranforderungen und erweiterte Speicherkonfigurationen