Data Domain: Tarjeta de memoria o DIMM con fallas o error de falla

Summary: Este documento sirve para ayudar a identificar el error o la falla y proporcionar una ruta de resolución.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Los sistemas Data Domain (DD) monitorean el estado del hardware de memoria del sistema (DIMM). Si se encuentran errores relacionados con DIMM, se publica una notificación de alerta adecuada.

Se aplica a:
  • Todos los sistemas Data Domain
  • Todas las versiones de software del sistema operativo de Data Domain (DDOS)
Posibles notificaciones de alerta publicadas por DDOS:
DIMM-00001: Correctable ECC logging limit reached
DIMM-00002: Multibit Uncorrectable ECC error
DIMM-00003: A memory card has failed
ENVIRONMENT-00009: Memory correctable ECC errors exceed warning threshold
ENVIRONMENT-00013: Memory uncorrectable ECC error alert. 
ENVIRONMENT-00044: Memory riser fault has been detected
MEM-00001: DIMM failure detected after install. DDFS ""will not be started.
MEM-00002: Memory size(nnnnnnnnKB) goes below the configured size(nnnnnnnnKB)

Cause

Los módulos DIMM instalados en sistemas Data Domain tienen códigos de comprobación de errores (ECC) que permiten corregir errores de memoria corregibles sobre la marcha. Si se supera un umbral de error, DDOS identifica la falla y se genera una alerta correspondiente en el sistema.

Los errores de memoria incorregibles pueden provocar un reinicio del sistema y se considera una falla de la memoria dura. La falla total de cualquier DIMM o tarjeta elevadora de memoria puede provocar un evento de apagado del sistema e impedir la habilitación del sistema de archivos. Esto se debe a que el proceso del sistema de archivos de Data Domain (DDFS) llena la mayor parte de la memoria física.

NOTA: Otros síntomas o alertas pueden enmascarar los errores de memoria; por ejemplo, un error de comprobación del equipo de la CPU. Es posible que se requiera un análisis más profundo del registro y una solución de problemas más intensa.

Resolution

NOTA: Si se informa un error de DIMM en sistemas basados en Dell PowerEdge, la primera acción de recuperación es reiniciar la unidad de Data Domain. Esto iniciará la reparación del paquete POST (PPR) para recuperar el DIMM.

Se deben hacer esfuerzos para determinar la causa de la alerta e identificar los componentes DIMM, CPU o placa base afectados, y reemplazar las piezas según sea necesario. 

Si es posible, recopile un paquete de soporte y cree una solicitud de servicio con el proveedor de servicios contratado. En el siguiente video, se muestra cómo recopilar un paquete de soporte: Recopilar un paquete de soporte Este hipervínculo lo redirige a un sitio web fuera de Dell Technologies.

Pautas de resolución:

  • Para sistemas basados en Dell PowerEdge, inicie un reinicio del sistema para facilitar la reparación automática POST-Package (PPR). para la recuperación del DIMM.
    • Las mejoras en el firmware del BIOS permiten que PPR recupere los errores corregibles y no corregibles de los DIMM (Referencia)
  • Compare el estado actual del sistema con un informe de soporte automático desde ANTES de la falla o alerta de DIMM
  • Comandos útiles de DD-CLI (SSH) para comprobar la memoria:
# alerts show current
# system show meminfo
# enclosure show memory
# log view debug/messages.engineering  ('q' to quit)
  • Utilice los diagnósticos offline de DDOS para realizar pruebas y determinar la falla. Vaya al sitio de soporte de Dell para acceder a la Guía del usuario del conjunto de diagnósticos offline de Dell EMC Data Domain Operating System 6.x
  • Si es posible, realice métodos físicos de solución de problemas para determinar y extraer los componentes defectuosos (mediante procedimientos y guías de reemplazo documentados).
  • Retire y vuelva a insertar el DIMM: asegúrese de que ambos lados estén conectados correctamente.
  • Intercambie con un DIMM en buen estado desde otra ranura, canal, banco o controladora:
  • Si un sistema está inactivo (sin arranque) debido a una sospecha de falla en memoria/DIMM, pruebe con una opción de arranque mínima (quite los dispositivos periféricos o las tarjetas y deje 1 DIMM en la ranura “0”)

Additional Information

Referencias:

Affected Products

Data Domain, Integrated Data Protection Appliance Family

Products

PowerProtect Data Protection Appliance, Data Domain, Data Domain Deduplication Storage Systems, PowerProtect Data Protection Hardware
Article Properties
Article Number: 000204330
Article Type: Solution
Last Modified: 03 Mar 2025
Version:  11
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.