Data Domain: Tarjeta de memoria o DIMM con fallas o error de falla

Resumen: Este documento sirve para ayudar a identificar el error o la falla y proporcionar una ruta de resolución.

Este artículo se aplica a Este artículo no se aplica a Este artículo no está vinculado a ningún producto específico. No se identifican todas las versiones del producto en este artículo.

Síntomas

Los sistemas Data Domain (DD) monitorean el estado del hardware de memoria del sistema (DIMM). Si se encuentran errores relacionados con DIMM, se publica una notificación de alerta adecuada.

Se aplica a:
  • Todos los sistemas Data Domain
  • Todas las versiones de software del sistema operativo de Data Domain (DDOS)
Posibles notificaciones de alerta publicadas por DDOS:
DIMM-00001: Correctable ECC logging limit reached
DIMM-00002: Multibit Uncorrectable ECC error
DIMM-00003: A memory card has failed
ENVIRONMENT-00009: Memory correctable ECC errors exceed warning threshold
ENVIRONMENT-00013: Memory uncorrectable ECC error alert. 
ENVIRONMENT-00044: Memory riser fault has been detected
MEM-00001: DIMM failure detected after install. DDFS ""will not be started.
MEM-00002: Memory size(nnnnnnnnKB) goes below the configured size(nnnnnnnnKB)

Causa

Los módulos DIMM instalados en sistemas Data Domain tienen códigos de comprobación de errores (ECC) que permiten corregir errores de memoria corregibles sobre la marcha. Si se supera un umbral de error, DDOS identifica la falla y se genera una alerta correspondiente en el sistema.

Los errores de memoria incorregibles pueden provocar un reinicio del sistema y se considera una falla de la memoria dura. La falla total de cualquier DIMM o tarjeta elevadora de memoria puede provocar un evento de apagado del sistema e impedir la habilitación del sistema de archivos. Esto se debe a que el proceso del sistema de archivos de Data Domain (DDFS) llena la mayor parte de la memoria física.

NOTA: Otros síntomas o alertas pueden enmascarar los errores de memoria; por ejemplo, un error de comprobación del equipo de la CPU. Es posible que se requiera un análisis más profundo del registro y una solución de problemas más intensa.

Resolución

NOTA: Si se informa un error de DIMM en sistemas basados en Dell PowerEdge, la primera acción de recuperación es reiniciar la unidad de Data Domain. Esto iniciará la reparación del paquete POST (PPR) para recuperar el DIMM.

Se deben hacer esfuerzos para determinar la causa de la alerta e identificar los componentes DIMM, CPU o placa base afectados, y reemplazar las piezas según sea necesario. 

Si es posible, recopile un paquete de soporte y cree una solicitud de servicio con el proveedor de servicios contratado. En el siguiente video, se muestra cómo recopilar un paquete de soporte: Recopilar un paquete de soporte Este hipervínculo lo redirige a un sitio web fuera de Dell Technologies.

Pautas de resolución:

  • Para sistemas basados en Dell PowerEdge, inicie un reinicio del sistema para facilitar la reparación automática POST-Package (PPR). para la recuperación del DIMM.
    • Las mejoras en el firmware del BIOS permiten que PPR recupere los errores corregibles y no corregibles de los DIMM (Referencia)
  • Compare el estado actual del sistema con un informe de soporte automático desde ANTES de la falla o alerta de DIMM
  • Comandos útiles de DD-CLI (SSH) para comprobar la memoria:
# alerts show current
# system show meminfo
# enclosure show memory
# log view debug/messages.engineering  ('q' to quit)
  • Utilice los diagnósticos offline de DDOS para realizar pruebas y determinar la falla. Vaya al sitio de soporte de Dell para acceder a la Guía del usuario del conjunto de diagnósticos offline de Dell EMC Data Domain Operating System 6.x
  • Si es posible, realice métodos físicos de solución de problemas para determinar y extraer los componentes defectuosos (mediante procedimientos y guías de reemplazo documentados).
  • Retire y vuelva a insertar el DIMM: asegúrese de que ambos lados estén conectados correctamente.
  • Intercambie con un DIMM en buen estado desde otra ranura, canal, banco o controladora:
  • Si un sistema está inactivo (sin arranque) debido a una sospecha de falla en memoria/DIMM, pruebe con una opción de arranque mínima (quite los dispositivos periféricos o las tarjetas y deje 1 DIMM en la ranura “0”)

Información adicional

Referencias:

Productos afectados

Data Domain, Integrated Data Protection Appliance Family

Productos

PowerProtect Data Protection Appliance, Data Domain, Data Domain Deduplication Storage Systems, PowerProtect Data Protection Hardware
Propiedades del artículo
Número del artículo: 000204330
Tipo de artículo: Solution
Última modificación: 03 mar. 2025
Versión:  11
Encuentre respuestas a sus preguntas de otros usuarios de Dell
Servicios de soporte
Compruebe si el dispositivo está cubierto por los servicios de soporte.