Data Domain: Tarjeta de memoria o DIMM con fallas o error de falla
Summary: Este documento sirve para ayudar a identificar el error o la falla y proporcionar una ruta de resolución.
Symptoms
Se aplica a:
- Todos los sistemas Data Domain
- Todas las versiones de software del sistema operativo de Data Domain (DDOS)
DIMM-00001: Correctable ECC logging limit reached
DIMM-00002: Multibit Uncorrectable ECC error
DIMM-00003: A memory card has failed
ENVIRONMENT-00009: Memory correctable ECC errors exceed warning threshold
ENVIRONMENT-00013: Memory uncorrectable ECC error alert.
ENVIRONMENT-00044: Memory riser fault has been detected
MEM-00001: DIMM failure detected after install. DDFS ""will not be started.
MEM-00002: Memory size(nnnnnnnnKB) goes below the configured size(nnnnnnnnKB)
Cause
Los módulos DIMM instalados en sistemas Data Domain tienen códigos de comprobación de errores (ECC) que permiten corregir errores de memoria corregibles sobre la marcha. Si se supera un umbral de error, DDOS identifica la falla y se genera una alerta correspondiente en el sistema.
Los errores de memoria incorregibles pueden provocar un reinicio del sistema y se considera una falla de la memoria dura. La falla total de cualquier DIMM o tarjeta elevadora de memoria puede provocar un evento de apagado del sistema e impedir la habilitación del sistema de archivos. Esto se debe a que el proceso del sistema de archivos de Data Domain (DDFS) llena la mayor parte de la memoria física.
Resolution
NOTA: Si se informa un error de DIMM en sistemas basados en Dell PowerEdge, la primera acción de recuperación es reiniciar la unidad de Data Domain. Esto iniciará la reparación del paquete POST (PPR) para recuperar el DIMM.
Se deben hacer esfuerzos para determinar la causa de la alerta e identificar los componentes DIMM, CPU o placa base afectados, y reemplazar las piezas según sea necesario.
Si es posible, recopile un paquete de soporte y cree una solicitud de servicio con el proveedor de servicios contratado. En el siguiente video, se muestra cómo recopilar un paquete de soporte: Recopilar un paquete de soporte
Pautas de resolución:
- Para sistemas basados en Dell PowerEdge, inicie un reinicio del sistema para facilitar la reparación automática POST-Package (PPR). para la recuperación del DIMM.
- Las mejoras en el firmware del BIOS permiten que PPR recupere los errores corregibles y no corregibles de los DIMM (Referencia)
- Compare el estado actual del sistema con un informe de soporte automático desde ANTES de la falla o alerta de DIMM
- Comandos útiles de DD-CLI (SSH) para comprobar la memoria:
# alerts show current
# system show meminfo
# enclosure show memory
# log view debug/messages.engineering ('q' to quit)
- Utilice los diagnósticos offline de DDOS para realizar pruebas y determinar la falla. Vaya al sitio de soporte de Dell para acceder a la Guía del usuario del conjunto de diagnósticos offline de Dell EMC Data Domain Operating System 6.x
- Si es posible, realice métodos físicos de solución de problemas para determinar y extraer los componentes defectuosos (mediante procedimientos y guías de reemplazo documentados).
- Retire y vuelva a insertar el DIMM: asegúrese de que ambos lados estén conectados correctamente.
- Intercambie con un DIMM en buen estado desde otra ranura, canal, banco o controladora:
- Si un sistema está inactivo (sin arranque) debido a una sospecha de falla en memoria/DIMM, pruebe con una opción de arranque mínima (quite los dispositivos periféricos o las tarjetas y deje 1 DIMM en la ranura “0”)
Additional Information
- Consulte el artículo de la base de conocimientos 130388: Documentos de hardware de PowerProtect y Data Domain para obtener información pertinente sobre la configuración y el diseño de DIMM.
- Consulte el artículo relacionado de la base de conocimientos 82030: Data Domain: Requisitos de memoria del sistema y configuraciones de almacenamiento expandido