Data Domain: Bucle de reinicio después de la actualización de la controladora: sin memoria y sin procesos que se pueden eliminar

Summary: Después de una actualización de la controladora, el sistema sigue reiniciándose dentro de los 5 minutos posteriores a la habilitación del sistema de archivos (FS). La causa raíz es una condición de falta de memoria (OOM), lo que provoca un kernel panic. El sistema informa una falta de memoria debido a una configuración de registro no válida. Esto se puede resolver mediante la eliminación del comando "system". MEM_HUGETLB=FALSE' y reiniciando el sistema. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Indicios:

  • DD continúa reiniciándose después de la actualización de la controladora; cuando el sistema de archivos (FS) está habilitado, DD se reinicia dentro de los 5 minutos.
    • Deshabilite el FS para evitar el bucle de reinicio (kernel panic)
  • Los mensajes de alarma del kernel están presentes en los registros.
  • Los errores de memoria insuficiente están presentes en los registros.
    • En kern.info: "Kernel panic: no se sincroniza: Sin memoria y sin procesos que se puedan eliminar"

Kern.info muestra errores de falta de memoria:

Aug 26 14:45:05 xxxx kernel: [ 1332.027261] (E4)Out of memory: Kill process 4769 (java) score 1 or sacrifice child
Aug 26 14:45:05 xxxx kernel: [ 1332.044831] (E4)Out of memory: Kill process 22332 (sms) score 0 or sacrifice child
Aug 26 14:45:08 xxxx kernel: [ 1335.305280] (E4)Out of memory: Kill process 6131 (sms) score 0 or sacrifice child
Aug 26 14:45:08 xxxx kernel: [ 1335.321218] (E4)Out of memory: Kill process 5647 (lwsmd) score 0 or sacrifice child
Aug 26 14:45:08 xxxx kernel: [ 1335.324153] (E4)Out of memory: Kill process 22442 (dd_usm) score 0 or sacrifice child
Aug 26 14:45:08 xxxx kernel: [ 1335.325088] (E4)Out of memory: Kill process 25402 (dd_ha_vol-ha_li) score 0 or sacrifice child
Aug 26 14:45:08 xxxx kernel: [ 1335.326060] (E4)Out of memory: Kill process 22459 (csmd) score 0 or sacrifice child
Aug 26 14:45:12 xxxx kernel: [ 1338.519181] (E4)Out of memory: Kill process 6415 (lwsmd) score 0 or sacrifice child
Aug 26 14:45:12 xxxx kernel: [ 1338.522521] (E4)Out of memory: Kill process 6412 (sms) score 0 or sacrifice child

Cause

El sistema continúa reiniciándose después de una actualización de la controladora (por ejemplo, de DD9300 a DD9900). El sistema de archivos se deshabilitó para evitar que DD se reiniciara en un bucle.
Los registros del kernel muestran varios errores de falta de memoria (OOM), que activan la alarma del kernel y los reinicios posteriores.

La causa raíz del problema es la falta de memoria disponible para que el sistema funcione correctamente. Esto podría deberse a varias razones, que incluyen, entre otras, las siguientes:

  • Una pérdida de memoria en el software del sistema
  • Memoria insuficiente asignada para procesos o servicios específicos
  • Configuración incorrecta del sistema que conduce a un uso excesivo de la memoria
  • Problemas de hardware, como módulos de memoria u otros componentes defectuosos
  • Es posible que se haya establecido una clave de registro no válida; el soporte debe quitar esta clave; sistema. MEM_HUGETLB=FALSO.

Se requiere más investigación para identificar la causa exacta del agotamiento de la memoria y abordarla según corresponda. 

Revise los registros del sistema y los mensajes de error para identificar cualquier proceso o servicio específico que pueda estar consumiendo mucha memoria y causando los errores de OOM.
Además, comprobar el uso y la configuración de la memoria del sistema puede ayudar a identificar cualquier configuración incorrecta o problema de hardware que pueda estar contribuyendo al problema.
Por ejemplo: La falta o la extraviación de los DIMM podrían dar lugar a una configuración no soportada; lo que impide que el FS se inicie.

Resolution

  1. Verifique los registros del sistema para ver si hay mensajes de error o advertencias relacionados con el uso de la memoria o la configuración incorrecta del sistema; abórdelos en consecuencia.
  2. Si el problema persiste, considere comunicarse con el soporte de Dell para obtener más ayuda. Asegúrese de proporcionar los registros del sistema o la información de diagnóstico pertinente para ayudar a solucionar el problema.
    • Paquete de soporte y Core|Archivos de volcado de kernel que se cargarán

Affected Products

Data Domain

Products

Data Protection
Article Properties
Article Number: 000228075
Article Type: Solution
Last Modified: 01 Nov 2024
Version:  1
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.