Data Domain: Bucle de reinicio después de la actualización de la controladora: sin memoria y sin procesos que se pueden eliminar
Summary: Después de una actualización de la controladora, el sistema sigue reiniciándose dentro de los 5 minutos posteriores a la habilitación del sistema de archivos (FS). La causa raíz es una condición de falta de memoria (OOM), lo que provoca un kernel panic. El sistema informa una falta de memoria debido a una configuración de registro no válida. Esto se puede resolver mediante la eliminación del comando "system". MEM_HUGETLB=FALSE' y reiniciando el sistema. ...
Symptoms
Indicios:
- DD continúa reiniciándose después de la actualización de la controladora; cuando el sistema de archivos (FS) está habilitado, DD se reinicia dentro de los 5 minutos.
- Deshabilite el FS para evitar el bucle de reinicio (kernel panic)
- Los mensajes de alarma del kernel están presentes en los registros.
- Los errores de memoria insuficiente están presentes en los registros.
- En kern.info: "Kernel panic: no se sincroniza: Sin memoria y sin procesos que se puedan eliminar"
Kern.info muestra errores de falta de memoria:
Aug 26 14:45:05 xxxx kernel: [ 1332.027261] (E4)Out of memory: Kill process 4769 (java) score 1 or sacrifice child Aug 26 14:45:05 xxxx kernel: [ 1332.044831] (E4)Out of memory: Kill process 22332 (sms) score 0 or sacrifice child Aug 26 14:45:08 xxxx kernel: [ 1335.305280] (E4)Out of memory: Kill process 6131 (sms) score 0 or sacrifice child Aug 26 14:45:08 xxxx kernel: [ 1335.321218] (E4)Out of memory: Kill process 5647 (lwsmd) score 0 or sacrifice child Aug 26 14:45:08 xxxx kernel: [ 1335.324153] (E4)Out of memory: Kill process 22442 (dd_usm) score 0 or sacrifice child Aug 26 14:45:08 xxxx kernel: [ 1335.325088] (E4)Out of memory: Kill process 25402 (dd_ha_vol-ha_li) score 0 or sacrifice child Aug 26 14:45:08 xxxx kernel: [ 1335.326060] (E4)Out of memory: Kill process 22459 (csmd) score 0 or sacrifice child Aug 26 14:45:12 xxxx kernel: [ 1338.519181] (E4)Out of memory: Kill process 6415 (lwsmd) score 0 or sacrifice child Aug 26 14:45:12 xxxx kernel: [ 1338.522521] (E4)Out of memory: Kill process 6412 (sms) score 0 or sacrifice child
Cause
El sistema continúa reiniciándose después de una actualización de la controladora (por ejemplo, de DD9300 a DD9900). El sistema de archivos se deshabilitó para evitar que DD se reiniciara en un bucle.
Los registros del kernel muestran varios errores de falta de memoria (OOM), que activan la alarma del kernel y los reinicios posteriores.
La causa raíz del problema es la falta de memoria disponible para que el sistema funcione correctamente. Esto podría deberse a varias razones, que incluyen, entre otras, las siguientes:
- Una pérdida de memoria en el software del sistema
- Memoria insuficiente asignada para procesos o servicios específicos
- Configuración incorrecta del sistema que conduce a un uso excesivo de la memoria
- Problemas de hardware, como módulos de memoria u otros componentes defectuosos
- Es posible que se haya establecido una clave de registro no válida; el soporte debe quitar esta clave; sistema. MEM_HUGETLB=FALSO.
Se requiere más investigación para identificar la causa exacta del agotamiento de la memoria y abordarla según corresponda.
Revise los registros del sistema y los mensajes de error para identificar cualquier proceso o servicio específico que pueda estar consumiendo mucha memoria y causando los errores de OOM.
Además, comprobar el uso y la configuración de la memoria del sistema puede ayudar a identificar cualquier configuración incorrecta o problema de hardware que pueda estar contribuyendo al problema.
Por ejemplo: La falta o la extraviación de los DIMM podrían dar lugar a una configuración no soportada; lo que impide que el FS se inicie.
Resolution
- Verifique los registros del sistema para ver si hay mensajes de error o advertencias relacionados con el uso de la memoria o la configuración incorrecta del sistema; abórdelos en consecuencia.
- Si el problema persiste, considere comunicarse con el soporte de Dell para obtener más ayuda. Asegúrese de proporcionar los registros del sistema o la información de diagnóstico pertinente para ayudar a solucionar el problema.
- Paquete de soporte y Core|Archivos de volcado de kernel que se cargarán