Data Domain: Descripción general del servicio de administración de sistema (SMS)
Resumen: System Management Service (SMS) es un demonio que escucha los comandos entrantes de los clientes, como la interfaz del usuario de System Manager o la línea de comandos de DD. Si SMS no se está ejecutando, el sistema se vuelve inmanejable y no responde a través de la interfaz de usuario o la línea de comandos; Sin embargo, la funcionalidad de respaldo/restauración no debería verse afectada. SMS tiene ocho ranuras de comandos en su cola de servicio y puede trabajar en ocho comandos en paralelo. Si todos los trabajos en la línea de espera de servicio se bloquean por algún motivo, SMS espera 2 horas antes de iniciar un reinicio. ...
Síntomas
Síntomas comunes cuando se encuentra un problema de SMS:
- DD-CLI en "sesión limitada"
- No se puede autenticar ni interactuar a través de la interfaz de usuario de PowerProtect DD System Manager (DDSM).
- Informes de comandos de DD-CLI
*** Error connecting to management service at "localhost" - SMS generó volcados de núcleo y no responde
- Licencia no válida o vencida (ID de bloqueo) (consulte KB --000050243)
NOTICE: Elicense refresh error: DD_DDBOOST license: **** Invalid locking id of DD_DDBOOST.. NOTICE: Elicense refresh error: DD_REPLICATION license: **** Invalid locking id of DD_REPLICATION.
Causa
Se producen problemas de SMS cuando la cola de servicio se ve desbordada por comandos que no responden o cuyo tiempo de espera se agotó.
Estos "tiempos de espera agotados" en la cola de servicio se pueden atribuir a varias causas, por ejemplo:
- Problemas subyacentes de almacenamiento o red
- Problemas de certificado o registro.
- Tiempos de espera agotados de controladores o firmware
- El servicio o el demonio no responden; Por ejemplo, debido a una pérdida de memoria
- Una pila de monitoreo de plataforma que no responde (por ejemplo, iDRAC, PTAgent)
- Se está agotando la capacidad en /ddvar
A continuación, se muestra un ejemplo en el que vemos que SMS se reinició debido a que la cola de servicio se llenó y no hubo trabajos en curso durante 2 horas:
En el archivo 'sms.log':
06/15 17:48:42.745 (tid 0x3ab4400): Service Queue ----------- 8 jobs 06/15 17:48:42.745 (tid 0x3ab4400): job: 2421162, completed: NO, start_time: 1371328844356, end_time: 0, duration: 0 msec, operation: sms_enclosure_get_fans_status ... 06/15 19:51:42.823 (tid 0x3ab4400): INFO: Event posted: 341: EVT-SMS-00001: System management server restarted due to no progress for 120 minutes.
Aquí vemos que el trabajo en ejecución más antiguo era "sms_enclosure_get_fans_status" con todas las demás ranuras de la línea de espera de servicio consumidas por otros trabajos.
Como resultado:
- sms_enclosure_get_fans_status se generó y pasó a las capas inferiores antes de tomar bloqueos
- sms_enclosure_get_fans_status no se pudo completar (como lo demuestran los siguientes elementos: «Completado: NO')
- Otros trabajos requieren acceso a los bloqueos de sms_enclosure_get_fans_status por lo tanto, no se pueden ejecutar
- Como sms_enclosure_get_fans_status no se puede completar, estamos en una situación de punto muerto hasta que SMS inicia un reinicio después de 2 horas
En este ejemplo, el módulo BMC subyacente (también conocido como iDRAC) dejó de responder, lo que provocó que SMS no pudiera completar los comandos emitidos.
Resolución
-
Compruebe si SMS se está ejecutando en el sistema. De lo contrario, el sistema no puede acceder a la interfaz del usuario o a la línea de comandos, lo que genera errores como "no se puede contactar con el servicio de administración" o comandos que dejan de responder indefinidamente.
- Reinicie el servicio de SMS mediante DD-CLI
sms restart
Nota: En algunas versiones de DDOS, este comando se limita al "modo SE" (si ese es el caso, comuníquese con el soporte de Dell para que investiguemos y ejecutemos el comando).
- Reinicie el servicio de SMS mediante DD-CLI
-
Es posible que los tiempos de espera agotados de SMS provoquen un volcado de memoria o reinicios inesperados; si es así, genere un paquete de soporte, recopile el volcado de memoria pertinente y comuníquese con su proveedor de soporte técnico para investigar la causa.