Data Domain: Panoramica del servizio di gestione dei sistemi (SMS)
Summary: System Management Service (SMS) è un daemon in ascolto dei comandi in arrivo dai client, come l'interfaccia utente di System Manager o la riga di comando DD. Se SMS non è in esecuzione, il sistema diventa ingestibile e non risponde tramite l'interfaccia utente o la riga di comando; anche se la funzionalità di backup/ripristino non dovrebbe essere interessata. SMS dispone di otto slot di comando nella coda di servizio e può lavorare su otto comandi in parallelo. Se tutti i processi nella coda di servizio si bloccano per qualche motivo, SMS attende 2 ore prima di avviare un riavvio. ...
Symptoms
Sintomi comuni quando si verifica un problema con gli SMS:
- DD-CLI in "sessione limitata"
- Impossibile eseguire l'autenticazione o interagire sull'interfaccia utente di PowerProtect DD System Manager (DDSM).
- Reporting dei comandi DD-CLI
*** Error connecting to management service at "localhost" - SMS ha generato core dump e non risponde
- Licenza non valida o scaduta (Locking ID) (vedere KB --000050243)
NOTICE: Elicense refresh error: DD_DDBOOST license: **** Invalid locking id of DD_DDBOOST.. NOTICE: Elicense refresh error: DD_REPLICATION license: **** Invalid locking id of DD_REPLICATION.
Cause
Si verificano problemi con gli SMS quando la coda di servizio è sovraccarica da comandi che non rispondono o che sono scaduti.
Questi "timeout" nella coda di servizio possono essere attribuiti a varie cause, ad esempio:
- Problemi di storage o di rete sottostanti
- Problemi relativi a certificati o registri.
- Timeout del driver o del firmware
- Il servizio o il daemon non risponde. Ad esempio, a causa di una perdita di memoria
- Uno stack di monitoraggio della piattaforma non risponde (ad esempio iDRAC, PTAgent)
- Esaurimento della capacità in /ddvar
Di seguito è riportato un esempio in cui SMS è stato riavviato a causa del riempimento della coda di servizio e nessun processo in corso per 2 ore:
Nel file 'sms.log':
06/15 17:48:42.745 (tid 0x3ab4400): Service Queue ----------- 8 jobs 06/15 17:48:42.745 (tid 0x3ab4400): job: 2421162, completed: NO, start_time: 1371328844356, end_time: 0, duration: 0 msec, operation: sms_enclosure_get_fans_status ... 06/15 19:51:42.823 (tid 0x3ab4400): INFO: Event posted: 341: EVT-SMS-00001: System management server restarted due to no progress for 120 minutes.
Qui vediamo che il processo in esecuzione meno recente era "sms_enclosure_get_fans_status" con tutti gli altri slot della coda di servizio utilizzati da altri processi.
Di conseguenza:
- sms_enclosure_get_fans_status è stato generato e passato ai livelli inferiori prima di prendere le chiuse
- sms_enclosure_get_fans_status non è stato in grado di completare (evidenziato da: «Completato: NO')
- Altri job richiedono l'accesso ai blocchi detenuti da sms_enclosure_get_fans_status pertanto non possono essere eseguiti
- Poiché sms_enclosure_get_fans_status non può essere completato, ci troviamo in una situazione di stallo fino a quando SMS non avvia un riavvio dopo 2 ore
In questo esempio, il modulo BMC sottostante (noto anche come iDRAC) smetteva di rispondere, causando l'impossibilità per SMS di completare i comandi emessi.
Resolution
-
Verificare che SMS sia in esecuzione sul sistema. In caso contrario, il sistema non è in grado di accedere all'interfaccia utente o alla riga di comando, causando errori come "impossibile contattare il servizio di gestione" o comandi che smettono di rispondere a tempo indeterminato.
- Riavviare il servizio SMS utilizzando DD-CLI
sms restart
Nota: In alcune versioni di DDOS, questo comando è limitato alla "modalità SE" (in tal caso, contattare il Supporto Dell per consentirci di analizzare ed eseguire il comando).
- Riavviare il servizio SMS utilizzando DD-CLI
-
È possibile che i timeout SMS determinino un core dump o riavvii imprevisti; in tal caso, generare un pacchetto di supporto, raccogliere il core dump pertinente e contattare il fornitore di supporto tecnico per esaminare la causa.