Data Domain: Översikt över System Management Service (SMS)
Summary: System Management Service (SMS) är en daemon som lyssnar efter inkommande kommandon från klienter, till exempel System Manager-användargränssnittet eller DD-kommandoraden. Om SMS inte körs blir systemet ohanterligt och svarar inte via användargränssnittet eller kommandoraden. Även om säkerhetskopierings-/återställningsfunktionen inte bör påverkas. SMS har åtta kommandoplatser i sin tjänstkö och kan arbeta med åtta kommandon parallellt. Om alla jobb i tjänstkön av någon anledning fastnar väntar SMS i 2 timmar innan en omstart initieras. ...
Symptoms
Vanliga symptom när ett SMS-problem uppstår:
- DD-CLI i "begränsad session"
- Det går inte att autentisera eller interagera via PowerProtect DD System Manager UI (DDSM).
- Rapportering av DD-CLI-kommandon
*** Error connecting to management service at "localhost" - SMS har genererat kärndumpar och svarar inte
- Ogiltig eller utgången licens (lås-ID) (se KB --000050243)
NOTICE: Elicense refresh error: DD_DDBOOST license: **** Invalid locking id of DD_DDBOOST.. NOTICE: Elicense refresh error: DD_REPLICATION license: **** Invalid locking id of DD_REPLICATION.
Cause
SMS-problem uppstår när tjänstkön överbelastas av kommandon som inte svarar eller överskrider tidsgränsen.
Dessa "timeouter" i tjänstkön kan hänföras till olika orsaker, till exempel:
- Underliggande lagrings- eller nätverksproblem
- Certifikat- eller registerproblem.
- Timeoutvärde för drivrutin eller fast programvara
- Tjänsten eller daemonen svarar inte; Till exempel på grund av en minnesläcka
- En plattformsövervakningsstack som inte svarar (till exempel iDRAC, PTAgent)
- Ont om kapacitet i /ddvar
Här är ett exempel där vi ser att SMS startas om på grund av att tjänstkön blir full och inga jobb fortskrider på 2 timmar:
I sms.log-filen:
06/15 17:48:42.745 (tid 0x3ab4400): Service Queue ----------- 8 jobs 06/15 17:48:42.745 (tid 0x3ab4400): job: 2421162, completed: NO, start_time: 1371328844356, end_time: 0, duration: 0 msec, operation: sms_enclosure_get_fans_status ... 06/15 19:51:42.823 (tid 0x3ab4400): INFO: Event posted: 341: EVT-SMS-00001: System management server restarted due to no progress for 120 minutes.
Här ser vi att det äldsta jobbet som körs var "sms_enclosure_get_fans_status" med alla andra tjänstköplatser som förbrukas av andra jobb.
Ett resultat av det är att:
- sms_enclosure_get_fans_status lekte och passerade till lägre lager innan de tog lås
- sms_enclosure_get_fans_status inte kunde slutföras (vilket framgår av: "Slutförda: NEJ')
- Andra jobb kräver åtkomst till låsen som hålls av sms_enclosure_get_fans_status kan därför inte köras
- Eftersom sms_enclosure_get_fans_status inte kan slutföras är vi i en deadlock-situation tills SMS initierar en omstart efter 2 timmar
I det här exemplet hade den underliggande BMC-modulen (även kallad iDRAC) slutat svara, vilket ledde till att SMS inte kunde slutföra de utfärdade kommandona.
Resolution
-
Kontrollera om SMS körs på systemet. Om den inte är det kan systemet inte komma åt användargränssnittet eller kommandoraden, vilket resulterar i fel som "kan inte kontakta hanteringstjänsten" eller kommandon som slutar svara på obestämd tid.
- Starta om SMS-tjänsten med hjälp av DD-CLI
sms restart
Obs! I vissa DDOS-versioner är det här kommandot begränsat till "SE Mode" (om så är fallet kontaktar du Dells support så att vi kan undersöka och köra kommandot).
- Starta om SMS-tjänsten med hjälp av DD-CLI
-
Det är möjligt att SMS-timeouter resulterar i kärndump eller oväntade omstarter. I så fall genererar du ett supportpaket, samlar in relevant kärndump och kontaktar din tekniska supportleverantör för att undersöka orsaken.