Data Domain: Oversigt over System Management Service (SMS)
Summary: System Management Service (SMS) er en dæmon, der lytter efter indgående kommandoer fra klienter som System Manager UI eller DD-kommandolinjen. Hvis SMS ikke kører, bliver systemet uhåndterligt og reagerer ikke over brugergrænsefladen eller kommandolinjen. Selvom sikkerhedskopierings-/gendannelsesfunktionaliteten ikke bør blive påvirket. SMS har otte kommandopladser i sin servicekø og kan arbejde på otte kommandoer parallelt. Hvis alle job i servicekøen af en eller anden grund går i stå, venter SMS i 2 timer, før en genstart påbegyndes. ...
Symptoms
Almindelige symptomer, når der opstår et SMS-problem:
- DD-CLI i "Begrænset session"
- Kan ikke godkende eller interagere via PowerProtect DD System Manager UI (DDSM).
- Rapportering af DD-CLI-kommandoer
*** Error connecting to management service at "localhost" - SMS har genereret kernedumps og reagerer ikke
- Ugyldig eller udløbet licens (låse-id) (se KB --000050243)
NOTICE: Elicense refresh error: DD_DDBOOST license: **** Invalid locking id of DD_DDBOOST.. NOTICE: Elicense refresh error: DD_REPLICATION license: **** Invalid locking id of DD_REPLICATION.
Cause
SMS-problemer opstår, når dens servicekø overvældes af kommandoer,
der ikke svarer eller timeout.Disse "timeouts" i Servicekøen kan tilskrives forskellige årsager, f.eks.:
- Underliggende problemer med storage eller netværk
- Problemer med certifikater eller registreringsdatabasen.
- Timeout for driver eller firmware
- Service eller dæmon reagerer ikke; For eksempel på grund af en hukommelseslækage
- En platformsovervågningsstak, der ikke svarer (f.eks. iDRAC, PTAgent)
- Er ved at løbe tør for kapacitet i /ddvar
Her er et eksempel, hvor vi ser, at SMS genstartes på grund af, at servicekøen bliver fuld, og ingen job skrider frem i 2 timer:
I filen »sms.log«:
06/15 17:48:42.745 (tid 0x3ab4400): Service Queue ----------- 8 jobs 06/15 17:48:42.745 (tid 0x3ab4400): job: 2421162, completed: NO, start_time: 1371328844356, end_time: 0, duration: 0 msec, operation: sms_enclosure_get_fans_status ... 06/15 19:51:42.823 (tid 0x3ab4400): INFO: Event posted: 341: EVT-SMS-00001: System management server restarted due to no progress for 120 minutes.
Her ser vi, at det ældste kørende job var 'sms_enclosure_get_fans_status', mens alle andre servicekøpladser blev brugt af andre job.
Resultatet er følgende:
- sms_enclosure_get_fans_status blev gydt og passeret til lavere lag, før de tog låse
- sms_enclosure_get_fans_status var ikke i stand til at gennemføre (fremgår af: »Afsluttet: NEJ')
- Andre job kræver adgang til de låse, som sms_enclosure_get_fans_status har, og kan derfor ikke køre
- Da sms_enclosure_get_fans_status ikke kan gennemføres, er vi i en fastlåst situation, indtil SMS starter en genstart efter 2 timer
I dette eksempel svarede det underliggende BMC-modul (alias iDRAC) ikke, hvilket resulterede i, at SMS ikke kunne fuldføre de udstedte kommandoer.
Resolution
-
Kontroller, om SMS kører på systemet. Hvis det ikke er tilfældet, kan systemet ikke få adgang til brugergrænsefladen eller kommandolinjen, hvilket resulterer i fejl som 'kan ikke kontakte administrationstjenesten' eller kommandoer, der holder op med at svare på ubestemt tid.
- Genstart SMS-tjenesten ved hjælp af DD-CLI
sms restart
Bemærk: I nogle DDOS-versioner er denne kommando begrænset til "SE-tilstand" (hvis det er tilfældet, skal du kontakte Dell Support for at få os til at undersøge og køre kommandoen).
- Genstart SMS-tjenesten ved hjælp af DD-CLI
-
Det er muligt, at SMS-timeouts resulterer i Core Dump eller uventede genstarter; Hvis det er tilfældet, skal du generere en supportpakke, indsamle relevant Core-dump og kontakte din tekniske supportudbyder for at undersøge årsagen.