Feilsøke en virtuell maskin som har sluttet å svare
Summary: Denne artikkelen inneholder trinn for å isolere mulige årsaker til at en virtuell vSphere-maskin ikke reagerer.
Instructions
Mål
Denne artikkelen inneholder trinn for å isolere mulige årsaker til at en virtuell vSphere-maskin ikke reagerer.
En virtuell maskin som ikke reagerer, reagerer ikke på noen tilkoblingsforsøk og kan ikke svare på eventuelle forsøk på å slå den av og på. Det er mange grunner til at en virtuell maskin kan ende opp i en tilstand som ikke reagerer. Med denne artikkelen kan du identifisere og løse disse vanlige årsakene, og når det er løst, returnere den virtuelle maskinen til en driftstilstand.
Det er mulig å slå av en virtuell maskin uten å feilsøke årsaken, men dette vil forhindre innsamling og analyse av informasjon som kan hjelpe til med å bestemme årsaken til strømbruddet.
Fakta
En virtuell maskin som kjører på VMware ESX/ESXi, svarer ikke på eksterne inndata eller viser noen aktivitet. Spesielt:
-
Gjesteoperativsystemet reagerer ikke på tastatur- eller museaktivitet på konsollen
-
Gjesteoperativsystemet svarer ikke på nettverkskommunikasjon, inkludert ping, RDP, SSH osv.
-
Konsollskjermen for den virtuelle maskinen er statisk og endres eller oppdateres ikke
-
Oppgaver som utføres på den virtuelle maskinen mislykkes, blir tidsavbrutt eller starter ikke
-
Den virtuelle maskinen produserer ikke nettverks- eller disktrafikk
Løsning
Tjenestene en virtuell maskin leverer, kan slutte å svare eller være utilgjengelige på grunn av en rekke årsaker, inkludert problemer med applikasjonene eller gjesteoperativsystemet i den virtuelle maskinen, problemer med den virtuelle maskinmonitoren eller virtuelle enheter, ressursstrid på verten eller problemer med underliggende lagrings- eller nettverksinfrastruktur.
Hvis gjesteoperativsystemet produserer aktivitet, kjører det vellykket. I dette tilfellet skyldes manglende svartid sannsynligvis et tilkoblingsproblem eller ressursstrid, eller det er spesifikt for en komponent på høyere nivå, for eksempel et program eller en tjeneste som kjører i gjesteoperativsystemet.
Validere omfanget:
Det er viktig å ha nøyaktige symptomer og forståelse for omfanget av et problem. Du kan bekrefte omfanget av problemet ved å gå gjennom disse kontrollene:
-
Bekreft at den virtuelle maskinen faktisk ikke svarer. Det er mulig at den virtuelle maskinen ikke svarer via ett grensesnitt, men fungerer riktig på andre.
-
Kontroller at den virtuelle maskinen er slått på. Hvis den virtuelle maskinen har blitt slått av uventet, slår du den på igjen og feilsøker årsaken til den uventede avslutningen.
-
Finn ut om dette problemet berører flere virtuelle maskiner eller bare én. Hvis flere virtuelle maskiner er berørt, bør du vurdere likhetene mellom de berørte virtuelle maskinene når du prøver å begrense det potensielle omfanget. Spesielt fokus på delt infrastruktur som gruppen av berørte virtuelle maskiner er avhengige av, og om alle virtuelle maskiner avhengig av den felles infrastrukturen er berørt.
-
Finn ut om gjesteoperativsystemet reagerer på samhandling på konsollen for den virtuelle maskinen. Hvis et problem er isolert for gjesteoperativsystemet eller programmene i den virtuelle maskinen, og gjesteoperativsystemet svarer på konsollen, kan du samhandle med gjesteoperativsystemet på konsollen for å løse problemet.
-
Fastslå om gjesteoperativsystemet eller applikasjonstjenestene reagerer på samhandling via nettverket.
-
Finn ut om gjesteoperativsystemet har rapportert kritiske feil til konsollen og er i stoppet tilstand.
-
Finn ut om ESX-/ESXi-verten heller ikke reagerer. Hvis verten ikke reagerer, er omfanget større enn først antatt.
Identifiser årsaken:
På dette tidspunktet har du fastslått at én eller flere virtuelle maskiner ikke svarer både på den virtuelle konsollen og via nettverket. Selve verten er responsiv. Det kan være et problem med ressurstilgjengelighet eller strid, eller med underliggende lagrings- eller nettverksinfrastruktur.
Slik identifiserer du årsaken:
-
Finn ut om problemet utløses av en operasjon eller oppgave som utføres på den virtuelle maskinen. For eksempel bedøver både øyeblikksbilder og vMotion-operasjoner en virtuell maskin i korte perioder mens minnetilstanden kopieres over nettverket eller til disken.
-
Noen vanlige konfigurasjonsfeil kan føre til at en virtuell maskin ikke svarer, for eksempel mens du venter på en ressurs. Se gjennom den virtuelle maskinen og vertskonfigurasjonen.
-
Virtuelle maskiner er avhengige av funksjonell infrastruktur for backing. Hvis det oppstår et problem med infrastrukturen for backing, lagring eller nettverk som den virtuelle maskinen er avhengig av, kan den virtuelle maskinvaren som en virtuell maskin presenterer for gjesteoperativsystemet bli påvirket. Løs det underliggende problemet med lagring eller nettverk.
-
Virtuelle maskiner avhenger av tilgjengelige vertsressurser (CPU, minne), og gjesteoperativsystemet bruker disse ressursene. Et problem med ressurstilgjengelighet eller planlegging i eller utenfor den virtuelle maskinen kan føre til at den slutter å svare. Den virtuelle maskinen kan også blokkere utilgjengelige ressurser eller spinne ved 100% vCPU-utnyttelse.
Handlingsplan:
På dette tidspunktet har du fastslått at verten som kjører de virtuelle maskinen(e), både reagerer og ikke støter på problemer med delt lagrings- eller nettverksinfrastruktur. Gjesteoperativsystemet har ikke sviktet med en kritisk feil, men svarer fortsatt ikke på den virtuelle maskinkonsollen og via nettverket.
Iverksette tiltak for å gjenopprette eller samle inn informasjon om den virtuelle maskinen som ikke svarer basert på det arkitektoniske laget som er mistenkelig:
-
Hvis et problem har blitt isolert til gjestenes operativsystem, eller
%RUNer relativt høy, men den virtuelle maskinmonitoren fungerer som den skal, flytt undersøkelsen til den virtuelle maskinens gjesteoperativsystem eller applikasjoner. Et gjesteoperativsystem kan slutte å svare på en virtuell maskin på samme måte som på fysisk maskinvare:-
Samle inn ytelsesdata mens problemet oppstår.
-
Forsøk å manuelt indusere panikk i kjernen inne i gjesteoperativsystemet for å samle inn tilleggsinformasjon om intern tilstand. Hvis nyttig diagnostikkinformasjon produseres av gjesteoperativsystemet som svar på en av disse hendelsene, kontakter du leverandøren av gjesteoperativsystem for å undersøke nærmere.
-
Hvis trinn 2 ikke gir nyttig informasjon, suspenderer du den virtuelle maskinen for å samle inn informasjon om den interne tilstanden og åpner en sak med VMware-støtte:
-
Suspender den virtuelle maskinen, og samle inn
.vmssAvslutt tilstandsfil. -
Samle logger fra verten som kjører den virtuelle maskinen.
-
Slå på den virtuelle maskinen igjen, og tilbakestill den.
-
Engasjere VMware-støtte, og oppgi informasjonen som er samlet inn i trinn 1, 3a og 3b.
-
-
-
Hvis et problem er isolert for den virtuelle maskinmonitoren, eller
%WAITer relativt høy, eller forsøk på å suspendere den virtuelle maskinen har mislyktes, samle ytelsesdata og kraftig krasje den virtuelle maskinen for å samle inn tilleggsinformasjon om sin interne tilstand:-
Samle inn ytelsesdata mens problemet oppstår.
-
Krasj den virtuelle maskinen for å samle inn informasjon om dens interne tilstand.
MERK: Hvis forsøk på å krasje den virtuelle maskinen mislykkes, hopper du til neste del og prøver å krasje verten. -
Engasjere VMware-støtte, og gi informasjonen som er samlet inn i trinn 1 og 2.
-
-
Hvis et problem har blitt isolert til den virtuelle maskinmonitoren, men forsøk på å avbryte eller krasje den virtuelle maskinen mislykkes, gjenspeiler dette et problem med VMkernel. Samle inn en loggpakke fra verten, evakuer alle uberørte virtuelle maskiner fra verten, og bruk en NMI til å generere en lilla diagnoseskjerm med hensikt:
-
Samle inn ytelsesdata mens problemet oppstår.
-
Flytt alle upåvirkede virtuelle maskiner bort fra verten ved hjelp av vMotion. Hvis mulig, bruk vedlikeholdsmodus for å forhindre at flere virtuelle maskiner startes på verten.
-
Konfigurer verten til å få panikk ved mottak av et ikke-maskerbart avbrudd, og utstede deretter en NMI for å utløse en panikk.
-
Når verten har generert en lilla diagnoseskjerm og fullført dumping med diagnostikkinformasjon, tar du et skjermbilde eller bilde av konsollen og starter verten på nytt.
-
Samle inn diagnostisk informasjon fra verten.
-
Engasjer VMware-støtte, og oppgi informasjonen som er samlet inn i trinn 1, 4 og 5.
-
relaterte artikler
VMware KB-1007819: https://kb.vmware.com/kb/1007819 
Additional Information
| VCE-system | Alle |
| Komponent | vSphere |