Felsöka en virtuell dator som har slutat svara
Summary: Den här artikeln innehåller steg för att isolera möjliga orsaker till att en virtuell vSphere-dator slutar svara.
Instructions
Mål
Den här artikeln innehåller steg för att isolera möjliga orsaker till att en virtuell vSphere-dator slutar svara.
En virtuell dator som inte svarar svarar inte på några anslutningsförsök och kanske inte kan svara på eventuella försök att starta om den. Det finns en mängd olika orsaker till att en virtuell dator kan sluta svara. Med den här artikeln kan du identifiera och lösa dessa vanliga orsaker och, när de är lösta, återställa den virtuella datorn till ett drifttillstånd.
Det är möjligt att stänga av en virtuell maskin utan att felsöka orsaken, men detta förhindrar insamling och analys av information som kan hjälpa till att fastställa grundorsaken till avbrottet.
Fakta
En virtuell maskin som körs på VMware ESX/ESXi svarar inte på några externa indata och uppvisar ingen aktivitet. Specifikt:
-
Gästoperativsystemet svarar inte på tangentbords- eller musaktivitet i konsolen
-
Gästoperativsystemet svarar inte på nätverkskommunikation, inklusive ping, RDP, SSH osv.
-
Konsolskärmen för den virtuella datorn är statisk och ändras eller uppdateras inte
-
Uppgifter som utförs på den virtuella datorn misslyckas, överskrider tidsgränsen eller startar inte
-
Den virtuella datorn producerar inte nätverks- eller disktrafik
Lösning
De tjänster som en virtuell dator tillhandahåller kan sluta svara eller inte kunna nås på grund av ett antal orsaker, inklusive problem med programmen eller gästoperativsystemet på den virtuella datorn, problem med den virtuella datorns övervakare eller virtuella enheter, resurskonkurrens på värden eller problem med underliggande lagrings- eller nätverksinfrastruktur.
Om gästoperativsystemet skapar någon aktivitet körs det. I det här fallet beror svarstiden troligen på ett anslutningsproblem eller resurskonkurrens, eller är specifik för en komponent på högre nivå, till exempel ett program eller en tjänst som körs i gästoperativsystemet.
Verifiera omfånget:
Det är viktigt att ha korrekta symtom och en förståelse för problemets omfattning. Bekräfta problemets omfattning genom att gå igenom dessa kontroller:
-
Bekräfta att den virtuella datorn faktiskt inte svarar. Det är möjligt att den virtuella datorn inte svarar via ett gränssnitt, men fungerar korrekt på andra.
-
Kontrollera att den virtuella maskinen är påslagen. Om den virtuella datorn har stängts av oväntat startar du den igen och felsöker sedan orsaken till den oväntade avstängningen.
-
Ta reda på om det här problemet påverkar flera virtuella datorer eller bara en. Om flera virtuella datorer påverkas bör du överväga likheterna mellan de berörda virtuella datorerna när du försöker begränsa det potentiella omfånget. Fokusera särskilt på delad infrastruktur som gruppen av berörda virtuella datorer är beroende av, och om alla virtuella datorer som är beroende av den gemensamma infrastrukturen påverkas.
-
Ta reda på om gästoperativsystemet svarar på interaktion på den virtuella datorkonsolen. Om ett problem har isolerats till gästoperativsystemet eller programmen på den virtuella datorn och gästoperativsystemet svarar i konsolen kan du interagera med gästoperativsystemet i konsolen för att åtgärda problemet.
-
Ta reda på om gästoperativsystemet eller dess programtjänster svarar på interaktion via nätverket.
-
Ta reda på om gästoperativsystemet har rapporterat några kritiska fel till konsolen och är i ett stoppat tillstånd.
-
Fastställ om ESX/ESXi-värden också inte svarar. Om värden inte heller svarar är omfånget större än vad som ursprungligen antogs.
Identifiera orsaken:
Nu har du fastställt att en eller flera virtuella maskiner inte svarar på både den virtuella konsolen och via nätverket. Själva värden är lyhörd. Det kan finnas problem med resurstillgänglighet eller konkurrens, eller med underliggande lagrings- eller nätverksinfrastruktur.
Så här identifierar du orsaken:
-
Ta reda på om problemet utlöses av en åtgärd eller uppgift som utförs på den virtuella datorn. Snapshot- och vMotion-åtgärder bedövar till exempel en virtuell dator under korta tidsperioder medan minnestillståndet kopieras över nätverket eller till disken.
-
Vissa vanliga konfigurationsfel kan leda till att en virtuell dator inte svarar, till exempel i väntan på en resurs. Granska konfigurationen för den virtuella datorn och värden.
-
Virtuella datorer är beroende av en funktionell infrastruktur för säkerhetskopiering. Om det finns ett problem med lagrings- eller nätverksinfrastrukturen för säkerhetskopiering som den virtuella datorn är beroende av, kan den virtuella maskinvara som en virtuell dator presenterar för gästoperativsystemet påverkas. Åtgärda det underliggande lagrings- eller nätverksproblemet.
-
Virtuella datorer är beroende av tillgängliga värdresurser (CPU, minne) och gästoperativsystemet förbrukar dessa resurser. Ett problem med resurstillgänglighet eller schemaläggning i eller utanför den virtuella datorn kan göra att den inte svarar. Den virtuella datorn kan också blockera på otillgängliga resurser eller snurra vid 100 % vCPU-användning.
Handlingsplan:
Nu har du fastställt att värden som kör de virtuella datorerna både svarar och inte stöter på några problem med delad lagring eller nätverksinfrastruktur. Gästoperativsystemet har inte misslyckats med ett kritiskt fel, men svarar fortfarande inte på den virtuella datorkonsolen och via nätverket.
Vidta åtgärder för att återställa eller samla in information om den virtuella dator som inte svarar baserat på det arkitekturlager som är misstänkt:
-
Om ett problem har isolerats till gästoperativsystemet eller
%RUNär relativt högt, men övervakaren av den virtuella datorn fungerar korrekt, flytta undersökningen till den virtuella datorns gästoperativsystem eller program. Ett gästoperativsystem kan sluta svara på en virtuell dator på samma sätt som på fysisk maskinvara:-
Samla in prestandadata medan problemet uppstår.
-
Försök att manuellt framkalla panik i kerneln i gästoperativsystemet för att samla in ytterligare information om dess interna tillstånd. Om användbar diagnostikinformation skapas av gästoperativsystemet som svar på någon av dessa händelser kontaktar du gästoperativsystemleverantören för att undersöka vidare.
-
Om steg 2 inte ger användbar information pausar du den virtuella datorn för att samla in information om dess interna tillstånd och öppnar ett ärende hos VMware-supporten:
-
Pausa den virtuella datorn och samla in
.vmssPausa tillståndsfil. -
Samla in loggar från värden som kör den virtuella datorn.
-
Starta den virtuella maskinen igen och återställ den sedan.
-
Kontakta VMwares support och tillhandahåll den information som samlats in i steg 1, 3a och 3b.
-
-
-
Om ett problem har isolerats till den virtuella datorns övervakare, eller
%WAITär relativt högt, eller försök att pausa den virtuella datorn har misslyckats, samla in prestandadata och tvinga den virtuella datorn att krascha för att samla in ytterligare information om dess interna tillstånd:-
Samla in prestandadata medan problemet uppstår.
-
Krascha den virtuella datorn för att samla in information om dess interna tillstånd.
Obs! Om försöken att krascha den virtuella datorn misslyckas går du vidare till nästa avsnitt och försöker krascha värden. -
Kontakta VMware Support och lämna den information som samlats in i steg 1 och 2.
-
-
Om ett problem har isolerats till övervakaren av den virtuella datorn, men försök att pausa eller krascha den virtuella datorn misslyckas, återspeglar detta ett problem med VMkernel. Samla in ett loggpaket från värden, evakuera alla opåverkade virtuella datorer från värden och använd ett NMI för att avsiktligt generera en lila diagnostikskärm:
-
Samla in prestandadata medan problemet uppstår.
-
Flytta alla opåverkade virtuella maskiner från värden med hjälp av vMotion. Använd om möjligt underhållsläge för att förhindra att ytterligare virtuella datorer startas på värden.
-
Konfigurera värden så att den får panik när du tar emot ett icke-maskerbart avbrott och utfärdar sedan ett NMI för att utlösa en panik.
-
När värden har genererat en lila diagnostikskärm och slutfört dumpen av diagnostikinformationen tar du en skärmbild eller ett foto av konsolen och startar om värden.
-
Samla in diagnostikinformation från värden.
-
Kontakta VMware-supporten och tillhandahåll den information som samlats in i steg 1, 4 och 5.
-
Relaterade artiklar
VMware KB 1007819: https://kb.vmware.com/kb/1007819 
Additional Information
| VCE-system | Alla |
| Komponent | vSphere |