Risoluzione dei problemi relativi a una macchina virtuale che smette di rispondere
Summary: Questo articolo fornisce la procedura per isolare le possibili cause della mancata risposta di una macchina virtuale vSphere.
Instructions
Obiettivi
Questo articolo fornisce la procedura per isolare le possibili cause della mancata risposta di una macchina virtuale vSphere.
Una macchina virtuale che non risponde non risponde ad alcun tentativo di connessione e potrebbe non essere in grado di rispondere ad alcun tentativo di spegnimento e accensione/spegnimento. Esistono diversi motivi per cui una macchina virtuale può finire in uno stato di mancata risposta. Questo articolo consente di identificare e risolvere queste cause comuni e, una volta risolte, riportare la macchina virtuale a uno stato operativo.
È possibile spegnere una macchina virtuale senza risolvere la causa, ma ciò impedirà la raccolta e l'analisi delle informazioni che potrebbero aiutare a determinare la root cause dell'interruzione.
Fatti
Una macchina virtuale in esecuzione su VMware ESX/ESXi non risponde ad alcun input esterno né mostra alcuna attività. Specificamente:
-
Il sistema operativo guest non risponde alle attività della tastiera o del mouse sulla console
-
Il sistema operativo guest non risponde alle comunicazioni di rete, inclusi ping, RDP, SSH e così via.
-
La schermata della console della macchina virtuale è statica e non cambia o si aggiorna
-
Le attività eseguite sulla macchina virtuale hanno esito negativo, vanno a timeout o non si avviano
-
La macchina virtuale non produce traffico di rete o su disco
Soluzione
I servizi forniti da una macchina virtuale possono diventare insensibili o irraggiungibili a causa di una serie di cause, tra cui problemi con le applicazioni o il sistema operativo guest all'interno della macchina virtuale, problemi con il monitor o i dispositivi virtuali, conflitto di risorse sull host o problemi con lo storage sottostante o l'infrastruttura di rete.
Se il sistema operativo guest produce attività, questa viene eseguita correttamente. In questo caso, la mancata risposta è probabilmente dovuta a un problema di connettività o a un conflitto di risorse oppure è specifica di un componente di livello superiore, ad esempio un'applicazione o un servizio in esecuzione all'interno del sistema operativo guest.
Convalidare l'ambito:
È importante avere sintomi accurati e una comprensione della portata di un problema. Per confermare l'ambito del problema, eseguire questi controlli:
-
Verificare che la macchina virtuale non risponda. È possibile che la macchina virtuale non risponda tramite un'interfaccia, ma funzioni correttamente su altre.
-
Verificare che la macchina virtuale sia accesa. Se la macchina virtuale è stata spenta in modo imprevisto, riaccenderla e quindi risolvere la causa dell'arresto imprevisto.
-
Determinare se il problema interessa più macchine virtuali o solo una. Se sono interessate più macchine virtuali, considerare le somiglianze tra le macchine virtuali interessate quando si tenta di restringere l'ambito potenziale. In particolare, concentrarsi sull'infrastruttura condivisa da cui dipende il gruppo di macchine virtuali interessate e sul fatto che siano interessate tutte le macchine virtuali che dipendono da tale infrastruttura comune.
-
Determinare se il sistema operativo guest risponde all'interazione nella console della macchina virtuale. Se un problema è stato isolato al sistema operativo guest o alle applicazioni all'interno della macchina virtuale e il sistema operativo guest risponde alla console, interagire con il sistema operativo guest sulla console per risolvere il problema.
-
Determinare se il sistema operativo guest o i relativi servizi applicativi rispondono all'interazione tramite la rete.
-
Determinare se il sistema operativo guest ha segnalato errori critici alla console ed è in stato di arresto.
-
Determinare se anche l'host ESX/ESXi non risponde. Se anche l'host non risponde, l'ambito è più ampio di quanto inizialmente ipotizzato.
Identificare la causa:
A questo punto, è stato stabilito che una o più macchine virtuali non rispondono sia sulla console virtuale sia tramite la rete. L'host stesso è reattivo. Potrebbe verificarsi un problema con l'accessibilità o il conflitto delle risorse, oppure con l'infrastruttura di storage o di rete sottostante.
Per identificare la causa:
-
Determinare se il problema è stato causato da un'operazione o da un attività in esecuzione sulla macchina virtuale. Ad esempio, le operazioni di istantanee e vMotion sospendono entrambe una macchina virtuale per brevi periodi di tempo mentre lo stato della memoria viene copiato in rete o su disco.
-
Alcuni errori comuni di configurazione possono causare la mancata risposta di una macchina virtuale, ad esempio durante l'attesa di una risorsa. Esaminare la configurazione host e della macchina virtuale.
-
Le macchine virtuali dipendono dall'infrastruttura di supporto funzionale. Se si verifica un problema con lo storage di backup o con l'infrastruttura di rete da cui dipende la macchina virtuale, l'hardware virtuale che una macchina virtuale presenta al sistema operativo guest potrebbe essere interessato. Risolvere il problema di storage o di rete sottostante.
-
Le macchine virtuali dipendono dalle risorse host disponibili (CPU, memoria) e il sistema operativo guest utilizza tali risorse. Un problema con la disponibilità delle risorse o con la pianificazione all'interno o all'esterno della macchina virtuale può causarne la mancata risposta. La macchina virtuale potrebbe anche bloccarsi sulle risorse non disponibili o girare al 100% di utilizzo della vCPU.
Piano d'azione:
A questo punto, è stato stabilito che l'host che esegue le macchine virtuali è reattivo e non riscontra problemi di infrastruttura di rete o di storage condiviso. Il sistema operativo guest non ha avuto esito negativo con un errore critico, ma continua a non rispondere nella console della macchina virtuale e tramite la rete.
Intervenire per ripristinare o raccogliere informazioni sulla macchina virtuale che non risponde in base al livello dell'architettura sospetta:
-
Se un problema è stato isolato al sistema operativo guest o
%RUNè relativamente alto, ma il monitor della macchina virtuale funziona correttamente, spostare l'indagine all'interno del sistema operativo guest o delle applicazioni della macchina virtuale. È possibile che il sistema operativo guest smetta di rispondere all'interno di una macchina virtuale nello stesso modo in cui può avvenire sull hardware fisico:-
Raccogliere i dati sulle prestazioni mentre si verifica il problema.
-
Tentare di indurre manualmente un errore irreversibile del kernel all'interno del sistema operativo guest per raccogliere ulteriori informazioni sul suo stato interno. Se il sistema operativo guest produce informazioni di diagnostica utili in risposta a uno di questi eventi, coinvolgere il fornitore del sistema operativo guest per approfondire ulteriormente.
-
Se il passaggio 2 non produce informazioni utili, sospendere la macchina virtuale per raccogliere informazioni sul suo stato interno e aprire un caso con il supporto VMware:
-
Sospendere la macchina virtuale e raccogliere i
.vmssSospendi file di stato. -
Raccogliere i registri dall host che esegue la macchina virtuale.
-
Riaccendere la macchina virtuale, quindi reimpostarla.
-
Contattare il supporto VMware, fornendo le informazioni raccolte nei passaggi 1, 3a e 3b.
-
-
-
Se un problema è stato isolato al monitor della macchina virtuale o al
%WAITè relativamente alta o i tentativi di sospendere la macchina virtuale non sono riusciti, raccogliere dati sulle prestazioni e forzare l'arresto anomalo della macchina virtuale per raccogliere ulteriori informazioni sul suo stato interno:-
Raccogliere i dati sulle prestazioni mentre si verifica il problema.
-
Arrestare in modo anomalo la macchina virtuale per raccogliere informazioni sul suo stato interno.
NOTA: Se i tentativi di arresto anomalo della macchina virtuale non riescono, andare alla sezione successiva e tentare di arrestare in modo anomalo l'host. -
Contattare il supporto VMware, fornendo le informazioni raccolte nei passaggi 1 e 2.
-
-
Se un problema è stato isolato al monitor della macchina virtuale, ma i tentativi di sospensione o arresto anomalo della macchina virtuale non riescono, ciò riflette un problema con VMkernel. Raccogliere un pacchetto di log dall host, evacuare tutte le macchine virtuali non interessate dall host e utilizzare un NMI per generare intenzionalmente una schermata di diagnostica viola:
-
Raccogliere i dati sulle prestazioni mentre si verifica il problema.
-
Spostare tutte le macchine virtuali non interessate fuori dall host utilizzando vMotion. Se possibile, utilizzare la modalità di manutenzione per impedire l'avvio di altre macchine virtuali sull host.
-
Configurare un errore irreversibile dell host alla ricezione di un interrupt non mascherabile, quindi emettere un NMI per attivare un errore irreversibile.
-
Dopo che l'host ha generato una schermata di diagnostica viola e completato il dump delle informazioni diagnostiche, acquisire una screenshot o una fotografia della console e riavviare l'host.
-
Raccogliere le informazioni di diagnostica dall host.
-
Contattare il supporto VMware, fornendo le informazioni raccolte nei passaggi 1, 4 e 5.
-
Articoli
Correlati1007819 della KB di VMware: https://kb.vmware.com/kb/1007819 
Additional Information
| Sistema VCE | Tutto |
| Componente | vSphere |