Solução de problemas de uma máquina virtual que parou de responder
Summary: Este artigo fornece etapas para isolar as possíveis causas de uma máquina virtual do vSphere parar de responder.
Instructions
Objetivos
Este artigo fornece etapas para isolar as possíveis causas de uma máquina virtual do vSphere parar de responder.
Uma máquina virtual que não responde não responde a nenhuma tentativa de conexão e pode não responder a nenhuma tentativa de reinicializá-la. Há uma variedade de motivos pelos quais uma máquina virtual pode acabar sem responder. Este artigo permite identificar e resolver essas causas comuns e, quando resolvido, retornar a máquina virtual a um estado operacional.
É possível desligar uma máquina virtual sem solucionar a causa, mas isso impedirá a coleta e a análise de informações que poderiam ajudar a determinar a causa raiz da interrupção.
Fatos
Uma máquina virtual em execução no VMware ESX/ESXi não responde a nenhuma entrada externa nem exibe qualquer atividade. A saber:
-
O SO convidado não responde à atividade do teclado ou mouse no console
-
O SO convidado não responde à comunicação de rede, incluindo ping, RDP, SSH etc.
-
A tela do console da máquina virtual é estática e não muda nem atualiza
-
As tarefas executadas na máquina virtual falham, atingem o tempo de espera excedido ou não iniciam
-
A máquina virtual não produz tráfego de rede ou de disco
Solução
Os serviços que uma máquina virtual fornece podem ficar sem resposta ou inacessíveis devido a várias causas, inclusive problemas com os aplicativos ou com o sistema operacional convidado dentro da máquina virtual, problemas com o monitor da máquina virtual ou dispositivos virtuais, conflito de acesso de recursos no host ou problemas com armazenamento subjacente ou infraestrutura de rede.
Se o SO guest estiver produzindo qualquer atividade, ele está sendo executado com sucesso. Nesse caso, a falta de resposta provavelmente se deve a um problema de conectividade ou conflito de recursos, ou é específica de um componente de nível superior, como um aplicativo ou serviço em execução no sistema operacional convidado.
Valide o escopo:
É importante ter sintomas precisos e uma compreensão do escopo de um problema. Para confirmar o escopo do problema, execute estas verificações:
-
Confirme se a máquina virtual realmente não está respondendo. É possível que a máquina virtual não esteja respondendo por meio de uma interface, mas esteja funcionando corretamente em outras.
-
Verifique se a máquina virtual está ligada. Se a máquina virtual tiver sido desligada inesperadamente, ligue-a novamente e, em seguida, solucione a causa do desligamento inesperado.
-
Determine se esse problema está afetando várias máquinas virtuais ou apenas uma. Se várias máquinas virtuais forem afetadas, considere as semelhanças entre as máquinas virtuais afetadas ao tentar restringir o escopo potencial. Em particular, concentre-se na infraestrutura compartilhada da qual o grupo de máquinas virtuais afetadas depende e se todas as máquinas virtuais, dependendo dessa infraestrutura comum, serão afetadas.
-
Determine se o SO convidado responde à interação no console da máquina virtual. Se um problema tiver sido isolado no SO guest ou nos aplicativos da máquina virtual e o SO guest estiver respondendo no console, interaja com o SO guest no console para resolver o problema.
-
Determine se o SO convidado ou seus serviços de aplicativo respondem à interação por meio da rede.
-
Determine se o SO convidado reportou erros críticos ao console e se está em estado interrompido.
-
Determine se o host do ESX/ESXi também não está respondendo. Se o host também não estiver respondendo, o escopo será maior do que o inicialmente suposto.
Identifique a causa:
Neste ponto, você estabeleceu que uma ou mais máquinas virtuais não respondem no console virtual e por meio da rede. O próprio host é responsivo. Pode haver um problema com a acessibilidade ou o conflito de acesso de recursos ou com a infraestrutura subjacente de armazenamento ou rede.
Para identificar a causa:
-
Determine se o problema é acionado por uma operação ou tarefa que está sendo executada na máquina virtual. Por exemplo, as operações de snapshot e vMotion atordoam uma máquina virtual por breves períodos enquanto o estado da memória é copiado na rede ou em disco.
-
Alguns erros comuns de configuração podem fazer com que uma máquina virtual pare de responder, como ao aguardar um recurso. Analise a configuração da máquina virtual e do host.
-
As máquinas virtuais dependem de uma infraestrutura de backup funcional. Se houver um problema com o armazenamento de backup ou com a infraestrutura de rede da qual a máquina virtual depende, o hardware virtual que ela apresenta ao SO convidado poderá ser afetado. Resolva o problema subjacente de armazenamento ou sistema de rede.
-
As máquinas virtuais dependem dos recursos de host disponíveis (CPU, memória), e o SO convidado consome esses recursos. Um problema com a disponibilidade ou a programação de recursos dentro ou fora da máquina virtual pode fazer com que ela pare de responder. A máquina virtual também pode estar bloqueando recursos indisponíveis ou girando a 100% de utilização da vCPU.
Plano de ação:
Neste ponto, você estabeleceu que o host que executa a(s) máquina(s) virtual é responsivo e não encontra nenhum problema de infraestrutura de rede ou armazenamento compartilhado. O SO convidado não falhou com um erro crítico, mas permanece sem responder no console da máquina virtual e por meio da rede.
Tome medidas para recuperar ou coletar informações sobre a máquina virtual que não responde com base na camada de arquitetura suspeita:
-
Se um problema tiver sido isolado no SO convidado ou no
%RUNé relativamente alto, mas o monitor da máquina virtual está funcionando corretamente; mova a investigação para dentro do sistema operacional ou aplicativos convidados da máquina virtual. Um SO convidado pode deixar de responder dentro de uma máquina virtual da mesma forma que no hardware físico:-
Colete dados de desempenho enquanto o problema está acontecendo.
-
Tente induzir manualmente uma pane do kernel dentro do SO convidado para coletar informações adicionais sobre seu estado interno. Se informações úteis de diagnóstico forem produzidas pelo sistema operacional convidado em resposta a um desses eventos, entre em contato com o fornecedor do sistema operacional convidado para investigar mais.
-
Se a etapa 2 não produzir informações úteis, suspenda a máquina virtual para coletar informações sobre seu estado interno e abra um caso com o suporte da VMware:
-
Suspenda a máquina virtual e colete o
.vmssArquivo de estado de suspensão. -
Colete logs do host que executa a máquina virtual.
-
Ligue a máquina virtual novamente e, em seguida, redefina-a.
-
Entre em contato com o suporte da VMware, fornecendo as informações coletadas nas etapas 1, 3a e 3b.
-
-
-
Se um problema tiver sido isolado no monitor da máquina virtual ou no
%WAITfor relativamente alto ou as tentativas de suspender a máquina virtual falharam, coletar dados de desempenho e forçar a falha da máquina virtual para coletar informações adicionais sobre seu estado interno:-
Colete dados de desempenho enquanto o problema está acontecendo.
-
Trave a máquina virtual para coletar informações sobre seu estado interno.
Nota: Se as tentativas de travar a máquina virtual falharem, pule para a próxima seção e tente travar o host. -
Entre em contato com o suporte da VMware, fornecendo as informações coletadas nas etapas 1 e 2.
-
-
Se um problema tiver sido isolado no monitor da máquina virtual, mas as tentativas de suspender ou travar a máquina virtual falharem, isso refletirá um problema com o VMkernel. Colete um pacote de logs do host, evacue todas as máquinas virtuais não afetadas do host e use uma NMI para gerar intencionalmente uma tela de diagnóstico roxa:
-
Colete dados de desempenho enquanto o problema está acontecendo.
-
Mova todas as máquinas virtuais não afetadas para fora do host usando o vMotion. Se possível, use o Modo de manutenção para impedir que outras máquinas virtuais sejam iniciadas no host.
-
Configure o host para entrar em pânico ao receber uma interrupção não mascarável e, em seguida, emita uma NMI para acionar uma pane.
-
Depois que o host gerar uma tela roxa de diagnóstico e concluir o despejo de informações de diagnóstico, faça uma captura de tela ou uma fotografia do console e reinicie o host.
-
Coletar informações de diagnóstico do host.
-
Entre em contato com o suporte da VMware, fornecendo as informações coletadas nas etapas 1, 4 e 5.
-
Artigos
Relacionados1007819 da KB da VMware: https://kb.vmware.com/kb/1007819 
Additional Information
| Sistema VCE | Todos |
| Componente | vSphere |