Rozwiązywanie problemów z maszyną wirtualną, która przestała odpowiadać

Summary: Ten artykuł zawiera kroki, które należy wykonać, aby wyizolować możliwe przyczyny braku odpowiedzi maszyny wirtualnej vSphere.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Cele
Ten artykuł zawiera kroki, które należy wykonać, aby wyizolować możliwe przyczyny braku odpowiedzi maszyny wirtualnej vSphere.

Niereagująca maszyna wirtualna nie reaguje na żadne próby połączenia i może nie być w stanie odpowiedzieć na wszelkie próby wyłączenia i włączenia. Istnieje wiele powodów, dla których maszyna wirtualna może przestać odpowiadać. Ten artykuł umożliwia zidentyfikowanie i rozwiązanie tych typowych przyczyn oraz, po rozwiązaniu problemu, przywrócenie maszyny wirtualnej do stanu operacyjnego.

Możliwe jest wyłączenie maszyny wirtualnej bez usuwania przyczyny, ale uniemożliwi to gromadzenie i analizowanie informacji, które mogłyby pomóc w określeniu głównej przyczyny awarii. 

Fakty
Maszyna wirtualna działająca na oprogramowaniu VMware ESX/ESXi nie reaguje na żadne zewnętrzne dane wejściowe ani nie wykazuje żadnej aktywności. Specjalnie:

  • System operacyjny gościa nie reaguje na aktywność klawiatury lub myszy na konsoli

  • System operacyjny gościa nie reaguje na komunikację sieciową, w tym ping, RDP, SSH itp.

  • Ekran konsoli maszyny wirtualnej jest statyczny i nie zmienia się ani nie odświeża

  • Zadania wykonywane na maszynie wirtualnej kończą się niepowodzeniem, przekraczają limit czasu lub nie uruchamiają się

  • Maszyna wirtualna nie generuje ruchu sieciowego ani dyskowego

Rozwiązanie
Usługi świadczone przez maszynę wirtualną mogą przestać odpowiadać lub stać się nieosiągalne z wielu powodów, takich jak problemy z aplikacjami lub systemem operacyjnym gościa w maszynie wirtualnej, problemy z monitorem maszyny wirtualnej lub urządzeniami wirtualnymi, rywalizacja o zasoby na hoście albo problemy z podstawową infrastrukturą pamięci masowej lub sieci.
Jeśli system operacyjny gościa generuje jakiekolwiek działanie, oznacza to, że został pomyślnie uruchomiony. W takim przypadku brak odpowiedzi jest prawdopodobnie spowodowany problemem z łącznością lub rywalizacją o zasoby lub jest specyficzny dla składnika wyższego poziomu, takiego jak aplikacja lub usługa działająca w systemie operacyjnym gościa.

Zweryfikuj zakres:
Ważne jest, aby mieć dokładne objawy i zrozumieć zakres problemu. Aby potwierdzić zakres problemu, wykonaj następujące kontrole:

  1. Upewnij się, że maszyna wirtualna rzeczywiście nie odpowiada. Możliwe, że maszyna wirtualna nie odpowiada za pośrednictwem jednego interfejsu, ale działa poprawnie na innych. 

  2. Sprawdź, czy maszyna wirtualna jest włączona. Jeśli maszyna wirtualna została nieoczekiwanie wyłączona, włącz ją ponownie, a następnie rozwiąż przyczyny nieoczekiwanego zamknięcia.

  3. Sprawdź, czy problem dotyczy wielu maszyn wirtualnych, czy tylko jednej. Jeśli problem dotyczy wielu maszyn wirtualnych, należy wziąć pod uwagę podobieństwa między maszynami wirtualnymi, których dotyczy problem, podczas próby zawężenia potencjalnego zakresu. W szczególności należy skupić się na infrastrukturze współużytkowanej, od której zależy grupa maszyn wirtualnych, których dotyczy problem, oraz na tym, czy dotyczy to wszystkich maszyn wirtualnych zależnych od tej wspólnej infrastruktury. 

  4. Określ, czy system operacyjny gościa reaguje na interakcję w konsoli maszyny wirtualnej. Jeśli problem został odizolowany w systemie operacyjnym gościa lub aplikacjach w maszynie wirtualnej, a system operacyjny gościa reaguje w konsoli, wejdź w interakcję z systemem operacyjnym gościa w konsoli, aby rozwiązać problem. 

  5. Określ, czy system operacyjny gościa lub jego usługi aplikacji reagują na interakcję za pośrednictwem sieci.

  6. Sprawdź, czy system operacyjny gościa zgłosił jakiekolwiek błędy krytyczne do konsoli i znajduje się w stanie zatrzymania.

  7. Sprawdź, czy host ESX/ESXi również nie odpowiada. Jeśli host również nie odpowiada, zakres jest większy niż początkowo zakładano.


Zidentyfikuj przyczynę:
Na tym etapie ustalono, że co najmniej jedna maszyna wirtualna nie odpowiada zarówno w konsoli wirtualnej, jak i przez sieć. Sam host reaguje. Może występować problem z dostępnością lub rywalizacją o zasoby, albo z podstawową infrastrukturą pamięci masowej lub sieci.
Aby zidentyfikować przyczynę:

  1. Sprawdź, czy problem jest wyzwalany przez operację lub zadanie wykonywane na maszynie wirtualnej. Na przykład operacje migawki i vMotion ogłuszają maszynę wirtualną na krótkie okresy czasu, podczas gdy stan pamięci jest kopiowany przez sieć lub na dysk.

  2. Niektóre typowe błędy konfiguracji mogą prowadzić do tego, że maszyna wirtualna przestaje odpowiadać, na przykład podczas oczekiwania na zasób. Sprawdź konfigurację maszyny wirtualnej i hosta. 

  3. Maszyny wirtualne zależą od funkcjonalnej infrastruktury zapasowej. Jeśli występuje problem z pamięcią masową lub infrastrukturą sieciową, od której zależy maszyna wirtualna, może to mieć wpływ na sprzęt wirtualny, który maszyna wirtualna przedstawia systemowi operacyjnemu gościa. Rozwiąż podstawowy problem z pamięcią masową lub siecią.

  4. Maszyny wirtualne zależą od dostępnych zasobów hosta (procesora CPU, pamięci), a system operacyjny gościa zużywa te zasoby. Problem z dostępnością zasobów lub harmonogramem wewnątrz lub na zewnątrz maszyny wirtualnej może spowodować, że przestanie ona odpowiadać. Maszyna wirtualna może również blokować niedostępne zasoby lub obracać się na poziomie 100% wykorzystania procesora wirtualnego. 


Plan działania:
Na tym etapie ustalono, że host z uruchomionymi maszynami wirtualnymi reaguje i nie napotyka żadnych problemów ze współużytkowaną pamięcią masową lub infrastrukturą sieciową. System operacyjny gościa nie uległ awarii z powodu błędu krytycznego, ale nadal nie odpowiada w konsoli maszyny wirtualnej i za pośrednictwem sieci.
Podejmij działania w celu odzyskania lub zebrania informacji o nieodpowiadającej maszynie wirtualnej na podstawie warstwy architektury, która jest podejrzana:

  • Jeśli problem został wyizolowany w systemie operacyjnym gościa lub %RUN jest stosunkowo wysoka, ale monitor maszyny wirtualnej działa poprawnie, przenieś badanie do systemu operacyjnego gościa lub aplikacji maszyny wirtualnej. System operacyjny gościa może przestać odpowiadać wewnątrz maszyny wirtualnej w taki sam sposób, jak na sprzęcie fizycznym:

    1. Zbieraj dane dotyczące wydajności podczas występowania problemu.

    2. Spróbuj ręcznie wywołać błąd jądra w systemie operacyjnym gościa, aby zebrać dodatkowe informacje o jego stanie wewnętrznym. Jeśli system operacyjny gościa generuje przydatne informacje diagnostyczne w odpowiedzi na jedno z tych zdarzeń, skontaktuj się z dostawcą systemu operacyjnego gościa, aby dokładniej zbadać.

    3. Jeśli krok 2 nie przyniesie użytecznych informacji, zawieś maszynę wirtualną, aby zebrać informacje o jej stanie wewnętrznym i otwórz zgłoszenie w dziale pomocy technicznej VMware:

      1. Wstrzymaj maszynę wirtualną i zbierz .vmss Wstrzymaj plik stanu.

      2. Zbierz dzienniki z hosta, na którym działa maszyna wirtualna.

      3. Włącz ponownie maszynę wirtualną, a następnie ją zresetuj.

      4. Zaangażuj pomoc techniczną VMware, dostarczając informacje zebrane w krokach 1, 3a i 3b.

  • Jeśli problem został odizolowany w monitorze maszyny wirtualnej lub %WAIT jest stosunkowo wysoka lub próby wstrzymania maszyny wirtualnej nie powiodły się, należy zebrać dane dotyczące wydajności i wymusić awarię maszyny wirtualnej w celu zebrania dodatkowych informacji o jej stanie wewnętrznym:

    1. Zbieraj dane dotyczące wydajności podczas występowania problemu.

    2. Wyłącz maszynę wirtualną, aby zebrać informacje o jej stanie wewnętrznym.

      UWAGA: Jeśli próby awarii maszyny wirtualnej nie powiodą się, przejdź do następnej sekcji i spróbuj spowodować awarię hosta.
    3. Skontaktuj się z działem pomocy technicznej VMware, dostarczając informacje zebrane w krokach 1 i 2.

  • Jeśli problem został odizolowany w monitorze maszyny wirtualnej, ale próby wstrzymania lub awarii maszyny wirtualnej kończą się niepowodzeniem, oznacza to problem z jądrem maszyny wirtualnej. Zbierz pakiet dzienników z hosta, ewakuuj z hosta wszystkie maszyny wirtualne, których nie dotyczy problem, i użyj NMI, aby celowo wygenerować fioletowy ekran diagnostyczny:

    1. Zbieraj dane dotyczące wydajności podczas występowania problemu.

    2. Przenieś wszystkie maszyny wirtualne, których nie dotyczy problem, z hosta za pomocą funkcji vMotion. Jeśli to możliwe, użyj trybu konserwacji, aby zapobiec uruchamianiu dodatkowych maszyn wirtualnych na hoście.

    3. Skonfiguruj hosta tak, aby wchodził w stan awarii po odebraniu przerwania, którego nie można maskować, a następnie wystawij NMI w celu wyzwolenia błędu.

    4. Po wygenerowaniu przez hosta fioletowego ekranu diagnostycznego i wykonaniu zrzutu informacji diagnostycznych wykonaj zrzut ekranu lub zdjęcie konsoli i uruchom ponownie hosta.

    5. Zbierz informacje diagnostyczne z hosta.

    6. Skontaktuj się z działem pomocy technicznej VMware, dostarczając informacje zebrane w krokach 1, 4 i 5.


Powiązane artykuły
VMware KB 1007819: https://kb.vmware.com/kb/1007819 Ikona łącza innej firmy

Additional Information

VCE System Wszystko
Komponent vSphere

Products

VMware ESXi
Article Properties
Article Number: 000205776
Article Type: How To
Last Modified: 17 Dec 2024
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.