Fehlerbehebung bei einer virtuellen Maschine, die nicht mehr reagiert
Summary: Dieser Artikel enthält Schritte zum Isolieren möglicher Ursachen dafür, dass eine virtuelle vSphere-Maschine nicht mehr reagiert.
Instructions
Ziele
Dieser Artikel enthält Schritte zum Isolieren möglicher Ursachen dafür, dass eine virtuelle vSphere-Maschine nicht mehr reagiert.
Eine nicht reagierende virtuelle Maschine reagiert nicht auf Verbindungsversuche und ist möglicherweise nicht in der Lage, auf Versuche zu reagieren, sie aus- und wieder einzuschalten. Es gibt eine Vielzahl von Gründen, warum eine virtuelle Maschine in einen nicht reagierenden Zustand geraten kann. Dieser Artikel ermöglicht es Ihnen, diese häufigen Ursachen zu identifizieren und zu beheben und, wenn sie behoben sind, die virtuelle Maschine wieder in den Betriebszustand zu versetzen.
Es ist möglich, eine virtuelle Maschine ohne Troubleshooting der Ursache auszuschalten. Dadurch werden jedoch keine Informationen erfasst und analysiert, die bei der Ermittlung der Ursache des Ausfalls hilfreich sein könnten.
Fakten
Eine virtuelle Maschine, die auf VMware ESX/ESXi ausgeführt wird, reagiert weder auf externe Eingaben noch zeigt sie eine Aktivität. Konkret:
-
Das Gastbetriebssystem reagiert nicht auf Tastatur- oder Mausaktivität an der Konsole
-
Das Gastbetriebssystem reagiert nicht auf Netzwerkkommunikation, einschließlich Ping, RDP, SSH usw.
-
Der Konsolenbildschirm der virtuellen Maschine ist statisch und wird nicht geändert oder aktualisiert.
-
Auf der virtuellen Maschine ausgeführte Aufgaben schlagen fehl, überschreiten die Zeitüberschreitung oder werden nicht gestartet
-
Die virtuelle Maschine erzeugt keinen Netzwerk- oder Festplattendatenverkehr
Lösung
Die von einer virtuellen Maschine bereitgestellten Services reagieren möglicherweise nicht mehr oder sind aus verschiedenen Gründen nicht erreichbar, z. B. Probleme mit den Anwendungen oder dem Gastbetriebssystem innerhalb der virtuellen Maschine, Probleme mit dem Monitor der virtuellen Maschine oder virtuellen Geräten, Ressourcenkonflikte auf dem Host oder Probleme mit der zugrunde liegenden Storage- oder Netzwerkinfrastruktur.
Wenn das Gastbetriebssystem Aktivitäten erzeugt, wird es erfolgreich ausgeführt. In diesem Fall ist die Nichtreaktion wahrscheinlich auf ein Konnektivitätsproblem oder Ressourcenkonflikte zurückzuführen oder spezifisch für eine übergeordnete Komponente, z. B. eine Anwendung oder einen Service, die bzw. der innerhalb des Gastbetriebssystems ausgeführt wird.
Validieren Sie den Umfang:
Es ist wichtig, genaue Symptome und ein Verständnis für den Umfang eines Problems zu haben. Um den Umfang des Problems zu bestätigen, führen Sie die folgenden Prüfungen durch:
-
Vergewissern Sie sich, dass die virtuelle Maschine tatsächlich nicht reagiert. Es ist möglich, dass die virtuelle Maschine über eine Schnittstelle nicht reagiert, auf anderen jedoch ordnungsgemäß funktioniert.
-
Stellen Sie sicher, dass die virtuelle Maschine eingeschaltet ist. Wenn die virtuelle Maschine unerwartet ausgeschaltet wurde, schalten Sie sie wieder ein und beheben Sie die Ursache für das unerwartete Herunterfahren.
-
Stellen Sie fest, ob dieses Problem mehrere virtuelle Maschinen betrifft oder nur eine. Wenn mehrere virtuelle Maschinen betroffen sind, berücksichtigen Sie die Ähnlichkeiten zwischen den betroffenen virtuellen Maschinen, wenn Sie versuchen, den potenziellen Umfang einzugrenzen. Konzentrieren Sie sich insbesondere auf die gemeinsam genutzte Infrastruktur, von der die Gruppe der betroffenen virtuellen Maschinen abhängt, und darauf, ob alle von dieser gemeinsamen Infrastruktur abhängigen virtuellen Maschinen betroffen sind.
-
Bestimmen Sie, ob das Gastbetriebssystem auf die Interaktion an der Konsole der virtuellen Maschine reagiert. Wenn ein Problem auf das Gastbetriebssystem oder Anwendungen innerhalb der virtuellen Maschine beschränkt wurde und das Gastbetriebssystem an der Konsole reagiert, interagieren Sie mit dem Gastbetriebssystem an der Konsole, um das Problem zu beheben.
-
Bestimmen Sie, ob das Gastbetriebssystem oder seine Anwendungsservices auf Interaktionen über das Netzwerk reagieren.
-
Stellen Sie fest, ob das Gastbetriebssystem kritische Fehler an die Konsole gemeldet hat und sich in einem angehaltenen Zustand befindet.
-
Stellen Sie fest, ob der ESX/ESXi-Host ebenfalls nicht reagiert. Wenn der Host ebenfalls nicht reagiert, ist der Umfang größer als ursprünglich angenommen.
Identifizieren Sie die Ursache:
An diesem Punkt haben Sie festgestellt, dass eine oder mehrere virtuelle Maschinen sowohl auf der virtuellen Konsole als auch über das Netzwerk nicht reagieren. Der Host selbst reagiert. Möglicherweise besteht ein Problem mit der Zugänglichkeit oder der Ressourcenknappheit oder mit der zugrunde liegenden Storage- oder Netzwerkinfrastruktur.
So identifizieren Sie die Ursache:
-
Stellen Sie fest, ob das Problem durch einen Vorgang oder eine Aufgabe ausgelöst wird, der bzw. die auf der virtuellen Maschine ausgeführt wird. Beispielsweise wird eine virtuelle Maschine bei Snapshot- und vMotion-Vorgängen für kurze Zeit betäubt, während der Speicherstatus über das Netzwerk oder auf die Festplatte kopiert wird.
-
Einige häufige Konfigurationsfehler können dazu führen, dass eine virtuelle Maschine nicht mehr reagiert, z. B. beim Warten auf eine Ressource. Überprüfen Sie die Konfiguration der virtuellen Maschine und des Hosts.
-
Virtuelle Maschinen sind von einer funktionierenden Sicherungsinfrastruktur abhängig. Wenn ein Problem mit der Sicherungsspeicher- oder Netzwerkinfrastruktur vorliegt, von der die virtuelle Maschine abhängt, kann die virtuelle Hardware, die eine virtuelle Maschine dem Gastbetriebssystem zur Verfügung stellt, beeinträchtigt sein. Beheben Sie das zugrunde liegende Speicher- oder Netzwerkproblem.
-
Virtuelle Maschinen sind von verfügbaren Hostressourcen (CPU, Arbeitsspeicher) abhängig und das Gastbetriebssystem verbraucht diese Ressourcen. Ein Problem mit der Ressourcenverfügbarkeit oder -planung innerhalb oder außerhalb der virtuellen Maschine kann dazu führen, dass sie nicht mehr reagiert. Die virtuelle Maschine blockiert möglicherweise auch nicht verfügbare Ressourcen oder dreht sich mit 100 % vCPU-Auslastung.
Aktionsplan:
An diesem Punkt haben Sie festgestellt, dass der Host, auf dem die virtuelle Maschine(n) ausgeführt wird, reagiert und keine Probleme mit der gemeinsamen Speicher- oder Netzwerkinfrastruktur aufweist. Das Gastbetriebssystem ist nicht mit einem kritischen Fehler fehlgeschlagen, reagiert aber weiterhin nicht auf der Konsole der virtuellen Maschine und über das Netzwerk.
Ergreifen Sie Maßnahmen, um Informationen über die nicht reagierende virtuelle Maschine basierend auf der Architekturschicht wiederherzustellen oder zu sammeln, die verdächtig sind:
-
Wenn ein Problem auf das Gastbetriebssystem oder die
%RUNrelativ hoch ist, aber der VM-Monitor ordnungsgemäß funktioniert, verschieben Sie die Untersuchung in das Gastbetriebssystem oder die Anwendungen der virtuellen Maschine. Ein Gastbetriebssystem kann in einer virtuellen Maschine auf die gleiche Weise wie auf physischer Hardware nicht mehr reagieren:-
Erfassen Sie Performancedaten, während das Problem auftritt.
-
Versuchen Sie, manuell einen Fehler des Kernels im Gastbetriebssystem auszulösen, um zusätzliche Informationen über seinen internen Zustand zu sammeln. Wenn das Gastbetriebssystem als Reaktion auf eines dieser Ereignisse nützliche Diagnoseinformationen erzeugt, wenden Sie sich an den Anbieter des Gastbetriebssystems, um weitere Untersuchungen durchzuführen.
-
Wenn Schritt 2 keine nützlichen Informationen liefert, halten Sie die virtuelle Maschine an, um Informationen über ihren internen Status zu sammeln, und eröffnen Sie einen Fall beim VMware-Support:
-
Halten Sie die virtuelle Maschine an und erfassen Sie die
.vmssSuspend-Statusdatei. -
Erfassen Sie Protokolle vom Host, auf dem die virtuelle Maschine ausgeführt wird.
-
Schalten Sie die virtuelle Maschine wieder ein und setzen Sie sie dann zurück.
-
Wenden Sie sich an den VMware-Support und stellen Sie die in den Schritten 1, 3a und 3b erfassten Informationen bereit.
-
-
-
Wenn ein Problem auf den VM-Monitor oder das Symbol
%WAITrelativ hoch ist oder Versuche, die virtuelle Maschine anzuhalten, fehlgeschlagen sind, erfassen Leistungsdaten und erzwingen einen Absturz der virtuellen Maschine, um zusätzliche Informationen über ihren internen Zustand zu sammeln:-
Erfassen Sie Performancedaten, während das Problem auftritt.
-
Bringen Sie die virtuelle Maschine zum Absturz, um Informationen über ihren internen Zustand zu sammeln.
HINWEIS: Wenn Versuche, die virtuelle Maschine zum Absturz zu bringen, fehlschlagen, fahren Sie mit dem nächsten Abschnitt fort und versuchen Sie, den Host zum Absturz zu bringen. -
Wenden Sie sich an den VMware-Support und geben Sie die in Schritt 1 und 2 erfassten Informationen an.
-
-
Wenn ein Problem auf die Überwachung der virtuellen Maschine isoliert wurde, aber Versuche, die virtuelle Maschine anzuhalten oder zum Absturz zu bringen, fehlschlagen, weist dies auf ein Problem mit dem VMkernel hin. Erfassen Sie ein Protokoll-Bundle vom Host, evakuieren Sie alle nicht betroffenen virtuellen Maschinen vom Host und verwenden Sie einen NMI, um absichtlich einen violetten Diagnosebildschirm zu erzeugen:
-
Erfassen Sie Performancedaten, während das Problem auftritt.
-
Verschieben Sie alle nicht betroffenen virtuellen Maschinen mithilfe von vMotion vom Host. Verwenden Sie nach Möglichkeit den Wartungsmodus, um zu verhindern, dass zusätzliche virtuelle Maschinen auf dem Host gestartet werden.
-
Konfigurieren Sie den Host so, dass er beim Empfang eines nicht maskierbaren Interrupts einen Fehler auslöst, und geben Sie dann einen NMI aus, um einen Fehler auszulösen.
-
Nachdem der Host einen violetten Diagnosebildschirm erzeugt und das Speicherabbild der Diagnoseinformationen abgeschlossen hat, machen Sie einen Screenshot oder ein Foto der Konsole und starten Sie den Host neu.
-
Erfassen Sie Diagnoseinformationen vom Host.
-
Wenden Sie sich an den VMware-Support und geben Sie die in den Schritten 1, 4 und 5 erfassten Informationen an.
-
Verwandte Artikel
VMware KB-1007819: https://kb.vmware.com/kb/1007819 
Additional Information
| VCE-System | Alle |
| Komponente | vSphere |