故障診斷已停止回應的虛擬機器
Summary: 本文提供的步驟,可隔離 vSphere 虛擬機器無回應的可能原因。
Instructions
目標
本文提供的步驟,可隔離 vSphere 虛擬機器無回應的可能原因。
無回應的虛擬機不會回應任何連接嘗試,並且可能無法回應任何重新啟動電源的嘗試。虛擬機最終處於無回應狀態的原因有很多。本文使您能夠識別並解決這些常見原因,並在解決後將虛擬機恢復到操作狀態。
可以在不故障診斷原因的情況下硬關閉虛擬機電源,但這將阻止收集和分析可能有助於確定中斷根本原因的資訊。
事實
在 VMware ESX/ESXi 上執行的虛擬機器不會回應任何外部輸入或表現出任何活動。具體來說:
-
來賓作業系統不會回應主控台上的鍵盤或滑鼠活動
-
來賓作業系統不會回應網路通訊,包括 ping、RDP、SSH 等。
-
虛擬機器主控台畫面為靜態,不會變更或重新整理
-
在虛擬機器上執行的工作會失敗、逾時或無法啟動
-
虛擬機器不會產生網路或磁碟流量
解決方案
由於多種原因,虛擬機提供的服務可能會變得無回應或無法訪問,包括虛擬機中的應用程式或客戶機操作系統的問題、虛擬機監視器或虛擬設備的問題、主機上的資源爭用或底層存儲或網路基礎結構的問題。
如果客體作業系統正在產生任何活動,則表示它已成功執行。在這種情況下,無回應可能是由於連接問題或資源爭用,或者特定於更高級別的元件,例如在來賓操作系統中運行的應用程式或服務。
驗證範圍:
擁有準確的癥狀和了解問題的範圍非常重要。若要確認問題的範圍,請執行下列檢查:
-
確認虛擬機器確實沒有回應。虛擬機可能未通過一個介面回應,但在其他介面上正常運行。
-
確認虛擬機器已開啟電源。如果虛擬機器意外關閉電源,請重新開啟電源,然後針對意外關機的原因進行故障診斷。
-
確定此問題是影響多個虛擬機還是僅影響一個虛擬機。如果多個虛擬機受到影響,請在嘗試縮小潛在範圍時考慮受影響的虛擬機之間的相似性。請特別關注受影響的虛擬機組所依賴的共用基礎結構,以及依賴於該通用基礎結構的所有虛擬機是否受到影響。
-
確定客戶機操作系統是否回應虛擬機控制台上的交互。如果問題已隔離到來賓操作系統或虛擬機中的應用程式,並且來賓操作系統在控制臺上回應,請在控制臺上與來賓操作系統交互以解決問題。
-
確定客戶機作業系統或其應用程式服務是否回應通過網路進行的交互。
-
判斷客體作業系統是否已向主控台報告任何嚴重錯誤,且處於暫停狀態。
-
判斷 ESX/ESXi 主機是否也沒有回應。如果主機也沒有回應,則範圍會比最初假設的更大。
確定原因:
此時,您已經確定一個或多個虛擬機在虛擬控制台和網路上都沒有回應。主機本身有回應。資源可訪問性或爭用,或者底層存儲或網路基礎結構可能存在問題。
若要確定原因:
-
確定問題是由在虛擬機上執行的操作或任務觸發的。例如,當記憶體狀態通過網路或磁碟複製時,快照和 vMotion 操作都會在短時間內震暈虛擬機。
-
一些常見的配置錯誤可能會導致虛擬機無回應,例如在等待資源時。檢閱虛擬機器和主機組態。
-
虛擬機依賴於功能性後備基礎結構。如果虛擬機器所依賴的支援儲存裝置或網路基礎結構發生問題,虛擬機器呈現給客體作業系統的虛擬硬體可能會受到影響。解決底層儲存裝置或網路問題。
-
虛擬機依賴於可用的主機資源(CPU、記憶體),客戶機操作系統會消耗這些資源。虛擬機內部或外部的資源可用性或調度問題可能會導致其無回應。虛擬機也可能阻塞不可用的資源,或以 100% 的 vCPU 利用率旋轉。
行動計劃:
此時,您已經確定運行虛擬機的主機回應迅速,並且不會遇到任何共用存儲或網路基礎結構問題。客體作業系統未故障並出現嚴重錯誤,但在虛擬機器主控台和網路中仍無回應。
根據可疑的架構層,採取行動來復原或收集無回應虛擬機器的相關資訊:
-
如果問題已隔離至客體作業系統,或
%RUN相對較高,但虛擬機監視器運行正常,請將調查移至虛擬機的來賓操作系統或應用程式內。客體作業系統在虛擬機器內可能會變得無回應,其方式與在實體硬體上相同:-
在問題發生時收集性能數據。
-
嘗試在客體作業系統內手動誘導核心錯誤,以收集有關其內部狀態的其他資訊。如果來賓作業系統針對其中一個事件產生有用的診斷資訊,請聯絡來賓作業系統廠商以進一步調查。
-
如果步驟 2 未產生實用資訊,請暫停虛擬機器以收集有關其內部狀態的資訊,並向 VMware 支援開啟案例:
-
暫停虛擬機器並收集
.vmss暫停狀態檔。 -
從運行虛擬機的主機收集日誌。
-
重新開啟虛擬機器電源,然後進行重設。
-
聯絡 VMware 支援,提供在步驟 1、3a 和 3b 中收集到的資訊。
-
-
-
如果問題已隔離至虛擬機器監視器,或
%WAIT相對較高,或者嘗試掛起虛擬機失敗,收集性能數據並強制崩潰虛擬機,以收集有關其內部狀態的其他資訊:-
在問題發生時收集性能數據。
-
使虛擬機崩潰以收集有關其內部狀態的資訊。
注意:如果嘗試使虛擬機崩潰失敗,請跳至下一部分並嘗試使主機崩潰。 -
聯絡 VMware 支援,提供在步驟 1 和 2 中收集到的資訊。
-
-
如果問題已隔離至虛擬機器監視器,但嘗試暫停虛擬機器或使其崩潰失敗,則反映 VMkernel 存在問題。從主機收集記錄套裝,從主機撤出所有未受影響的虛擬機器,然後使用 NMI 刻意產生紫色診斷畫面:
-
在問題發生時收集性能數據。
-
使用 vMotion 將所有未受影響的虛擬機器移出主機。如果可能,請使用維護模式以防止在主機上啟動其他虛擬機。
-
設定主機在收到無法遮罩的中斷時發生錯誤,然後發出 NMI 以觸發錯誤。
-
主機生成紫色診斷螢幕並完成診斷資訊轉儲后,拍攝控制台的螢幕截圖或照片,然後重新啟動主機。
-
從主機收集診斷資訊。
-
聯絡 VMware 支援,提供在步驟 1、4 和 5 中收集到的資訊。
-
相關的文章
VMware KB 1007819:https://kb.vmware.com/kb/1007819 
Additional Information
| VCE 系統 | 全部 |
| 元件 | vSphere |