PowerPath:常見 ESXi 問題和故障診斷要檢查的項目

Summary: 本知識文章旨在提供 ESXi 問題的常見資訊,以及進行故障診斷的步驟。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

使
有許多事情可能會導致 ESXi 主機發生問題。
本簡報列出一些最常見的問題及其故障診斷步驟。

主意

基本檢查
  • 版本 - 是最新版本且仍受支援

  • 查看發行說明的「已知問題」部分,瞭解常見問題、修復程式和 JIRA 連結。

  • 您可以在下列位置找到 PowerPath 的版本:

  • PP/rpowermt 版本

  • 檔案位置:host/command/localcli_software-vib-list.txt

  • 常見問題與錯誤

常見問題與錯誤

  • 連線能力
  • 永久裝置遺失
  • 所有路徑向下
  • PowerPath


連線能力 

訊息會在 vmkernel 而且經常 vmkwarning 輸出。

“有疑問的狀態;請求的快速路徑狀態更新”

當主機匯流排配接卡 (HBA) 驅動程式取消命令時,會顯示這些訊息,因為命令完成的時間超過 5 秒的逾時期間。由於以下多種原因,操作可能需要比超時期限更長的時間,包括:

  • 陣列備份作業 (LUN 備份、複寫等)
  • 陣列的一般重載
  • 陣列上的讀取/寫入快取 (組態錯誤、缺少快取等)
  • 光纖問題 (交換器間連結 (ISL) 損壞、韌體過時、光纖纜線/GBIC 損壞)
  • 高 SAN 延遲 

VMware KB# 1022026 此超連結會帶您前往 Dell Technologies 以外的網站。

範例:

/var/log/vmkernel.log 檔案中,您會看到類似以下內容的項目:

 

<YYYY-MM-DD>T<time> esx12 vmkernel: 116:03:44:19.039 cpu4:4196)<6>qla2xxx 0000:0f:00.0: scsi(6:0:152): Abort command issued -- 1 67a23dcd 2002.

<YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)NMP: nmp_CompleteCommandForPath: Command 0x2a (0x4100020e0b00) to NMP device "sym.029010111831353837" failed on physical path "vmhba2:C0:T0:L152" H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0.

<YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe: NMP device "sym.029010111831353837" state in doubt; requested fast path state update...</time>

 

/commands/Localcli_storage-core-adapter-stats-get.txt

上述內容可用於檢查 HBA 負載平衡和保留衝突。
成功命令的嚴重不平衡可能表示固定路徑策略或其他平衡問題。

保留衝突可能代表 Unity 陣列上的主機邏輯單元 (HLU) 不相符。  

Dell EMC Unity/VNX/CLARiiON:如果 LUN 位於多個儲存群組中,且 HLU 不相符,VMware 將無法正確看到 LUN (使用者可修正)
 

Localcli_storage-core-device-stats-get.txt 

以上提供 LUN 統計資料,並顯示哪些 LUN 有保留衝突。  

 

/commands/localcli_storage-san-fc-stats-get.txt

上述命令可用於檢查 HBA 統計資料,例如: 

  • 傾印的訊框
  • 連結故障計數
  • 訊號計數遺失
  • 無效的 Tx 字數統計

 

/commands/Localcli_storage-san-fc-events-get.txt

顯示最近的FC事件時間戳記、連結上線或下線等。  

 

/var/run/log/vmksummary.log

顯示主機開機並重新開機或無回應的時間戳記。
據我瞭解,HBA 統計資料會在重新開機時重設。
這會提供發生 FC 統計資料的時間範圍。  

範例:

2022-10-09T13:05:21Z bootstop: Host is rebooting

2022-10-09T13:10:55.351Z bootstop[2107273]: Host has booted

 

執行儲存陣列維護或任何可能導致陣列目標離線/連線的動作時,Cisco 原生 FNIC 驅動程式可能無法正確登入目標,導致路徑停留在失效狀態。

此問題是由 Cisco 原生 FNIC 驅動程式在 REPORT_LUNS 命令期間收到 RSCN 所造成 nfnic 連接埠登入程序,這會導致驅動程式停止,且不會重試登入程序。IBM SVC 和 IBM V7000 陣列均可觀察到此情況,但由於它們都使用相同的軟體堆疊,因此在任何 IBM Storwize 陣列上也可能會觀察到此情況。非 IBM 陣列也會觀察到這種情況,只要它們在驅動程式登入期間傳送的 REPORT_LUNS 命令期間發出 RSCN。

效能和路徑中斷/APD 問題都可透過升級至 nfnic 4.0.0.63 及更新版本。
請聯絡 VMware 和 Cisco 以取得其他資訊和支援。

驅動程式版本可在以下位置找到: /commands/localcli_software-vib-list.txt

(輸入驅動程式 vib 名稱在這裡)(可能與 6.x 與 7.x 的 DIF)

VMware KB# 80101此超連結會帶您前往 Dell Technologies 以外的網站。

 

永久裝置遺失 (PDL)/所有路徑下降 (APD)

永久裝置遺失 (PDL)

  • 數據存儲在「存儲」檢視中顯示為不可用。
  • 儲存裝置配接卡會將裝置的作業狀態指示為「通訊中斷」。
  • 連接至裝置的所有路徑都會標示為「失效」。
  • /var/log/vmkernel.log 檔案中,您會看到類似以下內容的項目:

 

範例

cpu2:853571)VMW_SATP_ALUA: satp_alua_issueCommandOnPath:661: Path "vmhba4:C0:T0:L0" (PERM LOSS) command 0xa3 failed with status Device is permanently unavailable. H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0.

cpu2:853571)WARNING: vmw_psp_rr: psp_rrSelectPathToActivate:972:Could not select path for device "naa.60a98000572d54724a34642d71325763".

cpu2:853571)WARNING: ScsiDevice: 1223: Device :naa.60a98000572d54724a34642d71325763 has been removed or is permanently inaccessible.

cpu3:2132)ScsiDeviceIO: 2288: Cmd(0x4124403c1fc0) 0x9e, CmdSN 0xec86 to dev "naa.60a98000572d54724a34642d71325763" failed H:0x8 D:0x0 P:0x0

cpu3:2132)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device.

cpu2:2127)ScsiDeviceIO: 2316: Cmd(0x4124403c1fc0) 0x25, CmdSN 0xecab to dev "naa.60a98000572d54724a34642d71325763" failed H:0x1 D:0x0 P:0x0 Possible sense data: 0x5 0x25 0x0.

cpu2:854568)WARNING: ScsiDeviceIO: 7330: READ CAPACITY on device "naa.60a98000572d54724a34642d71325763" from Plugin "NMP" failed. I/O error

cpu2:854568)ScsiDevice: 1238: Permanently inaccessible device :naa.60a98000572d54724a34642d71325763 has no more open connections. It is now safe to unmount datastores (if any) and delete the device.

 

所有向下路徑 (APD)

  • 數據存儲在「存儲」檢視中顯示為不可用。
  • 儲存裝置配接器會將裝置的作業狀態指出為失效或錯誤。
  • 連接至裝置的所有路徑都會標示為「失效」。
  • 您無法使用 vSphere Client 直接連線至 ESXi 主機。
  • ESXi 主機在 vCenter Server 中顯示為中斷連線。
  • /var/log/vmkernel.log 檔,類似的項目會顯示為:

 

範例

cpu1:2049)WARNING: NMP: nmp_IssueCommandToDevice:2954:I/O could not be issued to device "naa.60a98000572d54724a34642d71325763" due to Not found

cpu1:2049)WARNING: NMP: nmp_DeviceRetryCommand:133:Device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device.

cpu1:2049)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device.

cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60a98000572d54724a34642d71325763" - issuing command 0x4124007ba7c0

cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:658:Retry world failover device "naa.60a98000572d54724a34642d71325763" - failed to issue command due to Not found (APD), try again...

 

*請查看 VMware KB# 以取得解決方案,以及根據各種情況取得的其他範例*。

**應檢查 SAN,以及 ADP/PDL 問題的行動項目**。 

VMware KB# 2004684此超連結會帶您前往 Dell Technologies 以外的網站。

 

PowerPath

如果 PowerPath 存在,還需要檢查一些其他事項。

相容性 - 執行中的 ESXi 版本是否支援使用的 PowerPath 版本。
這可以在 ESM 中驗證。

連接- 

當 PowerPath 偵測到遺失的路徑時,可能會出現幾種類型的訊息,包括: 

PowerPath:如何調查 PowerPath 中的路徑失效


NMP 設定

大部分 Dell 陣列*,VPLEX 除外,循環制 (policy=rr ) 且 IOPS=1 為獲得最佳效能,建議使用。
提到效能或延遲時,應核取此設定。

這可以在下面的抓取中找到 /commands/localcli_storage-nmp-device-list.txt or /json/localcli_storage-nmp-device-list.json 

*請務必參閱最新的主機連線能力指南和儲存裝置最佳實務指南,以取得最新建議。

VMware 文章編號 2069356

將循環制 IOPS 限制從預設的 1000 調整為 1 (2069356)此超連結會帶您前往 Dell Technologies 以外的網站。

Dell EMC 主機連線能力指南 VMware ESXi 伺服器

團結 - 第 36 頁

PowerStore - 第 62 頁

EMC XtremIO 主機連線能力指南

第3章 - 第57頁

 

中的 NMNP 設定範例 /commands/localcli_storage-nmp-device-list.txt

設定不正確

naa.6006016051904d00f056b95dc4abd917:

   Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)

   Storage Array Type: VMW_SATP_ALUA_CX

   Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}

   Path Selection Policy: VMW_PSP_RR

   Path Selection Policy Device Config: {policy=rr,iops=1000,bytes=10485760,useANO=0;  lastPathIndex=3: NumIOsPending=0,numBytesPending=0}

   Path Selection Policy Device Custom Config: 

   Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10

 

正確的設定

naa.6006016051904d00f056b95dc4abd917:

   Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)

   Storage Array Type: VMW_SATP_ALUA_CX

   Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}

   Path Selection Policy: VMW_PSP_RR

   Path Selection Policy Device Config: {policy=rr,iops=1,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}

   Path Selection Policy Device Custom Config: 

   Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10

 

 

注意事項

ESXi 6.7 與 Cisco 有幾個已知問題 nfnic 導致效能和連線能力問題的驅動程式。
如果問題與上述其中一項有關,請驗證 Cisco nfnic 驅動程式版本,並檢查 VMware 知識庫 (KB) 以瞭解受影響的版本。

驅動程式版本可在以下項目的輸出中找到: /commands/localcli_software-vib-list.txt 檔案。

其他資訊
如果必須參與其他團隊,請務必獲得以下內容:

  • 記錄 (交換器/儲存裝置)
  • 儲存 SN#
  • 問題發生的日期與時間

如果客戶要求協助與 VMware 接洽,請引導客戶前往 VMware「Contact us」頁面。
支援聯絡選項 此超連結會帶您前往 Dell Technologies 以外的網站。

Additional Information

請參閱已知問題的所有說明文件,例如版本資訊和 CLI 常見訊息指南,以取得有關已知問題和解決方法的最新資訊。

Affected Products

PowerPath, PowerPath, PowerPath/VE, PowerPath/VE for VMware
Article Properties
Article Number: 000205090
Article Type: How To
Last Modified: 12 Nov 2025
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.