PowerPath:常見 ESXi 問題和故障診斷要檢查的項目

Riepilogo: 本知識文章旨在提供 ESXi 問題的常見資訊,以及進行故障診斷的步驟。

Questo articolo si applica a Questo articolo non si applica a Questo articolo non è legato a un prodotto specifico. Non tutte le versioni del prodotto sono identificate in questo articolo.

Istruzioni

使
有許多事情可能會導致 ESXi 主機發生問題。
本簡報列出一些最常見的問題及其故障診斷步驟。

主意

基本檢查
  • 版本 - 是最新版本且仍受支援

  • 查看發行說明的「已知問題」部分,瞭解常見問題、修復程式和 JIRA 連結。

  • 您可以在下列位置找到 PowerPath 的版本:

  • PP/rpowermt 版本

  • 檔案位置:host/command/localcli_software-vib-list.txt

  • 常見問題與錯誤

常見問題與錯誤

  • 連線能力
  • 永久裝置遺失
  • 所有路徑向下
  • PowerPath


連線能力 

訊息會在 vmkernel 而且經常 vmkwarning 輸出。

“有疑問的狀態;請求的快速路徑狀態更新”

當主機匯流排配接卡 (HBA) 驅動程式取消命令時,會顯示這些訊息,因為命令完成的時間超過 5 秒的逾時期間。由於以下多種原因,操作可能需要比超時期限更長的時間,包括:

  • 陣列備份作業 (LUN 備份、複寫等)
  • 陣列的一般重載
  • 陣列上的讀取/寫入快取 (組態錯誤、缺少快取等)
  • 光纖問題 (交換器間連結 (ISL) 損壞、韌體過時、光纖纜線/GBIC 損壞)
  • 高 SAN 延遲 

VMware KB# 1022026 此超連結會帶您前往 Dell Technologies 以外的網站。

範例:

/var/log/vmkernel.log 檔案中,您會看到類似以下內容的項目:

 

<YYYY-MM-DD>T<time> esx12 vmkernel: 116:03:44:19.039 cpu4:4196)<6>qla2xxx 0000:0f:00.0: scsi(6:0:152): Abort command issued -- 1 67a23dcd 2002.

<YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)NMP: nmp_CompleteCommandForPath: Command 0x2a (0x4100020e0b00) to NMP device "sym.029010111831353837" failed on physical path "vmhba2:C0:T0:L152" H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0.

<YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe: NMP device "sym.029010111831353837" state in doubt; requested fast path state update...</time>

 

/commands/Localcli_storage-core-adapter-stats-get.txt

上述內容可用於檢查 HBA 負載平衡和保留衝突。
成功命令的嚴重不平衡可能表示固定路徑策略或其他平衡問題。

保留衝突可能代表 Unity 陣列上的主機邏輯單元 (HLU) 不相符。  

Dell EMC Unity/VNX/CLARiiON:如果 LUN 位於多個儲存群組中,且 HLU 不相符,VMware 將無法正確看到 LUN (使用者可修正)
 

Localcli_storage-core-device-stats-get.txt 

以上提供 LUN 統計資料,並顯示哪些 LUN 有保留衝突。  

 

/commands/localcli_storage-san-fc-stats-get.txt

上述命令可用於檢查 HBA 統計資料,例如: 

  • 傾印的訊框
  • 連結故障計數
  • 訊號計數遺失
  • 無效的 Tx 字數統計

 

/commands/Localcli_storage-san-fc-events-get.txt

顯示最近的FC事件時間戳記、連結上線或下線等。  

 

/var/run/log/vmksummary.log

顯示主機開機並重新開機或無回應的時間戳記。
據我瞭解,HBA 統計資料會在重新開機時重設。
這會提供發生 FC 統計資料的時間範圍。  

範例:

2022-10-09T13:05:21Z bootstop: Host is rebooting

2022-10-09T13:10:55.351Z bootstop[2107273]: Host has booted

 

執行儲存陣列維護或任何可能導致陣列目標離線/連線的動作時,Cisco 原生 FNIC 驅動程式可能無法正確登入目標,導致路徑停留在失效狀態。

此問題是由 Cisco 原生 FNIC 驅動程式在 REPORT_LUNS 命令期間收到 RSCN 所造成 nfnic 連接埠登入程序,這會導致驅動程式停止,且不會重試登入程序。IBM SVC 和 IBM V7000 陣列均可觀察到此情況,但由於它們都使用相同的軟體堆疊,因此在任何 IBM Storwize 陣列上也可能會觀察到此情況。非 IBM 陣列也會觀察到這種情況,只要它們在驅動程式登入期間傳送的 REPORT_LUNS 命令期間發出 RSCN。

效能和路徑中斷/APD 問題都可透過升級至 nfnic 4.0.0.63 及更新版本。
請聯絡 VMware 和 Cisco 以取得其他資訊和支援。

驅動程式版本可在以下位置找到: /commands/localcli_software-vib-list.txt

(輸入驅動程式 vib 名稱在這裡)(可能與 6.x 與 7.x 的 DIF)

VMware KB# 80101此超連結會帶您前往 Dell Technologies 以外的網站。

 

永久裝置遺失 (PDL)/所有路徑下降 (APD)

永久裝置遺失 (PDL)

  • 數據存儲在「存儲」檢視中顯示為不可用。
  • 儲存裝置配接卡會將裝置的作業狀態指示為「通訊中斷」。
  • 連接至裝置的所有路徑都會標示為「失效」。
  • /var/log/vmkernel.log 檔案中,您會看到類似以下內容的項目:

 

範例

cpu2:853571)VMW_SATP_ALUA: satp_alua_issueCommandOnPath:661: Path "vmhba4:C0:T0:L0" (PERM LOSS) command 0xa3 failed with status Device is permanently unavailable. H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0.

cpu2:853571)WARNING: vmw_psp_rr: psp_rrSelectPathToActivate:972:Could not select path for device "naa.60a98000572d54724a34642d71325763".

cpu2:853571)WARNING: ScsiDevice: 1223: Device :naa.60a98000572d54724a34642d71325763 has been removed or is permanently inaccessible.

cpu3:2132)ScsiDeviceIO: 2288: Cmd(0x4124403c1fc0) 0x9e, CmdSN 0xec86 to dev "naa.60a98000572d54724a34642d71325763" failed H:0x8 D:0x0 P:0x0

cpu3:2132)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device.

cpu2:2127)ScsiDeviceIO: 2316: Cmd(0x4124403c1fc0) 0x25, CmdSN 0xecab to dev "naa.60a98000572d54724a34642d71325763" failed H:0x1 D:0x0 P:0x0 Possible sense data: 0x5 0x25 0x0.

cpu2:854568)WARNING: ScsiDeviceIO: 7330: READ CAPACITY on device "naa.60a98000572d54724a34642d71325763" from Plugin "NMP" failed. I/O error

cpu2:854568)ScsiDevice: 1238: Permanently inaccessible device :naa.60a98000572d54724a34642d71325763 has no more open connections. It is now safe to unmount datastores (if any) and delete the device.

 

所有向下路徑 (APD)

  • 數據存儲在「存儲」檢視中顯示為不可用。
  • 儲存裝置配接器會將裝置的作業狀態指出為失效或錯誤。
  • 連接至裝置的所有路徑都會標示為「失效」。
  • 您無法使用 vSphere Client 直接連線至 ESXi 主機。
  • ESXi 主機在 vCenter Server 中顯示為中斷連線。
  • /var/log/vmkernel.log 檔,類似的項目會顯示為:

 

範例

cpu1:2049)WARNING: NMP: nmp_IssueCommandToDevice:2954:I/O could not be issued to device "naa.60a98000572d54724a34642d71325763" due to Not found

cpu1:2049)WARNING: NMP: nmp_DeviceRetryCommand:133:Device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device.

cpu1:2049)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device.

cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60a98000572d54724a34642d71325763" - issuing command 0x4124007ba7c0

cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:658:Retry world failover device "naa.60a98000572d54724a34642d71325763" - failed to issue command due to Not found (APD), try again...

 

*請查看 VMware KB# 以取得解決方案,以及根據各種情況取得的其他範例*。

**應檢查 SAN,以及 ADP/PDL 問題的行動項目**。 

VMware KB# 2004684此超連結會帶您前往 Dell Technologies 以外的網站。

 

PowerPath

如果 PowerPath 存在,還需要檢查一些其他事項。

相容性 - 執行中的 ESXi 版本是否支援使用的 PowerPath 版本。
這可以在 ESM 中驗證。

連接- 

當 PowerPath 偵測到遺失的路徑時,可能會出現幾種類型的訊息,包括: 

PowerPath:如何調查 PowerPath 中的路徑失效


NMP 設定

大部分 Dell 陣列*,VPLEX 除外,循環制 (policy=rr ) 且 IOPS=1 為獲得最佳效能,建議使用。
提到效能或延遲時,應核取此設定。

這可以在下面的抓取中找到 /commands/localcli_storage-nmp-device-list.txt or /json/localcli_storage-nmp-device-list.json 

*請務必參閱最新的主機連線能力指南和儲存裝置最佳實務指南,以取得最新建議。

VMware 文章編號 2069356

將循環制 IOPS 限制從預設的 1000 調整為 1 (2069356)此超連結會帶您前往 Dell Technologies 以外的網站。

Dell EMC 主機連線能力指南 VMware ESXi 伺服器

團結 - 第 36 頁

PowerStore - 第 62 頁

EMC XtremIO 主機連線能力指南

第3章 - 第57頁

 

中的 NMNP 設定範例 /commands/localcli_storage-nmp-device-list.txt

設定不正確

naa.6006016051904d00f056b95dc4abd917:

   Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)

   Storage Array Type: VMW_SATP_ALUA_CX

   Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}

   Path Selection Policy: VMW_PSP_RR

   Path Selection Policy Device Config: {policy=rr,iops=1000,bytes=10485760,useANO=0;  lastPathIndex=3: NumIOsPending=0,numBytesPending=0}

   Path Selection Policy Device Custom Config: 

   Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10

 

正確的設定

naa.6006016051904d00f056b95dc4abd917:

   Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)

   Storage Array Type: VMW_SATP_ALUA_CX

   Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}

   Path Selection Policy: VMW_PSP_RR

   Path Selection Policy Device Config: {policy=rr,iops=1,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}

   Path Selection Policy Device Custom Config: 

   Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10

 

 

注意事項

ESXi 6.7 與 Cisco 有幾個已知問題 nfnic 導致效能和連線能力問題的驅動程式。
如果問題與上述其中一項有關,請驗證 Cisco nfnic 驅動程式版本,並檢查 VMware 知識庫 (KB) 以瞭解受影響的版本。

驅動程式版本可在以下項目的輸出中找到: /commands/localcli_software-vib-list.txt 檔案。

其他資訊
如果必須參與其他團隊,請務必獲得以下內容:

  • 記錄 (交換器/儲存裝置)
  • 儲存 SN#
  • 問題發生的日期與時間

如果客戶要求協助與 VMware 接洽,請引導客戶前往 VMware「Contact us」頁面。
支援聯絡選項 此超連結會帶您前往 Dell Technologies 以外的網站。

Informazioni aggiuntive

請參閱已知問題的所有說明文件,例如版本資訊和 CLI 常見訊息指南,以取得有關已知問題和解決方法的最新資訊。

Prodotti interessati

PowerPath, PowerPath, PowerPath/VE, PowerPath/VE for VMware
Proprietà dell'articolo
Numero articolo: 000205090
Tipo di articolo: How To
Ultima modifica: 12 nov 2025
Versione:  7
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.