PowerPath:常見 ESXi 問題和故障診斷要檢查的項目
Summary: 本知識文章旨在提供 ESXi 問題的常見資訊,以及進行故障診斷的步驟。
Instructions
使
有許多事情可能會導致 ESXi 主機發生問題。
本簡報列出一些最常見的問題及其故障診斷步驟。
主意
-
版本 - 是最新版本且仍受支援
-
查看發行說明的「已知問題」部分,瞭解常見問題、修復程式和 JIRA 連結。
-
您可以在下列位置找到 PowerPath 的版本:
-
PP/rpowermt 版本
-
檔案位置:host/command/localcli_software-vib-list.txt
-
常見問題與錯誤
常見問題與錯誤
- 連線能力
- 永久裝置遺失
- 所有路徑向下
- PowerPath
連線能力
訊息會在 vmkernel 而且經常 vmkwarning 輸出。
“有疑問的狀態;請求的快速路徑狀態更新”
當主機匯流排配接卡 (HBA) 驅動程式取消命令時,會顯示這些訊息,因為命令完成的時間超過 5 秒的逾時期間。由於以下多種原因,操作可能需要比超時期限更長的時間,包括:
- 陣列備份作業 (LUN 備份、複寫等)
- 陣列的一般重載
- 陣列上的讀取/寫入快取 (組態錯誤、缺少快取等)
- 光纖問題 (交換器間連結 (ISL) 損壞、韌體過時、光纖纜線/GBIC 損壞)
- 高 SAN 延遲
範例:
在 /var/log/vmkernel.log 檔案中,您會看到類似以下內容的項目:
<YYYY-MM-DD>T<time> esx12 vmkernel: 116:03:44:19.039 cpu4:4196)<6>qla2xxx 0000:0f:00.0: scsi(6:0:152): Abort command issued -- 1 67a23dcd 2002. <YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)NMP: nmp_CompleteCommandForPath: Command 0x2a (0x4100020e0b00) to NMP device "sym.029010111831353837" failed on physical path "vmhba2:C0:T0:L152" H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0. <YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe: NMP device "sym.029010111831353837" state in doubt; requested fast path state update...</time>
/commands/Localcli_storage-core-adapter-stats-get.txt
上述內容可用於檢查 HBA 負載平衡和保留衝突。
成功命令的嚴重不平衡可能表示固定路徑策略或其他平衡問題。
保留衝突可能代表 Unity 陣列上的主機邏輯單元 (HLU) 不相符。
Dell EMC Unity/VNX/CLARiiON:如果 LUN 位於多個儲存群組中,且 HLU 不相符,VMware 將無法正確看到 LUN (使用者可修正)
Localcli_storage-core-device-stats-get.txt
以上提供 LUN 統計資料,並顯示哪些 LUN 有保留衝突。
/commands/localcli_storage-san-fc-stats-get.txt
上述命令可用於檢查 HBA 統計資料,例如:
- 傾印的訊框
- 連結故障計數
- 訊號計數遺失
- 無效的 Tx 字數統計
/commands/Localcli_storage-san-fc-events-get.txt
顯示最近的FC事件時間戳記、連結上線或下線等。
/var/run/log/vmksummary.log
顯示主機開機並重新開機或無回應的時間戳記。
據我瞭解,HBA 統計資料會在重新開機時重設。
這會提供發生 FC 統計資料的時間範圍。
範例:
2022-10-09T13:05:21Z bootstop: Host is rebooting 2022-10-09T13:10:55.351Z bootstop[2107273]: Host has booted
執行儲存陣列維護或任何可能導致陣列目標離線/連線的動作時,Cisco 原生 FNIC 驅動程式可能無法正確登入目標,導致路徑停留在失效狀態。
此問題是由 Cisco 原生 FNIC 驅動程式在 REPORT_LUNS 命令期間收到 RSCN 所造成 nfnic 連接埠登入程序,這會導致驅動程式停止,且不會重試登入程序。IBM SVC 和 IBM V7000 陣列均可觀察到此情況,但由於它們都使用相同的軟體堆疊,因此在任何 IBM Storwize 陣列上也可能會觀察到此情況。非 IBM 陣列也會觀察到這種情況,只要它們在驅動程式登入期間傳送的 REPORT_LUNS 命令期間發出 RSCN。
效能和路徑中斷/APD 問題都可透過升級至 nfnic 4.0.0.63 及更新版本。
請聯絡 VMware 和 Cisco 以取得其他資訊和支援。
驅動程式版本可在以下位置找到: /commands/localcli_software-vib-list.txt
(輸入驅動程式 vib 名稱在這裡)(可能與 6.x 與 7.x 的 DIF)
永久裝置遺失 (PDL)/所有路徑下降 (APD)
永久裝置遺失 (PDL)
- 數據存儲在「存儲」檢視中顯示為不可用。
- 儲存裝置配接卡會將裝置的作業狀態指示為「通訊中斷」。
- 連接至裝置的所有路徑都會標示為「失效」。
- 在
/var/log/vmkernel.log檔案中,您會看到類似以下內容的項目:
範例
cpu2:853571)VMW_SATP_ALUA: satp_alua_issueCommandOnPath:661: Path "vmhba4:C0:T0:L0" (PERM LOSS) command 0xa3 failed with status Device is permanently unavailable. H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0. cpu2:853571)WARNING: vmw_psp_rr: psp_rrSelectPathToActivate:972:Could not select path for device "naa.60a98000572d54724a34642d71325763". cpu2:853571)WARNING: ScsiDevice: 1223: Device :naa.60a98000572d54724a34642d71325763 has been removed or is permanently inaccessible. cpu3:2132)ScsiDeviceIO: 2288: Cmd(0x4124403c1fc0) 0x9e, CmdSN 0xec86 to dev "naa.60a98000572d54724a34642d71325763" failed H:0x8 D:0x0 P:0x0 cpu3:2132)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device. cpu2:2127)ScsiDeviceIO: 2316: Cmd(0x4124403c1fc0) 0x25, CmdSN 0xecab to dev "naa.60a98000572d54724a34642d71325763" failed H:0x1 D:0x0 P:0x0 Possible sense data: 0x5 0x25 0x0. cpu2:854568)WARNING: ScsiDeviceIO: 7330: READ CAPACITY on device "naa.60a98000572d54724a34642d71325763" from Plugin "NMP" failed. I/O error cpu2:854568)ScsiDevice: 1238: Permanently inaccessible device :naa.60a98000572d54724a34642d71325763 has no more open connections. It is now safe to unmount datastores (if any) and delete the device.
所有向下路徑 (APD)
- 數據存儲在「存儲」檢視中顯示為不可用。
- 儲存裝置配接器會將裝置的作業狀態指出為失效或錯誤。
- 連接至裝置的所有路徑都會標示為「失效」。
- 您無法使用 vSphere Client 直接連線至 ESXi 主機。
- ESXi 主機在 vCenter Server 中顯示為中斷連線。
- 在
/var/log/vmkernel.log檔,類似的項目會顯示為:
範例
cpu1:2049)WARNING: NMP: nmp_IssueCommandToDevice:2954:I/O could not be issued to device "naa.60a98000572d54724a34642d71325763" due to Not found cpu1:2049)WARNING: NMP: nmp_DeviceRetryCommand:133:Device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device. cpu1:2049)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device. cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60a98000572d54724a34642d71325763" - issuing command 0x4124007ba7c0 cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:658:Retry world failover device "naa.60a98000572d54724a34642d71325763" - failed to issue command due to Not found (APD), try again...
*請查看 VMware KB# 以取得解決方案,以及根據各種情況取得的其他範例*。
**應檢查 SAN,以及 ADP/PDL 問題的行動項目**。
PowerPath
如果 PowerPath 存在,還需要檢查一些其他事項。
相容性 - 執行中的 ESXi 版本是否支援使用的 PowerPath 版本。
這可以在 ESM 中驗證。
連接-
當 PowerPath 偵測到遺失的路徑時,可能會出現幾種類型的訊息,包括:
PowerPath:如何調查 PowerPath 中的路徑失效
NMP 設定
大部分 Dell 陣列*,VPLEX 除外,循環制 (policy=rr ) 且 IOPS=1 為獲得最佳效能,建議使用。
提到效能或延遲時,應核取此設定。
這可以在下面的抓取中找到 /commands/localcli_storage-nmp-device-list.txt or /json/localcli_storage-nmp-device-list.json
*請務必參閱最新的主機連線能力指南和儲存裝置最佳實務指南,以取得最新建議。
VMware 文章編號 2069356
將循環制 IOPS 限制從預設的 1000 調整為 1 (2069356)
Dell EMC 主機連線能力指南 VMware ESXi 伺服器
團結 - 第 36 頁
PowerStore - 第 62 頁
第3章 - 第57頁
中的 NMNP 設定範例 /commands/localcli_storage-nmp-device-list.txt
設定不正確
naa.6006016051904d00f056b95dc4abd917:
Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)
Storage Array Type: VMW_SATP_ALUA_CX
Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}
Path Selection Policy: VMW_PSP_RR
Path Selection Policy Device Config: {policy=rr,iops=1000,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}
Path Selection Policy Device Custom Config:
Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10
正確的設定
naa.6006016051904d00f056b95dc4abd917:
Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)
Storage Array Type: VMW_SATP_ALUA_CX
Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}
Path Selection Policy: VMW_PSP_RR
Path Selection Policy Device Config: {policy=rr,iops=1,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}
Path Selection Policy Device Custom Config:
Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10
注意事項
ESXi 6.7 與 Cisco 有幾個已知問題 nfnic 導致效能和連線能力問題的驅動程式。
如果問題與上述其中一項有關,請驗證 Cisco nfnic 驅動程式版本,並檢查 VMware 知識庫 (KB) 以瞭解受影響的版本。
驅動程式版本可在以下項目的輸出中找到: /commands/localcli_software-vib-list.txt 檔案。
其他資訊
如果必須參與其他團隊,請務必獲得以下內容:
- 記錄 (交換器/儲存裝置)
- 儲存 SN#
- 問題發生的日期與時間
如果客戶要求協助與 VMware 接洽,請引導客戶前往 VMware「Contact us」頁面。
支援聯絡選項
Additional Information
請參閱已知問題的所有說明文件,例如版本資訊和 CLI 常見訊息指南,以取得有關已知問題和解決方法的最新資訊。