PowerPath: Problemas comuns do ESXi e itens para verificar a solução de problemas

Summary: O objetivo deste artigo da KB é fornecer informações comuns sobre problemas do ESXi e as etapas para solucioná-los.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

Causa
Há muitas coisas que podem causar problemas com um host do ESXi.
Esta apresentação é uma lista de alguns dos itens mais comuns que podem ser encontrados e suas etapas de solução de problemas.

Resolução

Verificações básicas

Version - A versão é atual e ainda é compatível
Verifique a seção "Problemas conhecidos" das notas da versão para problemas comuns, correções e links do JIRA.
As versões do PowerPath podem ser encontradas nos seguintes locais:
Versão do PP/rpowermt
Local do arquivo: host/commands/localcli_software-vib-list.txt
Problemas e erros comuns

Problemas e erros comuns

Conectividade
Perda permanente do dispositivo
Todo o caminho para baixo
PowerPath

Conectividade

As mensagens são vistas no vmkernel e muitas vezes vmkwarning Saídas.

"Estado em dúvida; Solicitação de atualização do estado do caminho rápido"

Essas mensagens são exibidas quando o driver do adaptador de barramento host (HBA) cancela um comando porque o comando demorou mais do que o período de tempo limite de 5 segundos para ser concluído. Uma operação pode levar mais tempo do que o tempo de espera excedido devido a vários motivos, incluindo:

Operações de backup do array (backup de LUN, replicação etc.)
Sobrecarga geral no array
Cache de leitura/gravação no array (configuração incorreta, falta de cache etc.)
Problemas de fabric (link entre switches (ISL) incorreto, firmware desatualizado, cabo de fabric/GBIC com defeito)
Alta latência de SAN

KB da VMware # 1022026

Exemplo:

No /var/log/vmkernel.log do host do ESXi, você verá entradas semelhantes a:

<YYYY-MM-DD>T<time> esx12 vmkernel: 116:03:44:19.039 cpu4:4196)<6>qla2xxx 0000:0f:00.0: scsi(6:0:152): Abort command issued -- 1 67a23dcd 2002.

<YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)NMP: nmp_CompleteCommandForPath: Command 0x2a (0x4100020e0b00) to NMP device "sym.029010111831353837" failed on physical path "vmhba2:C0:T0:L152" H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0.

<YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe: NMP device "sym.029010111831353837" state in doubt; requested fast path state update...</time>

/commands/Localcli_storage-core-adapter-stats-get.txt

Os itens acima podem ser úteis para verificar o balanceamento de carga do HBA e conflitos de reserva.
Um grande desequilíbrio de comandos bem-sucedidos pode indicar uma política de caminho corrigido ou outros problemas de balanceamento.

Conflitos de reserva podem ser indicativos de disparidades de unidade lógica do host (HLU) em arrays do Unity.

Dell EMC Unity/VNX/CLARiiON: O VMware não consegue ver as LUNs corretamente se elas estão em vários grupos de armazenamento e a HLU não corresponde (corrigível pelo usuário)

Localcli_storage-core-device-stats-get.txt

O texto acima fornece estatísticas de LUNs e mostra quais LUNs têm conflitos de reserva.

/commands/localcli_storage-san-fc-stats-get.txt

O comando acima é útil para verificar estatísticas de HBA, como:

Quadros despejados
Contagem de falhas de link
Número de perdas de sinal
Contagem de palavras Tx inválida

/commands/Localcli_storage-san-fc-events-get.txt

Mostra registros de data e hora de eventos FC recentes, links para cima ou para baixo e assim por diante.

/var/run/log/vmksummary.log

Mostra registros de data e hora de quando o host foi inicializado e reinicializado ou não estava respondendo.
No meu entendimento, as estatísticas de HBA são redefinidas na reinicialização.
Isso fornece um período de quando as estatísticas FC ocorreram.

Exemplo:

2022-10-09T13:05:21Z bootstop: Host is rebooting

2022-10-09T13:10:55.351Z bootstop[2107273]: Host has booted

Ao executar a manutenção do storage array ou qualquer ação que possa fazer com que um destino do array fique off-line/on-line, o driver FNIC nativo da Cisco pode não fazer log-in corretamente novamente no destino, resultando em caminhos que permanecem em um estado inativo.

Esse problema é causado pelo driver FNIC nativo Cisco recebendo um RSCN durante a parte de comando REPORT_LUNS do nfnic Processo de log-in na porta, o que faz com que o driver interrompa e não repita o processo de log-in. Isso foi observado com os arrays IBM SVC e IBM V7000, mas também teria sido observado em qualquer array IBM Storwize, já que todos eles usam a mesma pilha de software. Isso também seria observado para arrays não-IBM, desde que eles emitam um RSCN durante o comando REPORT_LUNS que o driver envia durante o login.

Os problemas com desempenho e caminho inativo/APD são resolvidos com o upgrade para nfnic 4.0.0.63 e superior.
Entre em contato com a VMware e a Cisco para obter mais informações e suporte.

As versões de driver podem ser encontradas em /commands/localcli_software-vib-list.txt

(digite o driver vib nomes aqui) (possíveis difs com 6.x vs 7.x)

KB# 80101 da VMware

Perda permanente de dispositivo (PDL)/All Path Down (APD)

Perda permanente de dispositivo (PDL)

Um datastore é mostrado como indisponível na visualização Storage.
Um adaptador de armazenamento indica o estado operacional do dispositivo como comunicação perdida.
Todos os caminhos para o dispositivo são marcados como Inativos.
No /var/log/vmkernel.log , você vê entradas semelhantes a:

Exemplo

cpu2:853571)VMW_SATP_ALUA: satp_alua_issueCommandOnPath:661: Path "vmhba4:C0:T0:L0" (PERM LOSS) command 0xa3 failed with status Device is permanently unavailable. H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0.

cpu2:853571)WARNING: vmw_psp_rr: psp_rrSelectPathToActivate:972:Could not select path for device "naa.60a98000572d54724a34642d71325763".

cpu2:853571)WARNING: ScsiDevice: 1223: Device :naa.60a98000572d54724a34642d71325763 has been removed or is permanently inaccessible.

cpu3:2132)ScsiDeviceIO: 2288: Cmd(0x4124403c1fc0) 0x9e, CmdSN 0xec86 to dev "naa.60a98000572d54724a34642d71325763" failed H:0x8 D:0x0 P:0x0

cpu3:2132)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device.

cpu2:2127)ScsiDeviceIO: 2316: Cmd(0x4124403c1fc0) 0x25, CmdSN 0xecab to dev "naa.60a98000572d54724a34642d71325763" failed H:0x1 D:0x0 P:0x0 Possible sense data: 0x5 0x25 0x0.

cpu2:854568)WARNING: ScsiDeviceIO: 7330: READ CAPACITY on device "naa.60a98000572d54724a34642d71325763" from Plugin "NMP" failed. I/O error

cpu2:854568)ScsiDevice: 1238: Permanently inaccessible device :naa.60a98000572d54724a34642d71325763 has no more open connections. It is now safe to unmount datastores (if any) and delete the device.

Todos os caminhos inativos (APD)

Um datastore é mostrado como indisponível na visualização Storage.
Um adaptador de armazenamento indica o estado operacional do dispositivo como inativo ou erro.
Todos os caminhos para o dispositivo são marcados como Inativos.
Você não pode se conectar diretamente ao host do ESXi usando o vSphere Client.
O host do ESXi é exibido como Disconnected no vCenter Server.
No /var/log/vmkernel.log , entradas semelhantes são vistas para:

Exemplo

cpu1:2049)WARNING: NMP: nmp_IssueCommandToDevice:2954:I/O could not be issued to device "naa.60a98000572d54724a34642d71325763" due to Not found

cpu1:2049)WARNING: NMP: nmp_DeviceRetryCommand:133:Device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device.

cpu1:2049)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device.

cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60a98000572d54724a34642d71325763" - issuing command 0x4124007ba7c0

cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:658:Retry world failover device "naa.60a98000572d54724a34642d71325763" - failed to issue command due to Not found (APD), try again...

*Verifique a KB# da VMware para obter a resolução e exemplos adicionais com base em várias circunstâncias*.

**A SAN deve ser verificada, bem como um item de ação para problemas de ADP/PDL**.

KB da VMware 2004684

PowerPath

Se o PowerPath estiver presente, há algumas coisas adicionais a serem verificadas.

Compatibility — a versão do PowerPath em uso é compatível com a versão em execução do ESXi.
Isso pode ser verificado no ESM.

Conectividade-

Há vários tipos de mensagens que podem ser exibidas quando o PowerPath detecta um caminho perdido, inclusive:

PowerPath: Como investigar o caminho inativo no PowerPath

Configurações de NMP

Para a maioria dos arrays Dell*, exceto VPLEX, Round Robin (policy=rr ) com IOPS=1 é recomendado para melhor desempenho.
Essa configuração deve ser verificada quando o desempenho ou a latência forem mencionados.

Isso pode ser encontrado nas grabs em /commands/localcli_storage-nmp-device-list.txt or /json/localcli_storage-nmp-device-list.json

*Consulte sempre o guia de conectividade do host e os guias de práticas recomendadas de armazenamento mais atuais para obter recomendações atualizadas.

Número 2069356 do artigo da VMware

Ajustando o limite de IOPS de rodízio do padrão de 1.000 para 1 (2069356)

Guia de conectividade de host da Dell EMC VMware ESXi Server

Unity - página 36

PowerStore — página 62

Guias de conectividade do host do EMC XtremIO

Capítulo 3 - página 57

Exemplo de configurações de NMNP em /commands/localcli_storage-nmp-device-list.txt

Configurações incorretas

naa.6006016051904d00f056b95dc4abd917:

   Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)

   Storage Array Type: VMW_SATP_ALUA_CX

   Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}

   Path Selection Policy: VMW_PSP_RR

   Path Selection Policy Device Config: {policy=rr,iops=1000,bytes=10485760,useANO=0;  lastPathIndex=3: NumIOsPending=0,numBytesPending=0}

   Path Selection Policy Device Custom Config: 

   Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10

Configurações corretas

naa.6006016051904d00f056b95dc4abd917:

   Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)

   Storage Array Type: VMW_SATP_ALUA_CX

   Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}

   Path Selection Policy: VMW_PSP_RR

   Path Selection Policy Device Config: {policy=rr,iops=1,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}

   Path Selection Policy Device Custom Config: 

   Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10

Advertências

O ESXi 6.7 tem vários problemas conhecidos com o Cisco nfnic Drivers que causam problemas de desempenho e conectividade.
Se o problema estiver relacionado a um dos itens acima, verifique o nfnic e verifique a base de conhecimento (KB) da VMware para ver as versões afetadas.

A versão do driver é encontrada na saída de /commands/localcli_software-vib-list.txt arquivo.

Informações
AdicionaisCaso outras equipes precisem ser envolvidas, certifique-se de obter o seguinte:

Registros (switch/armazenamento)
SN de armazenamento#
Data e hora do problema

Se um cliente solicitar assistência envolvendo a VMware, direcione-o para a página "Fale conosco" da VMware.
Opções de contato de suporte

Additional Information

Consulte toda a documentação para problemas conhecidos, como notas da versão e o guia de mensagens comuns da CLI, para obter informações atualizadas sobre problemas e resoluções conhecidos.

Affected Products

PowerPath, PowerPath, PowerPath/VE, PowerPath/VE for VMware

Article Number: 000205090

Article Type: How To

Last Modified: 12 Nov 2025

Version: 7

Check if your device is covered by Support Services.

PowerPath: Problemas comuns do ESXi e itens para verificar a solução de problemas

Summary: O objetivo deste artigo da KB é fornecer informações comuns sobre problemas do ESXi e as etapas para solucioná-los.

Instructions

Additional Information

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

PowerPath: Problemas comuns do ESXi e itens para verificar a solução de problemas

Summary: O objetivo deste artigo da KB é fornecer informações comuns sobre problemas do ESXi e as etapas para solucioná-los.

Detailed Article

Instructions

Additional Info

Affected Products

Instructions

Additional Information

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services