PowerPath: Problemas comuns do ESXi e itens para verificar a solução de problemas
Summary: O objetivo deste artigo da KB é fornecer informações comuns sobre problemas do ESXi e as etapas para solucioná-los.
Instructions
Causa
Há muitas coisas que podem causar problemas com um host do ESXi.
Esta apresentação é uma lista de alguns dos itens mais comuns que podem ser encontrados e suas etapas de solução de problemas.
Resolução
-
Version - A versão é atual e ainda é compatível
-
Verifique a seção "Problemas conhecidos" das notas da versão para problemas comuns, correções e links do JIRA.
-
As versões do PowerPath podem ser encontradas nos seguintes locais:
-
Versão do PP/rpowermt
-
Local do arquivo: host/commands/localcli_software-vib-list.txt
-
Problemas e erros comuns
Problemas e erros comuns
- Conectividade
- Perda permanente do dispositivo
- Todo o caminho para baixo
- PowerPath
Conectividade
As mensagens são vistas no vmkernel e muitas vezes vmkwarning Saídas.
"Estado em dúvida; Solicitação de atualização do estado do caminho rápido"
Essas mensagens são exibidas quando o driver do adaptador de barramento host (HBA) cancela um comando porque o comando demorou mais do que o período de tempo limite de 5 segundos para ser concluído. Uma operação pode levar mais tempo do que o tempo de espera excedido devido a vários motivos, incluindo:
- Operações de backup do array (backup de LUN, replicação etc.)
- Sobrecarga geral no array
- Cache de leitura/gravação no array (configuração incorreta, falta de cache etc.)
- Problemas de fabric (link entre switches (ISL) incorreto, firmware desatualizado, cabo de fabric/GBIC com defeito)
- Alta latência de SAN
Exemplo:
No /var/log/vmkernel.log do host do ESXi, você verá entradas semelhantes a:
<YYYY-MM-DD>T<time> esx12 vmkernel: 116:03:44:19.039 cpu4:4196)<6>qla2xxx 0000:0f:00.0: scsi(6:0:152): Abort command issued -- 1 67a23dcd 2002. <YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)NMP: nmp_CompleteCommandForPath: Command 0x2a (0x4100020e0b00) to NMP device "sym.029010111831353837" failed on physical path "vmhba2:C0:T0:L152" H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0. <YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe: NMP device "sym.029010111831353837" state in doubt; requested fast path state update...</time>
/commands/Localcli_storage-core-adapter-stats-get.txt
Os itens acima podem ser úteis para verificar o balanceamento de carga do HBA e conflitos de reserva.
Um grande desequilíbrio de comandos bem-sucedidos pode indicar uma política de caminho corrigido ou outros problemas de balanceamento.
Conflitos de reserva podem ser indicativos de disparidades de unidade lógica do host (HLU) em arrays do Unity.
Dell EMC Unity/VNX/CLARiiON: O VMware não consegue ver as LUNs corretamente se elas estão em vários grupos de armazenamento e a HLU não corresponde (corrigível pelo usuário)
Localcli_storage-core-device-stats-get.txt
O texto acima fornece estatísticas de LUNs e mostra quais LUNs têm conflitos de reserva.
/commands/localcli_storage-san-fc-stats-get.txt
O comando acima é útil para verificar estatísticas de HBA, como:
- Quadros despejados
- Contagem de falhas de link
- Número de perdas de sinal
- Contagem de palavras Tx inválida
/commands/Localcli_storage-san-fc-events-get.txt
Mostra registros de data e hora de eventos FC recentes, links para cima ou para baixo e assim por diante.
/var/run/log/vmksummary.log
Mostra registros de data e hora de quando o host foi inicializado e reinicializado ou não estava respondendo.
No meu entendimento, as estatísticas de HBA são redefinidas na reinicialização.
Isso fornece um período de quando as estatísticas FC ocorreram.
Exemplo:
2022-10-09T13:05:21Z bootstop: Host is rebooting 2022-10-09T13:10:55.351Z bootstop[2107273]: Host has booted
Ao executar a manutenção do storage array ou qualquer ação que possa fazer com que um destino do array fique off-line/on-line, o driver FNIC nativo da Cisco pode não fazer log-in corretamente novamente no destino, resultando em caminhos que permanecem em um estado inativo.
Esse problema é causado pelo driver FNIC nativo Cisco recebendo um RSCN durante a parte de comando REPORT_LUNS do nfnic Processo de log-in na porta, o que faz com que o driver interrompa e não repita o processo de log-in. Isso foi observado com os arrays IBM SVC e IBM V7000, mas também teria sido observado em qualquer array IBM Storwize, já que todos eles usam a mesma pilha de software. Isso também seria observado para arrays não-IBM, desde que eles emitam um RSCN durante o comando REPORT_LUNS que o driver envia durante o login.
Os problemas com desempenho e caminho inativo/APD são resolvidos com o upgrade para nfnic 4.0.0.63 e superior.
Entre em contato com a VMware e a Cisco para obter mais informações e suporte.
As versões de driver podem ser encontradas em /commands/localcli_software-vib-list.txt
(digite o driver vib nomes aqui) (possíveis difs com 6.x vs 7.x)
Perda permanente de dispositivo (PDL)/All Path Down (APD)
Perda permanente de dispositivo (PDL)
- Um datastore é mostrado como indisponível na visualização Storage.
- Um adaptador de armazenamento indica o estado operacional do dispositivo como comunicação perdida.
- Todos os caminhos para o dispositivo são marcados como Inativos.
- No
/var/log/vmkernel.log, você vê entradas semelhantes a:
Exemplo
cpu2:853571)VMW_SATP_ALUA: satp_alua_issueCommandOnPath:661: Path "vmhba4:C0:T0:L0" (PERM LOSS) command 0xa3 failed with status Device is permanently unavailable. H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0. cpu2:853571)WARNING: vmw_psp_rr: psp_rrSelectPathToActivate:972:Could not select path for device "naa.60a98000572d54724a34642d71325763". cpu2:853571)WARNING: ScsiDevice: 1223: Device :naa.60a98000572d54724a34642d71325763 has been removed or is permanently inaccessible. cpu3:2132)ScsiDeviceIO: 2288: Cmd(0x4124403c1fc0) 0x9e, CmdSN 0xec86 to dev "naa.60a98000572d54724a34642d71325763" failed H:0x8 D:0x0 P:0x0 cpu3:2132)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device. cpu2:2127)ScsiDeviceIO: 2316: Cmd(0x4124403c1fc0) 0x25, CmdSN 0xecab to dev "naa.60a98000572d54724a34642d71325763" failed H:0x1 D:0x0 P:0x0 Possible sense data: 0x5 0x25 0x0. cpu2:854568)WARNING: ScsiDeviceIO: 7330: READ CAPACITY on device "naa.60a98000572d54724a34642d71325763" from Plugin "NMP" failed. I/O error cpu2:854568)ScsiDevice: 1238: Permanently inaccessible device :naa.60a98000572d54724a34642d71325763 has no more open connections. It is now safe to unmount datastores (if any) and delete the device.
Todos os caminhos inativos (APD)
- Um datastore é mostrado como indisponível na visualização Storage.
- Um adaptador de armazenamento indica o estado operacional do dispositivo como inativo ou erro.
- Todos os caminhos para o dispositivo são marcados como Inativos.
- Você não pode se conectar diretamente ao host do ESXi usando o vSphere Client.
- O host do ESXi é exibido como Disconnected no vCenter Server.
- No
/var/log/vmkernel.log, entradas semelhantes são vistas para:
Exemplo
cpu1:2049)WARNING: NMP: nmp_IssueCommandToDevice:2954:I/O could not be issued to device "naa.60a98000572d54724a34642d71325763" due to Not found cpu1:2049)WARNING: NMP: nmp_DeviceRetryCommand:133:Device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device. cpu1:2049)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device. cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60a98000572d54724a34642d71325763" - issuing command 0x4124007ba7c0 cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:658:Retry world failover device "naa.60a98000572d54724a34642d71325763" - failed to issue command due to Not found (APD), try again...
*Verifique a KB# da VMware para obter a resolução e exemplos adicionais com base em várias circunstâncias*.
**A SAN deve ser verificada, bem como um item de ação para problemas de ADP/PDL**.
PowerPath
Se o PowerPath estiver presente, há algumas coisas adicionais a serem verificadas.
Compatibility — a versão do PowerPath em uso é compatível com a versão em execução do ESXi.
Isso pode ser verificado no ESM.
Conectividade-
Há vários tipos de mensagens que podem ser exibidas quando o PowerPath detecta um caminho perdido, inclusive:
PowerPath: Como investigar o caminho inativo no PowerPath
Configurações de NMP
Para a maioria dos arrays Dell*, exceto VPLEX, Round Robin (policy=rr ) com IOPS=1 é recomendado para melhor desempenho.
Essa configuração deve ser verificada quando o desempenho ou a latência forem mencionados.
Isso pode ser encontrado nas grabs em /commands/localcli_storage-nmp-device-list.txt or /json/localcli_storage-nmp-device-list.json
*Consulte sempre o guia de conectividade do host e os guias de práticas recomendadas de armazenamento mais atuais para obter recomendações atualizadas.
Número 2069356 do artigo da VMware
Ajustando o limite de IOPS de rodízio do padrão de 1.000 para 1 (2069356)
Guia de conectividade de host da Dell EMC VMware ESXi Server
Unity - página 36
PowerStore — página 62
Guias de conectividade do host do EMC XtremIO
Capítulo 3 - página 57
Exemplo de configurações de NMNP em /commands/localcli_storage-nmp-device-list.txt
Configurações incorretas
naa.6006016051904d00f056b95dc4abd917:
Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)
Storage Array Type: VMW_SATP_ALUA_CX
Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}
Path Selection Policy: VMW_PSP_RR
Path Selection Policy Device Config: {policy=rr,iops=1000,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}
Path Selection Policy Device Custom Config:
Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10
Configurações corretas
naa.6006016051904d00f056b95dc4abd917:
Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)
Storage Array Type: VMW_SATP_ALUA_CX
Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}
Path Selection Policy: VMW_PSP_RR
Path Selection Policy Device Config: {policy=rr,iops=1,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}
Path Selection Policy Device Custom Config:
Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10
Advertências
O ESXi 6.7 tem vários problemas conhecidos com o Cisco nfnic Drivers que causam problemas de desempenho e conectividade.
Se o problema estiver relacionado a um dos itens acima, verifique o nfnic e verifique a base de conhecimento (KB) da VMware para ver as versões afetadas.
A versão do driver é encontrada na saída de /commands/localcli_software-vib-list.txt arquivo.
Informações
AdicionaisCaso outras equipes precisem ser envolvidas, certifique-se de obter o seguinte:
- Registros (switch/armazenamento)
- SN de armazenamento#
- Data e hora do problema
Se um cliente solicitar assistência envolvendo a VMware, direcione-o para a página "Fale conosco" da VMware.
Opções de contato de suporte
Additional Information
Consulte toda a documentação para problemas conhecidos, como notas da versão e o guia de mensagens comuns da CLI, para obter informações atualizadas sobre problemas e resoluções conhecidos.