PowerPath: Problemi ESXi comuni ed elementi da controllare per la risoluzione dei problemi

Summary: Lo scopo di questo articolo della Knowledge Base è fornire informazioni comuni sui problemi ESXi e sui passaggi per risolverli.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

Causa
Esistono molti fattori che possono causare problemi con un host ESXi.
Questa presentazione contiene un elenco di alcune delle cose più comuni che si possono trovare e le relative procedure di risoluzione dei problemi.

Risoluzione

Controlli di base

Version: è la versione corrente e ancora supportata
Controllare la sezione "Problemi noti" delle note di rilascio per problemi comuni, correzioni e collegamenti JIRA.
Le versioni di PowerPath sono disponibili nei seguenti percorsi:
Versione PP/rpowermt
Percorso del file: host/commands/localcli_software-vib-list.txt
Problemi ed errori comuni

Problemi ed errori comuni

Connectivity
Perdita permanente del dispositivo
Tutto il percorso verso il basso
PowerPath

Connectivity

I messaggi vengono visualizzati nel file vmkernel e spesso vmkwarning Uscite.

"Stato in dubbio; Richiesto aggiornamento dello stato del percorso FAST"

Questi messaggi vengono visualizzati quando il driver HBA (Host Bus Adapter) annulla un comando perché il completamento del comando ha richiesto più tempo del periodo di timeout di 5 secondi. Un'operazione può richiedere più tempo del periodo di timeout a causa di diversi motivi, tra cui:

Operazioni di backup degli array (backup di LUN, replica e così via)
Sovraccarico generale sull'array
Cache in lettura/scrittura sull'array (configurazione errata, mancanza di cache e così via)
Problemi della fabric (ISL (Inter-Switch Link) danneggiato, firmware obsoleto, cavo fabric danneggiato/GBIC)
Latenza SAN elevata

VMware KB# 1022026

Esempio:

Nel /var/log/vmkernel.log dell'host ESXi, vengono visualizzate voci simili a:

<YYYY-MM-DD>T<time> esx12 vmkernel: 116:03:44:19.039 cpu4:4196)<6>qla2xxx 0000:0f:00.0: scsi(6:0:152): Abort command issued -- 1 67a23dcd 2002.

<YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)NMP: nmp_CompleteCommandForPath: Command 0x2a (0x4100020e0b00) to NMP device "sym.029010111831353837" failed on physical path "vmhba2:C0:T0:L152" H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0.

<YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe: NMP device "sym.029010111831353837" state in doubt; requested fast path state update...</time>

/commands/Localcli_storage-core-adapter-stats-get.txt

Quanto sopra può essere utile per controllare il bilanciamento del carico HBA e i conflitti di prenotazione.
Un grande squilibrio di comandi riusciti può indicare una policy di percorso fisso o altri problemi di bilanciamento.

I conflitti di prenotazione possono essere indicativi di mancate corrispondenze HLU (Host Logical Unit) sugli array Unity.

Dell EMC Unity/VNX/CLARiiON: VMware non riesce a visualizzare correttamente le LUN se si trovano in più gruppi di storage e l'HLU non corrisponde (correggibile dall'utente)

Localcli_storage-core-device-stats-get.txt

Quanto sopra fornisce statistiche sulle LUN e mostra quali LUN hanno conflitti di prenotazione.

/commands/localcli_storage-san-fc-stats-get.txt

Il comando precedente è utile per controllare le statistiche HBA, ad esempio:

Frame abbandonati
Conteggio errori collegamento
Numero di perdite di segnale
Numero di parole Tx non valido

/commands/Localcli_storage-san-fc-events-get.txt

Mostra i timestamp degli eventi FC recenti, i link attivi o disattivati e così via.

/var/run/log/vmksummary.log

Mostra i timestamp di quando l'host è stato avviato e riavviato o non rispondeva.
A quanto ho capito, le statistiche HBA vengono reimpostate al riavvio.
In questo modo si ottiene un intervallo di tempo in cui si sono verificate le statistiche FC.

Campione:

2022-10-09T13:05:21Z bootstop: Host is rebooting

2022-10-09T13:10:55.351Z bootstop[2107273]: Host has booted

Quando si esegue la manutenzione dell'array di storage o qualsiasi azione che potrebbe causare la disconnessione/online di una destinazione dell'array, il driver Cisco Native FNIC potrebbe non accedere correttamente alla destinazione, con conseguente stato inattivo dei percorsi.

Questo problema è causato dal driver Cisco FNIC nativo che riceve un RSCN durante la parte di comando REPORT_LUNS di nfnic Processo di accesso alla porta, che comporta l'arresto del driver e il mancato tentativo di accesso. Questo problema è stato riscontrato sia con gli array IBM SVC che con IBM V7000, ma sarebbe stato osservato anche su qualsiasi array IBM Storwize poiché utilizzano tutti lo stesso stack software. Ciò viene osservato anche per gli array non IBM, purché emettano un RSCN durante il comando REPORT_LUNS inviato dal driver durante l'accesso.

Entrambi i problemi relativi alle prestazioni e al percorso verso il basso/APD vengono risolti eseguendo l'aggiornamento a nfnic 4.0.0.63 e versioni successive.
Per ulteriori informazioni e supporto, contattare VMware e Cisco.

Le versioni dei driver sono disponibili in /commands/localcli_software-vib-list.txt

(inserire l'autista) vib Nomi qui) (possibili DIFS con 6.x vs 7.x)

VMware KB# 80101

PDL (Permanent Device Loss)/All Path Down (APD)

PDL (Permanent Device Loss, Perdita permanente del dispositivo)

Un datastore viene visualizzato come non disponibile nella vista Storage.
Un adattatore di storage indica lo stato operativo del dispositivo come Comunicazione interrotta.
Tutti i percorsi verso il dispositivo sono contrassegnati come inattivi.
Nel /var/log/vmkernel.log file, vengono visualizzate voci simili a:

Esempio

cpu2:853571)VMW_SATP_ALUA: satp_alua_issueCommandOnPath:661: Path "vmhba4:C0:T0:L0" (PERM LOSS) command 0xa3 failed with status Device is permanently unavailable. H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0.

cpu2:853571)WARNING: vmw_psp_rr: psp_rrSelectPathToActivate:972:Could not select path for device "naa.60a98000572d54724a34642d71325763".

cpu2:853571)WARNING: ScsiDevice: 1223: Device :naa.60a98000572d54724a34642d71325763 has been removed or is permanently inaccessible.

cpu3:2132)ScsiDeviceIO: 2288: Cmd(0x4124403c1fc0) 0x9e, CmdSN 0xec86 to dev "naa.60a98000572d54724a34642d71325763" failed H:0x8 D:0x0 P:0x0

cpu3:2132)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device.

cpu2:2127)ScsiDeviceIO: 2316: Cmd(0x4124403c1fc0) 0x25, CmdSN 0xecab to dev "naa.60a98000572d54724a34642d71325763" failed H:0x1 D:0x0 P:0x0 Possible sense data: 0x5 0x25 0x0.

cpu2:854568)WARNING: ScsiDeviceIO: 7330: READ CAPACITY on device "naa.60a98000572d54724a34642d71325763" from Plugin "NMP" failed. I/O error

cpu2:854568)ScsiDevice: 1238: Permanently inaccessible device :naa.60a98000572d54724a34642d71325763 has no more open connections. It is now safe to unmount datastores (if any) and delete the device.

Tutto il percorso verso il basso (APD)

Un datastore viene visualizzato come non disponibile nella vista Storage.
Una scheda di storage indica lo stato operativo del dispositivo come Dead o Error.
Tutti i percorsi verso il dispositivo sono contrassegnati come inattivi.
Non è possibile connettersi direttamente all'host ESXi utilizzando vSphere Client.
L'host ESXi viene visualizzato come Disconnected in vCenter Server.
Nel /var/log/vmkernel.log file, voci simili vengono visualizzate:

Esempio

cpu1:2049)WARNING: NMP: nmp_IssueCommandToDevice:2954:I/O could not be issued to device "naa.60a98000572d54724a34642d71325763" due to Not found

cpu1:2049)WARNING: NMP: nmp_DeviceRetryCommand:133:Device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device.

cpu1:2049)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device.

cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60a98000572d54724a34642d71325763" - issuing command 0x4124007ba7c0

cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:658:Retry world failover device "naa.60a98000572d54724a34642d71325763" - failed to issue command due to Not found (APD), try again...

*Consultare l'articolo della KB# di VMware per la risoluzione e altri esempi basati su varie circostanze*.

**La SAN deve essere selezionata come elemento di azione per i problemi ADP/PDL**.

VMware KB# 2004684

PowerPath

Se PowerPath è presente, è necessario controllare alcuni aspetti aggiuntivi.

Compatibility: la versione di PowerPath in uso è supportata con la versione in esecuzione di ESXi.
Ciò può essere verificato nel MES.

Connettività-

Esistono diversi tipi di messaggi che possono essere visualizzati quando PowerPath rileva un percorso perso, tra cui:

PowerPath: Come analizzare il percorso inattivo in PowerPath

Impostazioni NMP

Per la maggior parte degli array Dell*, ad eccezione di VPLEX, Round Robin (policy=rr ) con IOPS=1 è consigliato per ottenere le migliori prestazioni.
Questa impostazione deve essere verificata quando si parla di prestazioni o latenza.

Questo può essere trovato nelle pinze sotto /commands/localcli_storage-nmp-device-list.txt or /json/localcli_storage-nmp-device-list.json

*Consultare sempre la guida alla connettività host più recente e le guide alle best practice per lo storage per consigli aggiornati.

Articolo VMware numero 2069356

Regolazione del limite IOPS Round Robin da 1000 a 1 (2069356)

Guida alla connettività host Dell EMC VMware ESXi Server

Unità - pagina 36

PowerStore - pagina 62

Guide alla connettività host EMC XtremIO

Capitolo 3 - pagina 57

Esempio di impostazioni NMNP in /commands/localcli_storage-nmp-device-list.txt

Impostazioni errate

naa.6006016051904d00f056b95dc4abd917:

   Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)

   Storage Array Type: VMW_SATP_ALUA_CX

   Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}

   Path Selection Policy: VMW_PSP_RR

   Path Selection Policy Device Config: {policy=rr,iops=1000,bytes=10485760,useANO=0;  lastPathIndex=3: NumIOsPending=0,numBytesPending=0}

   Path Selection Policy Device Custom Config: 

   Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10

Impostazioni corrette

naa.6006016051904d00f056b95dc4abd917:

   Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)

   Storage Array Type: VMW_SATP_ALUA_CX

   Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}

   Path Selection Policy: VMW_PSP_RR

   Path Selection Policy Device Config: {policy=rr,iops=1,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}

   Path Selection Policy Device Custom Config: 

   Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10

Avvertenze

ESXi 6.7 presenta diversi problemi noti con Cisco nfnic Driver che causano problemi di prestazioni e connettività.
Se il problema è correlato a uno dei precedenti, verificare il nfnic versione del driver e controllare la Knowledge Base (KB) di VMware per le versioni interessate.

La versione del driver è disponibile nell'output di /commands/localcli_software-vib-list.txt file.

Informazioni
aggiuntiveNel caso in cui sia necessario coinvolgere altri team, assicurarsi di ottenere quanto segue:

Registri (switch/storage)
N. di serie di storage#
Data e ora del problema

Se un cliente richiede assistenza per coinvolgere VMware, indirizzalo alla pagina "Contattaci" di VMware.
Opzioni di contatto del supporto

Additional Information

Consultare tutta la documentazione per i problemi noti, come le note di rilascio e la guida ai messaggi comuni della CLI per informazioni aggiornate sui problemi noti e sulle relative risoluzioni.

Affected Products

PowerPath, PowerPath, PowerPath/VE, PowerPath/VE for VMware

Article Number: 000205090

Article Type: How To

Last Modified: 12 Nov 2025

Version: 7

Check if your device is covered by Support Services.

PowerPath: Problemi ESXi comuni ed elementi da controllare per la risoluzione dei problemi

Summary: Lo scopo di questo articolo della Knowledge Base è fornire informazioni comuni sui problemi ESXi e sui passaggi per risolverli.

Instructions

Additional Information

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

PowerPath: Problemi ESXi comuni ed elementi da controllare per la risoluzione dei problemi

Summary: Lo scopo di questo articolo della Knowledge Base è fornire informazioni comuni sui problemi ESXi e sui passaggi per risolverli.

Detailed Article

Instructions

Additional Info

Affected Products

Instructions

Additional Information

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services