PowerPath: Veelvoorkomende ESXi-problemen en items om te controleren voor probleemoplossing
Summary: Het doel van dit KB-artikel is algemene informatie te geven over ESXi-problemen en de stappen om deze op te lossen.
Instructions
Oorzaak
Er zijn veel dingen die problemen kunnen veroorzaken met een ESXi-host.
Deze presentatie is een lijst met enkele van de meest voorkomende dingen die kunnen worden gevonden en de stappen voor probleemoplossing.
Resolutie
-
Versie - Is de versie actueel en wordt deze nog steeds ondersteund?
-
Controleer het gedeelte "Known Issues" van de releaseopmerkingen voor veelvoorkomende problemen, oplossingen en JIRA-koppelingen.
-
Versies voor PowerPath zijn te vinden op de volgende locaties:
-
PP/rpowermt-versie
-
Bestandslocatie: host/commands/localcli_software-vib-list.txt
-
Veelvoorkomende problemen en fouten
Veelvoorkomende problemen en fouten
- Connectiviteit
- Permanent verlies van apparaten
- Alle paden naar beneden
- PowerPath
Connectiviteit
Berichten worden weergegeven in het vmkernel en vaak vmkwarning Uitgangen.
"staat in twijfel; Aangevraagde snelle statusupdate"
Deze berichten worden weergegeven wanneer de HBA-driver (Host Bus Adapter) een opdracht annuleert omdat de opdracht langer duurde dan de time-outperiode van 5 seconden. Een operatie kan langer duren dan de time-outperiode vanwege verschillende redenen, waaronder:
- Arrayback-upbewerkingen (LUN-back-up, replicatie, enz.)
- Algemene overbelasting van de array
- Lees-/schrijfcache op de array (verkeerde configuratie, gebrek aan cache, enz.)
- Fabric-problemen (slechte inter-switchverbinding (ISL), verouderde firmware, slechte fabric-kabel/GBIC)
- Hoge SAN-latentie
Voorbeeld:
In het /var/log/vmkernel.log bestand van de ESXi-host, ziet u vermeldingen die vergelijkbaar zijn met:
<YYYY-MM-DD>T<time> esx12 vmkernel: 116:03:44:19.039 cpu4:4196)<6>qla2xxx 0000:0f:00.0: scsi(6:0:152): Abort command issued -- 1 67a23dcd 2002. <YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)NMP: nmp_CompleteCommandForPath: Command 0x2a (0x4100020e0b00) to NMP device "sym.029010111831353837" failed on physical path "vmhba2:C0:T0:L152" H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0. <YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe: NMP device "sym.029010111831353837" state in doubt; requested fast path state update...</time>
/commands/Localcli_storage-core-adapter-stats-get.txt
Het bovenstaande kan handig zijn voor het controleren van de HBA-belastingsverdeling en voor reserveringsconflicten.
Een grote onevenwichtige hoeveelheid geslaagde opdrachten kan duiden op een vaste-padbeleid of andere balanceringsproblemen.
Reserveringsconflicten kunnen een indicatie zijn van HLU (Host Logical Unit) mismatches op Unity-arrays.
Dell EMC Unity/VNX/CLARiiON: VMware kan LUN's niet correct zien als ze zich in meerdere storagegroepen bevinden en de HLU niet overeenkomt (op te lossen door gebruiker)
Localcli_storage-core-device-stats-get.txt
Het bovenstaande geeft LUN-statistieken weer en laat zien welke LUN's reserveringsconflicten hebben.
/commands/localcli_storage-san-fc-stats-get.txt
De bovenstaande opdracht is handig voor het controleren van HBA-statistieken, zoals:
- Gedumpte frames
- Aantal linkfouten
- Verlies van signaaltellingen
- Ongeldig aantal Tx-woorden
/commands/Localcli_storage-san-fc-events-get.txt
Toont recente tijdstempels van FC-evenementen, koppeling omhoog of omlaag, enzovoort.
/var/run/log/vmksummary.log
Toont tijdstempels van wanneer de host is opgestart en opnieuw is opgestart of niet reageerde.
Voor zover ik heb begrepen, worden HBA-statistieken gereset bij opnieuw opstarten.
Dit geeft een tijdsbestek van wanneer de FC-statistieken plaatsvonden.
Monster:
2022-10-09T13:05:21Z bootstop: Host is rebooting 2022-10-09T13:10:55.351Z bootstop[2107273]: Host has booted
Bij het uitvoeren van onderhoud aan de storagearray of een actie die ertoe zou leiden dat een arraydoel offline/online gaat, kan het Cisco Native FNIC-stuurprogramma zich mogelijk niet correct opnieuw aanmelden bij het doel, waardoor paden in een dode status blijven.
Dit probleem wordt veroorzaakt doordat de Cisco Native FNIC-driver een RSCN ontvangt tijdens het REPORT_LUNS-opdrachtgedeelte van de nfnic Poortaanmeldingsproces, waardoor de driver het aanmeldingsproces stopt en niet opnieuw probeert. Dit werd waargenomen met zowel de IBM SVC- als de IBM V7000-array, maar het zou ook zijn waargenomen op elke IBM Storwize-array omdat ze allemaal dezelfde softwarestack gebruiken. Dit zou ook worden waargenomen voor niet-IBM-arrays, zolang ze een RSCN afgeven tijdens het REPORT_LUNS-commando dat de driver verzendt tijdens het inloggen.
Zowel problemen met prestaties als met path down/APD worden opgelost door te upgraden naar nfnic 4.0.0.63 en hoger.
Neem contact op met VMware en Cisco voor meer informatie en ondersteuning.
Driverversies vindt u in /commands/localcli_software-vib-list.txt
(Voer driver in vib namen hier) (mogelijke dif's met 6.x versus 7.x)
Permanent Device Loss (PDL)/All Path Down (APD)
Permanent Device Loss (PDL)
- Een datastore wordt weergegeven als niet beschikbaar in de Storage-weergave.
- Een storageadapter geeft de operationele status van het apparaat aan als Communicatie verbroken.
- Alle paden naar het apparaat zijn gemarkeerd als Dood.
- In het
/var/log/vmkernel.logbestand, ziet u vermeldingen die vergelijkbaar zijn met:
Voorbeeld
cpu2:853571)VMW_SATP_ALUA: satp_alua_issueCommandOnPath:661: Path "vmhba4:C0:T0:L0" (PERM LOSS) command 0xa3 failed with status Device is permanently unavailable. H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0. cpu2:853571)WARNING: vmw_psp_rr: psp_rrSelectPathToActivate:972:Could not select path for device "naa.60a98000572d54724a34642d71325763". cpu2:853571)WARNING: ScsiDevice: 1223: Device :naa.60a98000572d54724a34642d71325763 has been removed or is permanently inaccessible. cpu3:2132)ScsiDeviceIO: 2288: Cmd(0x4124403c1fc0) 0x9e, CmdSN 0xec86 to dev "naa.60a98000572d54724a34642d71325763" failed H:0x8 D:0x0 P:0x0 cpu3:2132)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device. cpu2:2127)ScsiDeviceIO: 2316: Cmd(0x4124403c1fc0) 0x25, CmdSN 0xecab to dev "naa.60a98000572d54724a34642d71325763" failed H:0x1 D:0x0 P:0x0 Possible sense data: 0x5 0x25 0x0. cpu2:854568)WARNING: ScsiDeviceIO: 7330: READ CAPACITY on device "naa.60a98000572d54724a34642d71325763" from Plugin "NMP" failed. I/O error cpu2:854568)ScsiDevice: 1238: Permanently inaccessible device :naa.60a98000572d54724a34642d71325763 has no more open connections. It is now safe to unmount datastores (if any) and delete the device.
Alle Path Down (APD)
- Een datastore wordt weergegeven als niet beschikbaar in de Storage-weergave.
- Een storageadapter geeft de operationele status van het apparaat aan als Dood of Fout.
- Alle paden naar het apparaat zijn gemarkeerd als Dood.
- U kunt niet rechtstreeks verbinding maken met de ESXi-host met behulp van de vSphere Client.
- De ESXi-host wordt weergegeven als Niet verbonden in vCenter Server.
- In het
/var/log/vmkernel.logbestand, worden vergelijkbare vermeldingen gezien om:
Voorbeeld
cpu1:2049)WARNING: NMP: nmp_IssueCommandToDevice:2954:I/O could not be issued to device "naa.60a98000572d54724a34642d71325763" due to Not found cpu1:2049)WARNING: NMP: nmp_DeviceRetryCommand:133:Device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device. cpu1:2049)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device. cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60a98000572d54724a34642d71325763" - issuing command 0x4124007ba7c0 cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:658:Retry world failover device "naa.60a98000572d54724a34642d71325763" - failed to issue command due to Not found (APD), try again...
*Raadpleeg de VMware KB# voor de oplossing en aanvullende voorbeelden op basis van verschillende omstandigheden*.
**SAN moet worden aangevinkt, evenals een actiepunt voor ADP/PDL-problemen**.
PowerPath
Als PowerPath aanwezig is, zijn er nog een paar dingen die u moet controleren.
Compatibiliteit: wordt de gebruikte PowerPath-versie ondersteund met de actieve versie van ESXi.
Dit kan worden geverifieerd in ESM.
Connectiviteit-
Er zijn verschillende typen berichten die kunnen worden weergegeven wanneer PowerPath een verloren pad detecteert, waaronder:
PowerPath: Path Dead onderzoeken in PowerPath
NMP-instellingen
Voor de meeste Dell arrays*, behalve VPLEX, Round Robin (policy=rr ) met IOPS=1 wordt aanbevolen voor de beste prestaties.
Deze instelling moet worden aangevinkt wanneer prestaties of latentie worden genoemd.
Deze is te vinden in de grijpers onder /commands/localcli_storage-nmp-device-list.txt or /json/localcli_storage-nmp-device-list.json
*Raadpleeg altijd de meest recente gids voor hostconnectiviteit en gidsen met best practices voor storage voor actuele aanbevelingen.
VMware-artikelnummer 2069356
Round Robin-IOPS-limiet aanpassen van standaard 1000 naar 1 (2069356)
Gids voor connectiviteit met Dell EMC hosts VMware ESXi-server
Unity - pagina 36
PowerStore - pagina 62
EMC XtremIO hostconnectiviteitsgidsen
Hoofdstuk 3 - pagina 57
Voorbeeld van NMNP-instellingen in /commands/localcli_storage-nmp-device-list.txt
Onjuiste instellingen
naa.6006016051904d00f056b95dc4abd917:
Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)
Storage Array Type: VMW_SATP_ALUA_CX
Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}
Path Selection Policy: VMW_PSP_RR
Path Selection Policy Device Config: {policy=rr,iops=1000,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}
Path Selection Policy Device Custom Config:
Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10
Juiste instellingen
naa.6006016051904d00f056b95dc4abd917:
Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)
Storage Array Type: VMW_SATP_ALUA_CX
Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}
Path Selection Policy: VMW_PSP_RR
Path Selection Policy Device Config: {policy=rr,iops=1,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}
Path Selection Policy Device Custom Config:
Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10
Waarschuwingen
ESXi 6.7 heeft verschillende bekende problemen met Cisco nfnic Drivers die prestatie- en connectiviteitsproblemen veroorzaken.
Als het probleem te maken heeft met een van de bovenstaande aspecten, controleert u het Cisco nfnic driverversie en controleer de VMware Knowledge Base (KB) voor getroffen versies.
De driverversie is te vinden in de uitvoer van /commands/localcli_software-vib-list.txt bestand.
Aanvullende informatie
In het geval dat andere teams moeten worden ingeschakeld, zorg er dan voor dat u het volgende krijgt:
- Logboeken (switch/storage)
- Storage SN#
- Datum en tijd van het probleem
Als een klant om hulp vraagt bij het inschakelen van VMware, verwijst u deze naar de VMware-pagina "contact".
Contactopties voor support
Additional Information
Zie alle documentatie voor bekende problemen, zoals releaseopmerkingen en de CLI gids met algemene berichten voor actuele informatie over bekende problemen en oplossingen.