PowerPath: Vanlige ESXi-problemer og -elementer som skal kontrolleres for feilsøking
Summary: Formålet med denne KB-artikkelen er å gi felles informasjon om ESXi-problemer og fremgangsmåten for å feilsøke dem.
Instructions
Årsak
Det er mange ting som kan forårsake problemer med en ESXi-vert.
Denne presentasjonen er en liste over noen av de vanligste tingene som kan bli funnet, og feilsøkingstrinnene.
Resolusjon
-
Versjon – er versjonen oppdatert og støttes fortsatt
-
Se delen Kjente problemer i produktmerknadene for å finne vanlige problemer, feilrettinger og koblinger til JIRA.
-
Du finner versjoner for PowerPath på følgende steder:
-
PP/rpowermt-versjon
-
Filplassering: host / kommandoer / localcli_software-vib-list.txt
-
Vanlige problemer og feil
Vanlige problemer og feil
- Tilkoblingsmuligheter
- Permanent tap av enhet
- Hele veien ned
- PowerPath
Tilkoblingsmuligheter
Meldinger vises i vmkernel og ofte vmkwarning Utganger.
"Staten er i tvil; bedt om rask bane tilstand oppdatering"
Disse meldingene vises når vertsbussadapterdriveren (HBA) avbryter en kommando fordi kommandoen tok lengre tid enn tidsavbruddsperioden på 5 sekunder å fullføre. En operasjon kan ta lengre tid enn tidsavbruddsperioden på grunn av flere årsaker, inkludert:
- Array-sikkerhetskopieringsoperasjoner (LUN-sikkerhetskopiering, replikering, så videre)
- Generell overbelastning på arrayet
- Lese-/skrivebuffer på arrayet (feilkonfigurasjon, mangel på hurtigbuffer, så videre)
- Infrastrukturproblemer (Bad Inter-Switch Link (ISL), utdatert fastvare, dårlig stoffkabel/GBIC)
- Høy SAN-ventetid
Eksempel:
I den /var/log/vmkernel.log fil av ESXi-verten, ser du oppføringer som ligner på:
<YYYY-MM-DD>T<time> esx12 vmkernel: 116:03:44:19.039 cpu4:4196)<6>qla2xxx 0000:0f:00.0: scsi(6:0:152): Abort command issued -- 1 67a23dcd 2002. <YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)NMP: nmp_CompleteCommandForPath: Command 0x2a (0x4100020e0b00) to NMP device "sym.029010111831353837" failed on physical path "vmhba2:C0:T0:L152" H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0. <YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe: NMP device "sym.029010111831353837" state in doubt; requested fast path state update...</time>
/commands/Localcli_storage-core-adapter-stats-get.txt
Ovennevnte kan være nyttig for å sjekke HBA-belastningsbalanse og for reservasjonskonflikter.
En stor ubalanse av vellykkede kommandoer kan indikere en fast banepolicy eller andre balanseringsproblemer.
Reservasjonskonflikter kan være en indikasjon på uoverensstemmelser i Host Logical Unit (HLU) på Unity-arrayer.
Dell EMC Unity / VNX / CLARiiON: VMware kan ikke se LUN-er på riktig måte hvis de er i flere lagringsgrupper og HLU ikke samsvarer (kan korrigeres av brukeren)
Localcli_storage-core-device-stats-get.txt
Ovennevnte gir LUN-statistikk og viser hvilke LUN-er som har reservasjonskonflikter.
/commands/localcli_storage-san-fc-stats-get.txt
Kommandoen ovenfor er nyttig for å sjekke HBA-statistikk som:
- Dumpede rammer
- Antall koblingsfeil
- Tap av signalantall
- Ugyldig tx-ordtelling
/commands/Localcli_storage-san-fc-events-get.txt
Viser nylige tidsstempler for FC-arrangementet, kobling opp eller ned og så videre.
/var/run/log/vmksummary.log
Viser tidsstempler for når verten ble startet opp og startet på nytt, eller ikke reagerte.
Så vidt jeg forstår tilbakestilles HBA-statistikk ved omstart.
Dette gir en tidsramme for når FC-statistikken skjedde.
Eksempel:
2022-10-09T13:05:21Z bootstop: Host is rebooting 2022-10-09T13:10:55.351Z bootstop[2107273]: Host has booted
Når du utfører vedlikehold av lagringsarray eller en hvilken som helst handling som kan føre til at et arraymål kobles fra/tilkoblet, kan det hende at Cisco Native FNIC-driveren ikke logger seg på riktig måte på målet, noe som resulterer i baner som forblir i død tilstand.
Dette problemet skyldes at Cisco Native FNIC-driveren mottar en RSCN under REPORT_LUNS kommandodelen av nfnic portpåloggingsprosess, noe som resulterer i at driveren stopper og ikke prøver påloggingsprosessen på nytt. Dette ble observert med både IBM SVC- og IBM V7000-arrayet, men det ville også ha blitt observert på alle IBM Storwize-arrayer siden de alle bruker samme programvarestabel. Dette vil også bli observert for ikke-IBM-arrayer, så lenge de utsteder en RSCN under REPORT_LUNS-kommandoen som sjåføren sender under pålogging.
Både problemer med ytelse og bane ned/APD løses ved å oppgradere til nfnic 4.0.0.63 og nyere.
Kontakt VMware og Cisco for mer informasjon og støtte.
Du finner driverversjoner i /commands/localcli_software-vib-list.txt
(angi driver vib navn her) (mulig difs med 6.x vs 7.x)
Permanent tap av enhet (PDL) / All Path Down (APD)
Permanent enhetstap (PDL)
- Et datalager vises som utilgjengelig i lagringsvisningen.
- En lagringsadapter angir driftstilstanden til enheten som tapt kommunikasjon.
- Alle baner til enheten er merket som døde.
- I den
/var/log/vmkernel.log-fil, ser du oppføringer som ligner på:
Eksempel
cpu2:853571)VMW_SATP_ALUA: satp_alua_issueCommandOnPath:661: Path "vmhba4:C0:T0:L0" (PERM LOSS) command 0xa3 failed with status Device is permanently unavailable. H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0. cpu2:853571)WARNING: vmw_psp_rr: psp_rrSelectPathToActivate:972:Could not select path for device "naa.60a98000572d54724a34642d71325763". cpu2:853571)WARNING: ScsiDevice: 1223: Device :naa.60a98000572d54724a34642d71325763 has been removed or is permanently inaccessible. cpu3:2132)ScsiDeviceIO: 2288: Cmd(0x4124403c1fc0) 0x9e, CmdSN 0xec86 to dev "naa.60a98000572d54724a34642d71325763" failed H:0x8 D:0x0 P:0x0 cpu3:2132)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device. cpu2:2127)ScsiDeviceIO: 2316: Cmd(0x4124403c1fc0) 0x25, CmdSN 0xecab to dev "naa.60a98000572d54724a34642d71325763" failed H:0x1 D:0x0 P:0x0 Possible sense data: 0x5 0x25 0x0. cpu2:854568)WARNING: ScsiDeviceIO: 7330: READ CAPACITY on device "naa.60a98000572d54724a34642d71325763" from Plugin "NMP" failed. I/O error cpu2:854568)ScsiDevice: 1238: Permanently inaccessible device :naa.60a98000572d54724a34642d71325763 has no more open connections. It is now safe to unmount datastores (if any) and delete the device.
All Path Down (APD)
- Et datalager vises som utilgjengelig i lagringsvisningen.
- En lagringsadapter angir enhetens driftstilstand som død eller feil.
- Alle baner til enheten er merket som døde.
- Du kan ikke koble direkte til ESXi-verten ved hjelp av vSphere Client.
- ESXi-verten vises som frakoblet i vCenter Server.
- I den
/var/log/vmkernel.logfil, er lignende oppføringer sett til:
Eksempel
cpu1:2049)WARNING: NMP: nmp_IssueCommandToDevice:2954:I/O could not be issued to device "naa.60a98000572d54724a34642d71325763" due to Not found cpu1:2049)WARNING: NMP: nmp_DeviceRetryCommand:133:Device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device. cpu1:2049)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device. cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60a98000572d54724a34642d71325763" - issuing command 0x4124007ba7c0 cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:658:Retry world failover device "naa.60a98000572d54724a34642d71325763" - failed to issue command due to Not found (APD), try again...
*Sjekk VMware KB# for oppløsning og flere eksempler basert på ulike omstendigheter*.
**SAN bør kontrolleres, i tillegg til et handlingselement for ADP/PDL-problemer**.
PowerPath
Hvis PowerPath er til stede, er det noen flere ting du må kontrollere.
Kompatibilitet – støttes PowerPath-versjonen som er i bruk, med den kjørende versjonen av ESXi.
Dette kan bekreftes i ESM.
Tilkobling-
Det finnes flere typer meldinger som kan vises når PowerPath oppdager en bane som går tapt, inkludert.
PowerPath: Slik undersøker du død bane i PowerPath
NMP-innstillinger
For de fleste Dell-arrayer*, unntatt VPLEX, Round Robin (policy=rr ) med IOPS=1 anbefales for best ytelse.
Denne innstillingen bør kontrolleres når ytelse eller ventetid nevnes.
Dette finner du i grabbene under /commands/localcli_storage-nmp-device-list.txt or /json/localcli_storage-nmp-device-list.json
*Se alltid den nyeste veiledningen for vertstilkobling og veiledninger for beste praksis for lagring for oppdaterte anbefalinger.
VMware-artikkel nummer 2069356
Justere IOPS-grensen for Round Robin fra standard 1000 til 1 (2069356)
Veiledning for vertstilkobling for Dell EMC VMware ESXi-server
Enhet - side 36
PowerStore - side 62
Veiledninger for EMC XtremIO-vertstilkobling
Kapittel 3 - side 57
Eksempel på NMNP-innstillinger i /commands/localcli_storage-nmp-device-list.txt
Feil innstillinger
naa.6006016051904d00f056b95dc4abd917:
Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)
Storage Array Type: VMW_SATP_ALUA_CX
Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}
Path Selection Policy: VMW_PSP_RR
Path Selection Policy Device Config: {policy=rr,iops=1000,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}
Path Selection Policy Device Custom Config:
Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10
Riktige innstillinger
naa.6006016051904d00f056b95dc4abd917:
Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)
Storage Array Type: VMW_SATP_ALUA_CX
Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}
Path Selection Policy: VMW_PSP_RR
Path Selection Policy Device Config: {policy=rr,iops=1,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}
Path Selection Policy Device Custom Config:
Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10
Advarsler
ESXi 6.7 har flere kjente problemer med Cisco nfnic Drivere som forårsaker ytelses- og tilkoblingsproblemer.
Hvis problemet er relatert til en av de ovennevnte, må du bekrefte Cisco nfnic driverversjon, og kontroller VMware-kunnskapsbasen (KB) for berørte versjoner.
Driverversjonen finnes i utdataene fra /commands/localcli_software-vib-list.txt fil.
Tilleggsinformasjon
I tilfelle andre lag må være engasjert, sørg for å få følgende:
- Logger (svitsj/lagring)
- Storage SN#
- Dato og klokkeslett for problemet
Hvis en kunde ber om hjelp med å engasjere VMware, kan du henvise vedkommende til VMwares "kontakt oss"-side.
Alternativer for kundestøttekontakt
Additional Information
Se all dokumentasjon for kjente problemer, for eksempel produktmerknader og veiledningen for felles meldinger for CLI for oppdatert informasjon om kjente problemer og løsninger.