PowerPath: Vanliga ESXi-problem och felsökningsobjekt
Summary: Syftet med den här KB-artikeln är att ge gemensam information om ESXi-problem och stegen för att felsöka dem.
Instructions
Orsak
Det finns många saker som kan orsaka problem med en ESXi-värd.
Den här presentationen är en lista över några av de vanligaste sakerna som kan hittas och deras felsökningssteg.
Resolution
-
Version – Är versionen aktuell och stöds fortfarande
-
I avsnittet "Kända problem" i versionskommentarerna hittar du vanliga problem, korrigeringar och JIRA-länkar.
-
Versioner för PowerPath finns på följande platser:
-
PP/rpowermt-version
-
Filplats: värd/kommandon/localcli_software-vib-list.txt
-
Vanliga problem och fel
Vanliga problem och fel
- Anslutningsinställningar
- Permanent enhetsförlust
- Alla vägar nedåt
- PowerPath
Anslutningsinställningar
Meddelanden visas i vmkernel och ofta vmkwarning Utgångar.
"Staten är osäker; Begärd uppdatering av snabbsökvägstillstånd"
De här meddelandena visas när HBA-drivrutinen (Host Bus Adapter) avbryter ett kommando eftersom kommandot tog längre tid än tidsgränsen på 5 s att slutföra. En åtgärd kan ta längre tid än tidsgränsen på grund av flera orsaker, bland annat:
- Säkerhetskopiering av disksystem (LUN-säkerhetskopiering, replikering osv.)
- Allmän överbelastning på disksystemet
- Läs-/skrivcache på disksystemet (felkonfiguration, brist på cacheminne osv.)
- Strukturproblem (dålig Inter-Switch Link (ISL), föråldrad fast programvara, dålig strukturkabel/GBIC)
- Hög SAN-latens
Exempel:
I den /var/log/vmkernel.log för ESXi-värden visas poster som liknar:
<YYYY-MM-DD>T<time> esx12 vmkernel: 116:03:44:19.039 cpu4:4196)<6>qla2xxx 0000:0f:00.0: scsi(6:0:152): Abort command issued -- 1 67a23dcd 2002. <YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)NMP: nmp_CompleteCommandForPath: Command 0x2a (0x4100020e0b00) to NMP device "sym.029010111831353837" failed on physical path "vmhba2:C0:T0:L152" H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0. <YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe: NMP device "sym.029010111831353837" state in doubt; requested fast path state update...</time>
/commands/Localcli_storage-core-adapter-stats-get.txt
Ovanstående kan vara användbart för att kontrollera HBA-belastningsutjämning och för reservationskonflikter.
En stor obalans i antalet lyckade kommandon kan tyda på en fast sökvägsprincip eller andra balanseringsproblem.
Reservationskonflikter kan tyda på matchningsfel för HLU-värdenheter (Host Logical Unit) på Unity-disksystem.
Dell EMC Unity/VNX/CLARiiON: VMware kan inte se LUN korrekt om de finns i flera lagringsgrupper och HLU inte matchar (kan korrigeras av användaren)
Localcli_storage-core-device-stats-get.txt
Ovanstående visar LUN-statistik och visar vilka LUN som har reservationskonflikter.
/commands/localcli_storage-san-fc-stats-get.txt
Kommandot ovan är användbart för att kontrollera HBA-statistik, t.ex.:
- Dumpade ramar
- Antal länkfel
- Förlust av signalantal
- Ogiltigt antal TX-ord
/commands/Localcli_storage-san-fc-events-get.txt
Visar de senaste tidsstämplarna för FC-händelser, länk uppåt eller nedåt och så vidare.
/var/run/log/vmksummary.log
Visar tidsstämplar för när värden startades och startades om eller inte svarade.
Såvitt jag förstår återställs HBA-statistiken vid omstart.
Detta ger en tidsram för när FC-statistiken inträffade.
Prov:
2022-10-09T13:05:21Z bootstop: Host is rebooting 2022-10-09T13:10:55.351Z bootstop[2107273]: Host has booted
När du utför underhåll av lagringsdisksystem eller någon åtgärd som skulle få ett disksystemmål att gå offline/online, kan det hända att Cisco Native FNIC-drivrutinen inte loggar in korrekt på målet, vilket resulterar i att sökvägarna förblir i ett dött tillstånd.
Det här problemet orsakas av att Cisco Native FNIC-drivrutinen tar emot ett RSCN under REPORT_LUNS kommandodelen av nfnic portinloggningsprocess, vilket resulterar i att drivrutinen stoppar och inte försöker inloggningsprocessen igen. Detta observerades med både IBM SVC- och IBM V7000-disksystem, men det skulle också ha observerats på alla IBM Storwize-disksystem eftersom de alla använder samma programvarustack. Detta observeras även för icke-IBM-disksystem, så länge de utfärdar ett RSCN under det REPORT_LUNS kommandot som drivrutinen skickar under inloggningen.
Både prestandaproblem och sökväg ned/APD löses genom uppgradering till nfnic 4.0.0.63 och senare.
Kontakta VMware och Cisco för ytterligare information och support.
Drivrutinsversioner finns i /commands/localcli_software-vib-list.txt
(Ange drivrutin vib namn här) (möjliga difs med 6.x vs 7.x)
Permanent enhetsförlust (PDL)/All Path Down (APD)
Permanent enhetsförlust (PDL)
- Ett datalager visas som ej tillgängligt i vyn Lagring.
- Ett lagringskort anger enhetens driftläge som förlorad kommunikation.
- Alla sökvägar till enheten är markerade som döda.
- I den
/var/log/vmkernel.log-filen visas poster som liknar:
Exempel
cpu2:853571)VMW_SATP_ALUA: satp_alua_issueCommandOnPath:661: Path "vmhba4:C0:T0:L0" (PERM LOSS) command 0xa3 failed with status Device is permanently unavailable. H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0. cpu2:853571)WARNING: vmw_psp_rr: psp_rrSelectPathToActivate:972:Could not select path for device "naa.60a98000572d54724a34642d71325763". cpu2:853571)WARNING: ScsiDevice: 1223: Device :naa.60a98000572d54724a34642d71325763 has been removed or is permanently inaccessible. cpu3:2132)ScsiDeviceIO: 2288: Cmd(0x4124403c1fc0) 0x9e, CmdSN 0xec86 to dev "naa.60a98000572d54724a34642d71325763" failed H:0x8 D:0x0 P:0x0 cpu3:2132)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device. cpu2:2127)ScsiDeviceIO: 2316: Cmd(0x4124403c1fc0) 0x25, CmdSN 0xecab to dev "naa.60a98000572d54724a34642d71325763" failed H:0x1 D:0x0 P:0x0 Possible sense data: 0x5 0x25 0x0. cpu2:854568)WARNING: ScsiDeviceIO: 7330: READ CAPACITY on device "naa.60a98000572d54724a34642d71325763" from Plugin "NMP" failed. I/O error cpu2:854568)ScsiDevice: 1238: Permanently inaccessible device :naa.60a98000572d54724a34642d71325763 has no more open connections. It is now safe to unmount datastores (if any) and delete the device.
All Path Down (APD)
- Ett datalager visas som ej tillgängligt i vyn Lagring.
- Ett lagringskort anger enhetens drifttillstånd som Död eller Fel.
- Alla sökvägar till enheten är markerade som döda.
- Det går inte att ansluta direkt till ESXi-värden med vSphere Client.
- ESXi-värden visas som frånkopplad i vCenter Server.
- I den
/var/log/vmkernel.logfil, ses liknande poster till:
Exempel
cpu1:2049)WARNING: NMP: nmp_IssueCommandToDevice:2954:I/O could not be issued to device "naa.60a98000572d54724a34642d71325763" due to Not found cpu1:2049)WARNING: NMP: nmp_DeviceRetryCommand:133:Device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device. cpu1:2049)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device. cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60a98000572d54724a34642d71325763" - issuing command 0x4124007ba7c0 cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:658:Retry world failover device "naa.60a98000572d54724a34642d71325763" - failed to issue command due to Not found (APD), try again...
*Se VMware KB# för lösningen och ytterligare exempel baserat på olika omständigheter*.
**SAN bör kontrolleras såväl som en åtgärd för ADP-/PDL-problem**.
PowerPath
Om PowerPath finns finns det några ytterligare saker att kontrollera.
Kompatibilitet – Stöds den PowerPath-version som används med den version av ESXi som körs.
Detta kan verifieras i ESM.
Uppkoppling-
Det finns flera typer av meddelanden som kan visas när PowerPath identifierar en sökväg som är förlorad, inklusive.
PowerPath: Så här undersöker du sökvägsdöd i PowerPath
NMP-inställningar
För de flesta Dell-disksystem*, förutom VPLEX, kan resursallokering (policy=rr ) med IOPS=1 rekommenderas för bästa prestanda.
Den här inställningen bör kontrolleras när prestanda eller svarstid nämns.
Detta hittar du i greppen under /commands/localcli_storage-nmp-device-list.txt or /json/localcli_storage-nmp-device-list.json
* Se alltid den senaste manualen för värdanslutning och guider för bästa praxis för lagring för uppdaterade rekommendationer.
VMware-artikel nummer 2069356
Justera IOPS-gränsen för Round Robin från standardvärdet 1 000 till 1 (2069356)
Dell EMC-värdanslutningsguide VMware ESXi-server
Enhet - sidan 36
PowerStore – sidan 62
EMC XtremIO-värdanslutningsmanualer
Kapitel 3 - sidan 57
Exempel på NMNP-inställningar i /commands/localcli_storage-nmp-device-list.txt
Felaktiga inställningar
naa.6006016051904d00f056b95dc4abd917:
Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)
Storage Array Type: VMW_SATP_ALUA_CX
Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}
Path Selection Policy: VMW_PSP_RR
Path Selection Policy Device Config: {policy=rr,iops=1000,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}
Path Selection Policy Device Custom Config:
Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10
Rätt inställningar
naa.6006016051904d00f056b95dc4abd917:
Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)
Storage Array Type: VMW_SATP_ALUA_CX
Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}
Path Selection Policy: VMW_PSP_RR
Path Selection Policy Device Config: {policy=rr,iops=1,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}
Path Selection Policy Device Custom Config:
Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10
Varningar
ESXi 6.7 har flera kända problem med Cisco nfnic drivrutiner som orsakar prestanda- och anslutningsproblem.
Om problemet är relaterat till något av ovanstående kontrollerar du Cisco nfnic drivrutinsversionen och kontrollera VMwares kunskapsbas (KB) för att se vilka versioner som påverkas.
Drivrutinsversionen finns i utdata från /commands/localcli_software-vib-list.txt fil.
Ytterligare information
Om andra team måste engageras, se till att skaffa följande:
- Loggar (switch/lagring)
- Lagrings-SN#
- Datum och tid för utfärdandet
Om en kund begär hjälp med att anlita VMware kan du hänvisa dem till sidan "kontakta oss" för VMware.
Kontaktalternativ för support
Additional Information
Se all dokumentation för kända problem, till exempel viktig information och guiden CLI Common messages för uppdaterad information om kända problem och lösningar.