PowerPath: Yleiset ESXi-ongelmat ja tarkistettavat vianmäärityskohteet
Summary: Tämän tietämyskannan artikkelin tarkoituksena on antaa yleisiä tietoja ESXi-ongelmista ja niiden vianmäärityksestä.
Instructions
Aiheuttaa
Monet asiat voivat aiheuttaa ongelmia ESXi-isännässä.
Tässä esityksessä luetellaan yleisimpiä mahdollisesti löytyviä asioita ja niiden vianmääritysohjeita.
Päätöslauselma
-
Versio – Onko versio ajan tasalla ja edelleen tuettu
-
Katso julkaisutietojen Known Issues -osasta yleisiä ongelmia, korjauksia ja JIRA-linkkejä.
-
PowerPath-versiot ovat seuraavissa sijainneissa:
-
PP-/rpowermt-versio
-
Tiedoston sijainti: isäntä/komennot/localcli_software-vib-list.txt
-
Yleiset ongelmat ja virheet
Yleiset ongelmat ja virheet
- Yhteydet
- Pysyvä laitteen menetys
- Kaikki polku alas
- PowerPath
Yhteydet
Viestit näkyvät vmkernel ja usein vmkwarning Lähdöt.
"Ilmoita epävarma; Pyydetty nopea polun tilan päivitys"
Nämä sanomat tulevat näkyviin, kun HBA (Host Bus Adapter) -sovittimen ohjain peruuttaa komennon, koska komennon suorittaminen kesti kauemmin kuin aikakatkaisuaika 5 s. Toiminto voi kestää aikakatkaisujaksoa kauemmin esimerkiksi seuraavista syistä:
- Levyjärjestelmän varmuuskopiointitoiminnot (LUN-varmuuskopiointi, replikointi jne.)
- Ryhmän yleinen ylikuormitus
- Levyjärjestelmän luku/kirjoitusvälimuisti (virheellinen määritys, välimuistin puute jne.)
- Fabric-ongelmat (viallinen kytkinten välinen linkki (ISL), vanhentunut laiteohjelmisto, viallinen kangaskaapeli / GBIC)
- Suuri SAN-viive
Esimerkki:
Vuonna /var/log/vmkernel.log ESXi-isännän tiedostossa, näet seuraavanlaisia merkintöjä:
<YYYY-MM-DD>T<time> esx12 vmkernel: 116:03:44:19.039 cpu4:4196)<6>qla2xxx 0000:0f:00.0: scsi(6:0:152): Abort command issued -- 1 67a23dcd 2002. <YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)NMP: nmp_CompleteCommandForPath: Command 0x2a (0x4100020e0b00) to NMP device "sym.029010111831353837" failed on physical path "vmhba2:C0:T0:L152" H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0. <YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe: NMP device "sym.029010111831353837" state in doubt; requested fast path state update...</time>
/commands/Localcli_storage-core-adapter-stats-get.txt
Edellä olevista voi olla hyötyä HBA-kuormitustasapainon tarkistamisessa ja varausristiriidoissa.
Onnistuneiden komentojen suuri epätasapaino voi viitata kiinteän polun käytäntöön tai muihin tasapainotusongelmiin.
Varausristiriidat voivat olla merkki HLU (Host Logical Unit) -vastaavuuksista Unity-matriiseissa.
Dell EMC Unity/VNX/CLARiiON: VMware ei näe loogisia levyjä oikein, jos ne ovat useissa tallennusryhmissä ja HLU ei vastaa toisiaan (käyttäjän korjattavissa)
Localcli_storage-core-device-stats-get.txt
Yllä oleva antaa LUN-tilastot ja näyttää, millä LUNeilla on varausristiriitoja.
/commands/localcli_storage-san-fc-stats-get.txt
Yllä olevasta komennosta on hyötyä esimerkiksi seuraavien HBA-tilastojen tarkistamisessa:
- Dumpatut kehykset
- Linkkivirheiden määrä
- Signaalimäärän menetys
- Virheellinen Tx-sanamäärä
/commands/Localcli_storage-san-fc-events-get.txt
Näyttää viimeisimmät FC-tapahtumien aikaleimat, linkin ylös- tai alaspäin ja niin edelleen.
/var/run/log/vmksummary.log
Näyttää aikaleimat ajalta, jolloin isäntä käynnistettiin uudelleen tai jolloin se ei vastannut.
Ymmärtääkseni HBA-tilastot nollataan uudelleenkäynnistyksen yhteydessä.
Tämä antaa aikataulun siitä, milloin FC-tilastot tapahtuivat.
Otos:
2022-10-09T13:05:21Z bootstop: Host is rebooting 2022-10-09T13:10:55.351Z bootstop[2107273]: Host has booted
Kun suoritetaan tallennusjärjestelmän ylläpitotoimia tai muita toimintoja, jotka aiheuttavat järjestelmän kohteen siirtymisen offline- tai online-tilaan, Cisco Native FNIC -ohjain ei välttämättä kirjaudu takaisin kohteeseen oikein, jolloin polut jäävät kuolleeseen tilaan.
Tämä ongelma johtuu siitä, että Cisco Native FNIC -ohjain vastaanottaa RSCN-numeron REPORT_LUNS-komento-osan aikana nfnic Portin kirjautumisprosessi, jonka seurauksena kuljettaja pysäyttää kirjautumisen eikä yritä kirjautumisprosessia uudelleen. Tämä havaittiin sekä IBM SVC- että IBM V7000 -ryhmässä, mutta se olisi havaittu myös missä tahansa IBM Storwize -ryhmässä, koska ne kaikki käyttävät samaa ohjelmistopinoa. Tämä koskee myös muita kuin IBM:n järjestelmiä, kunhan ne antavat RSCN-numeron REPORT_LUNS komennon aikana, jonka ohjain lähettää kirjautumisen yhteydessä.
Sekä suorituskykyyn että alas-/APD-polkuun liittyvät ongelmat ratkaistaan päivittämällä seuraavaan versioon: nfnic 4.0.0.63 ja uudemmat.
Lisätietoja ja tukitietoja antaa VMware ja Cisco.
Ohjainversiot löytyvät kohdasta /commands/localcli_software-vib-list.txt
(kirjoita ohjain vib nimet täällä) (mahdolliset dif-arvot 6.x vs 7.x)
Pysyvä laitteen menetys (PDL) / kaikki polut alas (APD)
Pysyvä laitehävikki (PDL)
- Tietosäilö näkyy ei-käytettävissä Tallennustila-näkymässä.
- Tallennussovitin ilmaisee laitteen toimintatilaksi Lost Communication.
- Kaikki laitteeseen johtavat polut on merkitty kuolleiksi.
- Vuonna
/var/log/vmkernel.logtiedosto, näet seuraavanlaisia merkintöjä:
Esimerkki
cpu2:853571)VMW_SATP_ALUA: satp_alua_issueCommandOnPath:661: Path "vmhba4:C0:T0:L0" (PERM LOSS) command 0xa3 failed with status Device is permanently unavailable. H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0. cpu2:853571)WARNING: vmw_psp_rr: psp_rrSelectPathToActivate:972:Could not select path for device "naa.60a98000572d54724a34642d71325763". cpu2:853571)WARNING: ScsiDevice: 1223: Device :naa.60a98000572d54724a34642d71325763 has been removed or is permanently inaccessible. cpu3:2132)ScsiDeviceIO: 2288: Cmd(0x4124403c1fc0) 0x9e, CmdSN 0xec86 to dev "naa.60a98000572d54724a34642d71325763" failed H:0x8 D:0x0 P:0x0 cpu3:2132)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device. cpu2:2127)ScsiDeviceIO: 2316: Cmd(0x4124403c1fc0) 0x25, CmdSN 0xecab to dev "naa.60a98000572d54724a34642d71325763" failed H:0x1 D:0x0 P:0x0 Possible sense data: 0x5 0x25 0x0. cpu2:854568)WARNING: ScsiDeviceIO: 7330: READ CAPACITY on device "naa.60a98000572d54724a34642d71325763" from Plugin "NMP" failed. I/O error cpu2:854568)ScsiDevice: 1238: Permanently inaccessible device :naa.60a98000572d54724a34642d71325763 has no more open connections. It is now safe to unmount datastores (if any) and delete the device.
Kaikki polku alas (APD)
- Tietosäilö näkyy ei-käytettävissä Tallennustila-näkymässä.
- Tallennussovitin ilmoittaa laitteen toimintatilaksi Kuollut tai Virhe.
- Kaikki laitteeseen johtavat polut on merkitty kuolleiksi.
- Yhteyden muodostaminen suoraan ESXi-isäntään vSphere Clientilla ei onnistu.
- ESXi-isäntä näkyy vCenter Serverissä katkenneena.
- Vuonna
/var/log/vmkernel.logtiedosto, samanlaisia merkintöjä nähdään:
Esimerkki
cpu1:2049)WARNING: NMP: nmp_IssueCommandToDevice:2954:I/O could not be issued to device "naa.60a98000572d54724a34642d71325763" due to Not found cpu1:2049)WARNING: NMP: nmp_DeviceRetryCommand:133:Device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device. cpu1:2049)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device. cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60a98000572d54724a34642d71325763" - issuing command 0x4124007ba7c0 cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:658:Retry world failover device "naa.60a98000572d54724a34642d71325763" - failed to issue command due to Not found (APD), try again...
*Katso ratkaisu VMware KB#:sta ja muita esimerkkejä eri olosuhteista*.
**SAN on tarkistettava samoin kuin ADP/PDL-ongelmien toimenpidekohde**.
PowerPath
Jos PowerPath on käytettävissä, tarkista vielä muutama asia.
Yhteensopivuus – Tukeeko käytössä oleva PowerPath-versio käynnissä olevaa ESXi-versiota?
Tämä voidaan tarkistaa EVM:ssä.
Verkkoyhteydet-
Näyttöön voi tulla monenlaisia sanomia, kun PowerPath havaitsee kadonneen polun, mukaan lukien.
PowerPath: Kuolleen polun tutkiminen PowerPathissa
NMP-asetukset
Useimmissa Dell-levyjärjestelmissä*, paitsi VPLEX, Round Robin (policy=rr ) IOPS=1:llä suositellaan parhaan suorituskyvyn saavuttamiseksi.
Tämä asetus on valittava, kun suorituskyky tai viive mainitaan.
Tämä löytyy alla olevista kahvoista /commands/localcli_storage-nmp-device-list.txt or /json/localcli_storage-nmp-device-list.json
*Katso aina uusimmat isäntäyhteysoppaat ja tallennuksen parhaiden käytäntöjen oppaat ajantasaisista suosituksista.
VMware-tuotenumero 2069356
Round Robin IOPS -rajan säätäminen oletusarvosta 1000 arvoon 1 (2069356)
Dell EMC:n isännän yhteysopas VMware ESXi -palvelin
Yhtenäisyys - sivu 36
PowerStore - sivu 62
EMC XtremIO -isännän yhteysoppaat
Luku 3 - sivu 57
Esimerkki NMNP-asetuksista /commands/localcli_storage-nmp-device-list.txt
Virheelliset asetukset
naa.6006016051904d00f056b95dc4abd917:
Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)
Storage Array Type: VMW_SATP_ALUA_CX
Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}
Path Selection Policy: VMW_PSP_RR
Path Selection Policy Device Config: {policy=rr,iops=1000,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}
Path Selection Policy Device Custom Config:
Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10
Oikeat asetukset
naa.6006016051904d00f056b95dc4abd917:
Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)
Storage Array Type: VMW_SATP_ALUA_CX
Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}
Path Selection Policy: VMW_PSP_RR
Path Selection Policy Device Config: {policy=rr,iops=1,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}
Path Selection Policy Device Custom Config:
Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10
Varoituksista
ESXi 6.7:ssä on useita tunnettuja ongelmia Ciscon kanssa nfnic ajurit, jotka aiheuttavat suorituskyky- ja yhteysongelmia.
Jos ongelma liittyy johonkin edellä mainituista, tarkista Cisco nfnic ajuriversio ja tarkista, onko VMware-tietämyskannasta (KB) versioita, joita ongelma koskee.
Ajuriversio löytyy kohdan /commands/localcli_software-vib-list.txt tiedosto.
Lisätietoja
Jos muita joukkueita on otettava mukaan, varmista, että hankit seuraavat:
- Lokit (kytkin/tallennus)
- Tallennustila SN#
- Myöntämispäivä ja -aika
Jos asiakas pyytää apua VMwaren käyttöönotossa, ohjaa hänet VMwaren Ota yhteyttä -sivulle.
Tuen yhteydenottovaihtoehdot
Additional Information
Katso kaikki tunnettuja ongelmia koskevat oppaat, kuten julkaisutiedot ja komentoriviliittymän yleisten viestien opas, joissa on ajantasaisia tietoja tunnetuista ongelmista ja ratkaisuista.