PowerPath: Běžné problémy se systémem ESXi a položky, které je třeba odstranit
Summary: Účelem tohoto článku znalostní databáze je poskytnout běžné informace o problémech se systémem ESXi a postup jejich odstraňování.
Instructions
Příčina
Existuje mnoho věcí, které mohou způsobovat problémy s hostitelem ESXi.
Tato prezentace obsahuje seznam některých nejběžnějších problémů, se kterými se můžete setkat, a kroky pro jejich odstraňování.
Usnesení
-
Version – Je verze aktuální a stále podporovaná.
-
V části "Známé problémy" v poznámkách k verzi vyhledejte běžné problémy, opravy a odkazy na případ JIRA.
-
Verze pro PowerPath naleznete v následujících umístěních:
-
Verze PP/rpowermt
-
Umístění souboru: host/commands/localcli_software-vib-list.txt
-
Běžné problémy a chyby
Běžné problémy a chyby
- Připojení
- Trvalá ztráta zařízení
- Všechna cesta dolů
- PowerPath
Připojení
Zprávy se zobrazují v vmkernel a často vmkwarning výstupy.
"stav v pochybnostech; Požadovaná rychlá aktualizace stavu cesty"
Tyto zprávy se zobrazí, když ovladač adaptéru hostitelské sběrnice (HBA) zruší příkaz, protože dokončení příkazu trvalo déle, než vypršel časový limit 5 s. Operace může trvat déle, než je časový limit, a to z několika důvodů, mezi které patří:
- Operace zálohování pole (zálohování jednotky LUN, replikace atd.)
- Obecné přetížení pole
- Cache pro čtení/zápis v poli (chybná konfigurace, nedostatek cache atd.)
- Problémy s topologie Fabric (špatné propojení ISL (Inter-Switch Link), zastaralý firmware, vadný kabel topologie fabric / GBIC)
- Vysoká latence SAN
Příklad:
V dialogovém okně /var/log/vmkernel.log hostitele ESXi, zobrazí se položky podobné této:
<YYYY-MM-DD>T<time> esx12 vmkernel: 116:03:44:19.039 cpu4:4196)<6>qla2xxx 0000:0f:00.0: scsi(6:0:152): Abort command issued -- 1 67a23dcd 2002. <YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)NMP: nmp_CompleteCommandForPath: Command 0x2a (0x4100020e0b00) to NMP device "sym.029010111831353837" failed on physical path "vmhba2:C0:T0:L152" H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0. <YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe: NMP device "sym.029010111831353837" state in doubt; requested fast path state update...</time>
/commands/Localcli_storage-core-adapter-stats-get.txt
Výše uvedené informace mohou být užitečné při kontrole vyrovnávání zatížení adaptéru HBA a v případě konfliktů rezervací.
Velká nerovnováha úspěšných příkazů může znamenat zásadu pevné cesty nebo jiné problémy s vyvážením.
Konflikty rezervací mohou svědčit o neshodách logické jednotky hostitele (HLU) v polích Unity.
Dell EMC Unity/VNX/CLARiiON: Systém VMware nevidí jednotky LUN správně, pokud se nacházejí ve více skupinách úložišť a úroveň HLU se neshoduje (oprava uživatelem)
Localcli_storage-core-device-stats-get.txt
Výše uvedené údaje poskytují statistické údaje o jednotkách LUN a ukazují, u kterých jednotek LUN dochází ke konfliktům rezervací.
/commands/localcli_storage-san-fc-stats-get.txt
Výše uvedený příkaz je užitečný pro kontrolu statistik HBA, například:
- Vysypané rámečky
- Počet selhání linky
- Ztráta počtu signálů
- Neplatný počet slov Tx
/commands/Localcli_storage-san-fc-events-get.txt
Zobrazuje časová razítka nedávných událostí FC, navázání nebo vypnutí propojení atd.
/var/run/log/vmksummary.log
Zobrazuje časová razítka toho, kdy byl hostitel spuštěn a restartován nebo kdy nereagoval.
Pokud tomu dobře rozumím, statistiky HBA se po restartu vynulují.
To poskytuje časový rámec, kdy došlo ke statistikám FC.
Ukázka:
2022-10-09T13:05:21Z bootstop: Host is rebooting 2022-10-09T13:10:55.351Z bootstop[2107273]: Host has booted
Při provádění údržby diskového pole nebo jakékoli akce, která by způsobila, že cíl pole přejde do režimu offline/online, se nativní ovladač Cisco FNIC nemusí správně přihlásit zpět do cíle, což způsobí, že cesty zůstanou v mrtvém stavu.
Tento problém je způsoben tím, že nativní ovladač Cisco FNIC obdrží RSCN během části příkazu REPORT_LUNS nfnic Přihlaste se k portu, což má za následek, že se ovladač zastaví a proces přihlášení se neopakuje. To bylo pozorováno jak u polí IBM SVC, tak u IBM V7000, ale bylo by to pozorováno také u jakéhokoli pole IBM Storwize, protože všechna používají stejný softwarový zásobník. To lze pozorovat i u polí jiných výrobců než IBM, pokud během příkazu REPORT_LUNS, který ovladač odešle během přihlašování, vydají RSCN.
Problémy s výkonem i poklesem polohy / APD lze vyřešit upgradem na nfnic 4.0.0.63 a vyšší.
Další informace a podporu získáte od společností VMware a Cisco.
Verze ovladačů jsou k dispozici v části /commands/localcli_software-vib-list.txt
(zadejte ovladač) vib (možné soubory DIFS s 6.x vs. 7.x)
Trvalá ztráta zařízení (PDL) / ztráta všech cest dolů (APD)
Trvalá ztráta zařízení (PDL)
- Úložiště dat se v zobrazení Úložiště zobrazuje jako nedostupné.
- Adaptér úložiště indikuje provozní stav zařízení jako ztracenou komunikaci.
- Všechny cesty k zařízení jsou označeny jako mrtvé.
- V dialogovém okně
/var/log/vmkernel.log, zobrazí se položky podobné této:
Příklad
cpu2:853571)VMW_SATP_ALUA: satp_alua_issueCommandOnPath:661: Path "vmhba4:C0:T0:L0" (PERM LOSS) command 0xa3 failed with status Device is permanently unavailable. H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0. cpu2:853571)WARNING: vmw_psp_rr: psp_rrSelectPathToActivate:972:Could not select path for device "naa.60a98000572d54724a34642d71325763". cpu2:853571)WARNING: ScsiDevice: 1223: Device :naa.60a98000572d54724a34642d71325763 has been removed or is permanently inaccessible. cpu3:2132)ScsiDeviceIO: 2288: Cmd(0x4124403c1fc0) 0x9e, CmdSN 0xec86 to dev "naa.60a98000572d54724a34642d71325763" failed H:0x8 D:0x0 P:0x0 cpu3:2132)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device. cpu2:2127)ScsiDeviceIO: 2316: Cmd(0x4124403c1fc0) 0x25, CmdSN 0xecab to dev "naa.60a98000572d54724a34642d71325763" failed H:0x1 D:0x0 P:0x0 Possible sense data: 0x5 0x25 0x0. cpu2:854568)WARNING: ScsiDeviceIO: 7330: READ CAPACITY on device "naa.60a98000572d54724a34642d71325763" from Plugin "NMP" failed. I/O error cpu2:854568)ScsiDevice: 1238: Permanently inaccessible device :naa.60a98000572d54724a34642d71325763 has no more open connections. It is now safe to unmount datastores (if any) and delete the device.
All Path Down (APD)
- Úložiště dat se v zobrazení Úložiště zobrazuje jako nedostupné.
- Adaptér úložiště indikuje provozní stav zařízení jako mrtvý nebo chybový.
- Všechny cesty k zařízení jsou označeny jako mrtvé.
- Nelze se připojit přímo k hostiteli ESXi pomocí klienta vSphere.
- Hostitel ESXi se v nástroji vCenter Server zobrazuje jako Disconnected.
- V dialogovém okně
/var/log/vmkernel.logsouborů, jsou podobné položky zobrazeny tak, aby:
Příklad
cpu1:2049)WARNING: NMP: nmp_IssueCommandToDevice:2954:I/O could not be issued to device "naa.60a98000572d54724a34642d71325763" due to Not found cpu1:2049)WARNING: NMP: nmp_DeviceRetryCommand:133:Device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device. cpu1:2049)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device. cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60a98000572d54724a34642d71325763" - issuing command 0x4124007ba7c0 cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:658:Retry world failover device "naa.60a98000572d54724a34642d71325763" - failed to issue command due to Not found (APD), try again...
*Podívejte se na článek VMware KB#, kde najdete rozlišení a další příklady založené na různých okolnostech*.
**Síť SAN by měla být zkontrolována, stejně jako položka akce pro problémy s ADP/PDL**.
PowerPath
Pokud je přítomen PowerPath, je třeba zkontrolovat několik dalších věcí.
Kompatibilita – Je používaná verze softwaru PowerPath podporována se spuštěnou verzí systému ESXi?
To lze ověřit v ESM.
Připojení-
Existuje několik typů zpráv, které se mohou zobrazit, když PowerPath zjistí ztracenou cestu: včetně:
PowerPath: Jak prozkoumat mrtvé cesty v softwaru PowerPath
Nastavení NMP
Pro většinu polí Dell*, s výjimkou VPLEX, kruhové dotazování (policy=rr ) s IOPS=1 se doporučuje pro nejlepší výkon.
Toto nastavení by mělo být zkontrolováno při zmínce o výkonu nebo latenci.
To lze nalézt v příspěvcích pod /commands/localcli_storage-nmp-device-list.txt or /json/localcli_storage-nmp-device-list.json
*Aktuální doporučení vždy naleznete v nejaktuálnějším průvodci připojením hostitele a vzorových postupech pro úložiště.
Článek společnosti VMware číslo 2069356
Úprava limitu Round Robin IOPS z výchozího nastavení 1000 na 1 (2069356)
Příručka k připojení hostitele Dell EMC Server VMware ESXi
Unity – strana 36
PowerStore – stránka 62
Průvodce konektivitou hostitele EMC XtremIO
Kapitola 3 - strana 57
Příklad nastavení NMNP v /commands/localcli_storage-nmp-device-list.txt
Nesprávná nastavení
naa.6006016051904d00f056b95dc4abd917:
Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)
Storage Array Type: VMW_SATP_ALUA_CX
Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}
Path Selection Policy: VMW_PSP_RR
Path Selection Policy Device Config: {policy=rr,iops=1000,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}
Path Selection Policy Device Custom Config:
Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10
Správné nastavení
naa.6006016051904d00f056b95dc4abd917:
Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)
Storage Array Type: VMW_SATP_ALUA_CX
Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}
Path Selection Policy: VMW_PSP_RR
Path Selection Policy Device Config: {policy=rr,iops=1,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}
Path Selection Policy Device Custom Config:
Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10
Upozornění
Systém ESXi 6.7 má několik známých problémů se společností Cisco nfnic Ovladače, které způsobují problémy s výkonem a konektivitou.
Pokud problém souvisí s některým z výše uvedených, ověřte, zda je nfnic a vyhledejte dotčené verze ve znalostní databázi VMware (KB).
Verze ovladače se nachází ve výstupu /commands/localcli_software-vib-list.txt soubor.
Další informace
V případě, že je třeba zapojit další týmy, nezapomeňte získat následující:
- Protokoly (přepínač/úložiště)
- Výrobní číslo úložiště#
- Datum a čas vydání
Pokud zákazník požaduje pomoc se společností VMware, odkažte ho na stránku "kontaktujte nás" společnosti VMware.
Možnosti kontaktu na podporu
Additional Information
Aktuální informace o známých problémech a jejich řešeních naleznete v veškeré dokumentaci ke známým problémům, jako jsou poznámky k verzi a průvodce běžnými zprávami rozhraní příkazového řádku.