PowerPath: Almindelige ESXi-problemer og elementer, der skal kontrolleres i forbindelse med fejlfinding

Summary: Formålet med denne KB-artikel er at give almindelige oplysninger om ESXi-problemer og trinnene til fejlfinding af dem.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

Årsag
Der er mange ting, der kan forårsage problemer med en ESXi-vært.
Denne præsentation er en liste over nogle af de mest almindelige ting, der kan findes, og deres fejlfindingstrin.

Opløsning

Grundlæggende kontrol

Version – Er versionen opdateret og understøttes stadig
Se afsnittet "Kendte problemer" i produktbemærkningerne for almindelige problemer, programrettelser og JIRA-links.
Du kan finde versioner til PowerPath følgende steder:
PP/rpowermt-version
Filplacering: vært/kommandoer/localcli_software-vib-list.txt
Almindelige problemer og fejl

Almindelige problemer og fejl

Tilslutning
Permanent enhedstab
Alle stier ned
PowerPath

Tilslutning

Meddelelser vises i vmkernel og ofte vmkwarning Udgange.

"Stat i tvivl; anmodet om hurtig opdatering af stitilstand"

Disse meddelelser vises, når driveren til HBA-værtsbusadapteren (Host Bus Adapter) annullerer en kommando, fordi kommandoen tog længere tid end timeoutperioden på 5 sekunder at fuldføre. En handling kan tage længere tid end timeoutperioden af flere årsager, herunder:

Sikkerhedskopieringshandlinger (LUN-sikkerhedskopiering, replikering osv.)
Generel overbelastning på systemet
Læse-/skrivecache på systemet (fejlkonfiguration, manglende cache osv.)
Strukturproblemer (Bad Inter-Switch Link (ISL), forældet firmware, Bad Fabric Cable/GBIC)
Høj SAN-ventetid

VMware KB#-1022026

Eksempel:

I /var/log/vmkernel.log fil af ESXi-værten, kan du se poster, der ligner:

<YYYY-MM-DD>T<time> esx12 vmkernel: 116:03:44:19.039 cpu4:4196)<6>qla2xxx 0000:0f:00.0: scsi(6:0:152): Abort command issued -- 1 67a23dcd 2002.

<YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)NMP: nmp_CompleteCommandForPath: Command 0x2a (0x4100020e0b00) to NMP device "sym.029010111831353837" failed on physical path "vmhba2:C0:T0:L152" H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0.

<YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe: NMP device "sym.029010111831353837" state in doubt; requested fast path state update...</time>

/commands/Localcli_storage-core-adapter-stats-get.txt

Ovenstående kan være nyttigt til kontrol af HBA-belastningsbalance og til reservationskonflikter.
En stor ubalance mellem vellykkede kommandoer kan indikere en fast stipolitik eller andre balanceringsproblemer.

Reservationskonflikter kan være tegn på uoverensstemmelser mellem værtens logiske enhed (HLU) på Unity-systemer.

Dell EMC Unity/VNX/CLARiiON: VMware kan ikke se LUN'er korrekt, hvis de er i flere storagegrupper, og HLU'en ikke stemmer overens (kan rettes af brugeren)

Localcli_storage-core-device-stats-get.txt

Ovenstående giver LUN-statistik og viser, hvilke LUN'er der har reservationskonflikter.

/commands/localcli_storage-san-fc-stats-get.txt

Ovenstående kommando er nyttig til kontrol af HBA-statistik såsom:

Dumpede rammer
Antal linkfejl
Tab af signalantal
Ugyldigt antal Tx-ord

/commands/Localcli_storage-san-fc-events-get.txt

Viser de seneste FC-begivenhedstidsstempler, link op eller ned osv.

/var/run/log/vmksummary.log

Viser tidsstempler for, hvornår værten blev startet op og genstartet eller ikke svarede.
Så vidt jeg forstår, nulstilles HBA-statistik ved genstart.
Dette giver en tidsramme for, hvornår FC-statistikken opstod.

Prøve:

2022-10-09T13:05:21Z bootstop: Host is rebooting

2022-10-09T13:10:55.351Z bootstop[2107273]: Host has booted

Når du udfører vedligeholdelse af storagesystemet eller en handling, der kan få et systemmål til at gå offline/online, logger Cisco Native FNIC-driveren muligvis ikke korrekt tilbage på destinationen, hvilket resulterer i, at stier forbliver i død tilstand.

Dette problem skyldes, at den oprindelige Cisco FNIC-driver modtager et RSCN under kommandodelen af REPORT_LUNS nfnic Port login-proces, hvilket resulterer i, at driveren stopper og ikke prøver loginprocessen igen. Dette blev observeret med både IBM SVC og IBM V7000 array, men det ville også være blevet observeret på ethvert IBM Storwize-array, da de alle bruger den samme softwarestak. Dette vil også blive observeret for ikke-IBM-systemer, så længe de udsteder et RSCN under den REPORT_LUNS-kommando, som driveren sender under login.

Begge problemer med ydeevne og sti ned/APD løses ved at opgradere til nfnic 4.0.0.63 og derover.
Kontakt VMware og Cisco for at få yderligere oplysninger og support.

Driverversioner kan findes i /commands/localcli_software-vib-list.txt

(indtast driver vib navne her) (mulige dif'er med 6.x vs 7.x)

VMware KB# 80101

Permanent enhedstab (PDL)/All Path Down (APD)

Permanent enhedstab (PDL)

Et datalager vises som ikke tilgængeligt i visningen Lager.
En lageradapter angiver enhedens driftstilstand som mistet kommunikation.
Alle stier til enheden er markeret som Døde.
I /var/log/vmkernel.log fil, kan du se poster, der ligner:

Eksempel

cpu2:853571)VMW_SATP_ALUA: satp_alua_issueCommandOnPath:661: Path "vmhba4:C0:T0:L0" (PERM LOSS) command 0xa3 failed with status Device is permanently unavailable. H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0.

cpu2:853571)WARNING: vmw_psp_rr: psp_rrSelectPathToActivate:972:Could not select path for device "naa.60a98000572d54724a34642d71325763".

cpu2:853571)WARNING: ScsiDevice: 1223: Device :naa.60a98000572d54724a34642d71325763 has been removed or is permanently inaccessible.

cpu3:2132)ScsiDeviceIO: 2288: Cmd(0x4124403c1fc0) 0x9e, CmdSN 0xec86 to dev "naa.60a98000572d54724a34642d71325763" failed H:0x8 D:0x0 P:0x0

cpu3:2132)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device.

cpu2:2127)ScsiDeviceIO: 2316: Cmd(0x4124403c1fc0) 0x25, CmdSN 0xecab to dev "naa.60a98000572d54724a34642d71325763" failed H:0x1 D:0x0 P:0x0 Possible sense data: 0x5 0x25 0x0.

cpu2:854568)WARNING: ScsiDeviceIO: 7330: READ CAPACITY on device "naa.60a98000572d54724a34642d71325763" from Plugin "NMP" failed. I/O error

cpu2:854568)ScsiDevice: 1238: Permanently inaccessible device :naa.60a98000572d54724a34642d71325763 has no more open connections. It is now safe to unmount datastores (if any) and delete the device.

Alle stier ned (APD)

Et datalager vises som ikke tilgængeligt i visningen Lager.
En lageradapter angiver enhedens driftstilstand som død eller fejl.
Alle stier til enheden er markeret som Døde.
Du kan ikke oprette direkte forbindelse til ESXi-værten ved hjælp af vSphere-klienten.
ESXi-værten vises som Frakoblet i vCenter Server.
I /var/log/vmkernel.log fil, ses lignende poster at:

Eksempel

cpu1:2049)WARNING: NMP: nmp_IssueCommandToDevice:2954:I/O could not be issued to device "naa.60a98000572d54724a34642d71325763" due to Not found

cpu1:2049)WARNING: NMP: nmp_DeviceRetryCommand:133:Device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device.

cpu1:2049)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device.

cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60a98000572d54724a34642d71325763" - issuing command 0x4124007ba7c0

cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:658:Retry world failover device "naa.60a98000572d54724a34642d71325763" - failed to issue command due to Not found (APD), try again...

*Tjek VMware KB# for opløsning og yderligere eksempler baseret på forskellige omstændigheder*.

**SAN bør kontrolleres sammen med et handlingspunkt for ADP/PDL-problemer**.

VMware KB#-2004684

PowerPath

Hvis PowerPath findes, er der et par ekstra ting, du skal kontrollere.

Kompatibilitet – Understøttes den anvendte PowerPath-version med den kørende version af ESXi.
Dette kan verificeres i ESM.

Forbindelse-

Der er flere typer meddelelser, der kan vises, når PowerPath registrerer en sti, der er gået tabt, herunder.

PowerPath: Sådan undersøger du døde stier i PowerPath

NMP-indstillinger

For de fleste Dell-systemer*, undtagen VPLEX, Round Robin (policy=rr ) med IOPS=1 anbefales for at opnå den bedste ydeevne.
Denne indstilling bør kontrolleres, når ydeevne eller ventetid nævnes.

Dette kan findes i grebene under /commands/localcli_storage-nmp-device-list.txt or /json/localcli_storage-nmp-device-list.json

*Se altid de nyeste vejledninger til værttilslutning og vejledninger til bedste praksis for storage for opdaterede anbefalinger.

VMware-artikelnummer 2069356

Justering af Round Robin IOPS-grænse fra standard 1000 til 1 (2069356)

Dell EMC Host Connectivity Guide VMware ESXi Server

Enhed - side 36

PowerStore – side 62

EMC XtremIO – Vejledninger til værtstilslutninger

Kapitel 3 - side 57

Eksempel på NMNP-indstillinger i /commands/localcli_storage-nmp-device-list.txt

Forkerte indstillinger

naa.6006016051904d00f056b95dc4abd917:

   Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)

   Storage Array Type: VMW_SATP_ALUA_CX

   Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}

   Path Selection Policy: VMW_PSP_RR

   Path Selection Policy Device Config: {policy=rr,iops=1000,bytes=10485760,useANO=0;  lastPathIndex=3: NumIOsPending=0,numBytesPending=0}

   Path Selection Policy Device Custom Config: 

   Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10

Korrekte indstillinger

naa.6006016051904d00f056b95dc4abd917:

   Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)

   Storage Array Type: VMW_SATP_ALUA_CX

   Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}

   Path Selection Policy: VMW_PSP_RR

   Path Selection Policy Device Config: {policy=rr,iops=1,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}

   Path Selection Policy Device Custom Config: 

   Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10

Forbehold

ESXi 6.7 har flere kendte problemer med Cisco nfnic Drivere, der forårsager problemer med ydeevne og tilslutning.
Hvis problemet er relateret til et af ovenstående, skal du kontrollere Cisco nfnic driverversion, og se VMware Knowledge Base(KB) for påvirkede versioner.

Driverversionen findes i outputtet fra /commands/localcli_software-vib-list.txt fil.

Yderligere oplysninger
I tilfælde af at andre hold skal engageres, skal du sørge for at få følgende:

Logfiler (switch/storage)
Storage SN#
Dato og klokkeslæt for problemet

Hvis en kunde anmoder om hjælp til at engagere VMware, skal du henvise vedkommende til VMware-siden "kontakt os".
Supportkontaktmuligheder

Additional Information

Se al dokumentation for kendte problemer, f.eks. produktbemærkninger og CLI Common Messages-vejledningen for at få opdaterede oplysninger om kendte problemer og løsninger.

Affected Products

PowerPath, PowerPath, PowerPath/VE, PowerPath/VE for VMware

Article Number: 000205090

Article Type: How To

Last Modified: 12 Nov 2025

Version: 7

Check if your device is covered by Support Services.

PowerPath: Almindelige ESXi-problemer og elementer, der skal kontrolleres i forbindelse med fejlfinding

Summary: Formålet med denne KB-artikel er at give almindelige oplysninger om ESXi-problemer og trinnene til fejlfinding af dem.

Instructions

Additional Information

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

PowerPath: Almindelige ESXi-problemer og elementer, der skal kontrolleres i forbindelse med fejlfinding

Summary: Formålet med denne KB-artikel er at give almindelige oplysninger om ESXi-problemer og trinnene til fejlfinding af dem.

Detailed Article

Instructions

Additional Info

Affected Products

Instructions

Additional Information

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services