PowerPath: Häufige ESXi-Probleme und zu überprüfende Elemente für das Troubleshooting
Summary: Der Zweck dieses KB-Artikels besteht darin, allgemeine Informationen zu ESXi-Problemen und den Schritten zur Fehlerbehebung bereitzustellen.
Instructions
Verursachen
Es gibt viele Dinge, die Probleme mit einem ESXi-Host verursachen können.
Diese Präsentation enthält eine Liste einiger der am häufigsten gefundenen Probleme und der Schritte zur Fehlerbehebung.
Auflösung
-
Version: Ist die aktuelle Version, die weiterhin unterstützt wird
-
Überprüfen Sie den Abschnitt "Bekannte Probleme" der Versionshinweise auf häufige Probleme, Korrekturen und JIRA-Links.
-
Versionen für PowerPath finden Sie an den folgenden Speicherorten:
-
PP/rpowermt-Version
-
Speicherort: host/commands/localcli_software-vib-list.txt
-
Häufige Probleme und Fehler
Häufige Probleme und Fehler
- Konnektivität
- Dauerhafter Geräteverlust
- Alle Pfade nach unten
- PowerPath
Konnektivität
Meldungen werden im Fenster vmkernel und oft vmkwarning Ausgaben.
"Zustand im Zweifel; Requested Fast Path State Update"
Diese Meldungen werden angezeigt, wenn der HBA-Treiber (Host Bus Adapter) einen Befehl abbricht, weil der Befehl länger als der Timeout-Zeitraum von 5 Sekunden benötigt hat. Ein Vorgang kann aus verschiedenen Gründen länger als der Timeout-Zeitraum dauern, darunter:
- Arraybackupvorgänge (LUN-Backup, Replikation, etc.)
- Allgemeine Überlastung des Arrays
- Lese-/Schreibcache auf dem Array (Fehlkonfiguration, fehlender Cache usw.)
- Fabric-Probleme (fehlerhafter Inter-Switch-Link (ISL), veraltete Firmware, fehlerhaftes Fabric-Kabel/GBIC)
- Hohe SAN-Latenz
Beispiel:
Im /var/log/vmkernel.log -Datei des ESXi-Hosts werden Einträge ähnlich den folgenden angezeigt:
<YYYY-MM-DD>T<time> esx12 vmkernel: 116:03:44:19.039 cpu4:4196)<6>qla2xxx 0000:0f:00.0: scsi(6:0:152): Abort command issued -- 1 67a23dcd 2002. <YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)NMP: nmp_CompleteCommandForPath: Command 0x2a (0x4100020e0b00) to NMP device "sym.029010111831353837" failed on physical path "vmhba2:C0:T0:L152" H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0. <YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe: NMP device "sym.029010111831353837" state in doubt; requested fast path state update...</time>
/commands/Localcli_storage-core-adapter-stats-get.txt
Die obigen Informationen können nützlich sein, um den HBA-Lastenausgleich und für Reservierungskonflikte zu überprüfen.
Ein großes Ungleichgewicht erfolgreicher Befehle kann auf eine Policy mit festem Pfad oder andere Ausgleichsprobleme hinweisen.
Reservierungskonflikte können auf Nichtübereinstimmungen der logischen Einheit (Host Logical Unit, HLU) auf Unity-Arrays hinweisen.
Dell EMC Unity/VNX/CLARiiON: VMware kann LUNs nicht korrekt anzeigen, wenn sie sich in mehreren Storage-Gruppen befinden und die HLU nicht übereinstimmt (vom Nutzer korrigierbar)
Localcli_storage-core-device-stats-get.txt
Die obige Tabelle enthält LUN-Statistiken und zeigt, bei welchen LUNs Reservierungskonflikte bestehen.
/commands/localcli_storage-san-fc-stats-get.txt
Der obige Befehl ist nützlich, um HBA-Statistiken zu überprüfen, wie z. B.:
- Gespeicherte Frames
- Anzahl der Verbindungsfehler
- Anzahl der Signalverluste
- Ungültige Tx-Wortzahl
/commands/Localcli_storage-san-fc-events-get.txt
Zeigt die letzten Zeitstempel des FC-Ereignisses, eine aktive oder unterbrochene Verbindung usw. an.
/var/run/log/vmksummary.log
Zeigt Zeitstempel an, wann der Host gestartet und neu gestartet wurde oder nicht reagiert hat.
Soweit ich weiß, werden die HBA-Statistiken beim Neustart zurückgesetzt.
Dies gibt einen Zeitrahmen an, in dem die FC-Statistiken aufgetreten sind.
Beispiel:
2022-10-09T13:05:21Z bootstop: Host is rebooting 2022-10-09T13:10:55.351Z bootstop[2107273]: Host has booted
Bei der Durchführung von Storage-Array-Wartungsarbeiten oder einer Aktion, die dazu führen würde, dass ein Array-Ziel offline/online geht, meldet sich der native Cisco FNIC-Treiber möglicherweise nicht ordnungsgemäß wieder beim Ziel an, was dazu führt, dass Pfade in einem inaktiven Status verbleiben.
Dieses Problem wird dadurch verursacht, dass der Cisco Native FNIC-Treiber während des REPORT_LUNS-Befehlsteils des nfnic Port-Anmeldevorgang, was dazu führt, dass der Treiber angehalten wird und den Anmeldevorgang nicht erneut versucht. Dies wurde sowohl beim IBM SVC- als auch beim IBM V7000-Array beobachtet, wäre aber auch bei jedem IBM Storwize-Array beobachtet worden, da sie alle denselben Software-Stack verwenden. Dies wird auch bei Nicht-IBM-Arrays beobachtet, solange sie während des REPORT_LUNS Befehls, den der Treiber während der Anmeldung sendet, einen RSCN ausgeben.
Sowohl Probleme mit der Leistung als auch mit dem Pfad nach unten/APD werden durch ein Upgrade auf nfnic 4.0.0.63 und höher.
Weitere Informationen und Support erhalten Sie von VMware und Cisco.
Treiberversionen finden Sie unter /commands/localcli_software-vib-list.txt
(Treiber eingeben) vib Namen hier) (Mögliche DIFs mit 6.x vs. 7.x)
Permanent Device Loss (PDL)/All Path Down (APD)
Dauerhafter Geräteverlust (PDL)
- Ein Datenspeicher wird in der Ansicht Storage als nicht verfügbar angezeigt.
- Ein Storage-Adapter zeigt den Betriebsstatus des Geräts als Kommunikation unterbrochen an.
- Alle Pfade zum Gerät werden als inaktiv markiert.
- Im
/var/log/vmkernel.log-Datei werden Einträge ähnlich den folgenden angezeigt:
Beispiel
cpu2:853571)VMW_SATP_ALUA: satp_alua_issueCommandOnPath:661: Path "vmhba4:C0:T0:L0" (PERM LOSS) command 0xa3 failed with status Device is permanently unavailable. H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0. cpu2:853571)WARNING: vmw_psp_rr: psp_rrSelectPathToActivate:972:Could not select path for device "naa.60a98000572d54724a34642d71325763". cpu2:853571)WARNING: ScsiDevice: 1223: Device :naa.60a98000572d54724a34642d71325763 has been removed or is permanently inaccessible. cpu3:2132)ScsiDeviceIO: 2288: Cmd(0x4124403c1fc0) 0x9e, CmdSN 0xec86 to dev "naa.60a98000572d54724a34642d71325763" failed H:0x8 D:0x0 P:0x0 cpu3:2132)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device. cpu2:2127)ScsiDeviceIO: 2316: Cmd(0x4124403c1fc0) 0x25, CmdSN 0xecab to dev "naa.60a98000572d54724a34642d71325763" failed H:0x1 D:0x0 P:0x0 Possible sense data: 0x5 0x25 0x0. cpu2:854568)WARNING: ScsiDeviceIO: 7330: READ CAPACITY on device "naa.60a98000572d54724a34642d71325763" from Plugin "NMP" failed. I/O error cpu2:854568)ScsiDevice: 1238: Permanently inaccessible device :naa.60a98000572d54724a34642d71325763 has no more open connections. It is now safe to unmount datastores (if any) and delete the device.
APD (All Path Down)
- Ein Datenspeicher wird in der Ansicht Storage als nicht verfügbar angezeigt.
- Ein Storage-Adapter zeigt den Betriebszustand des Geräts als Tot oder Fehler an.
- Alle Pfade zum Gerät werden als inaktiv markiert.
- Sie können keine direkte Verbindung zum ESXi-Host über den vSphere Client herstellen.
- Der ESXi-Host wird in vCenter Server als getrennt angezeigt.
- Im
/var/log/vmkernel.log-Datei werden ähnliche Einträge angezeigt:
Beispiel
cpu1:2049)WARNING: NMP: nmp_IssueCommandToDevice:2954:I/O could not be issued to device "naa.60a98000572d54724a34642d71325763" due to Not found cpu1:2049)WARNING: NMP: nmp_DeviceRetryCommand:133:Device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device. cpu1:2049)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device. cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60a98000572d54724a34642d71325763" - issuing command 0x4124007ba7c0 cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:658:Retry world failover device "naa.60a98000572d54724a34642d71325763" - failed to issue command due to Not found (APD), try again...
*Informationen zur Lösung und weitere Beispiele basierend auf verschiedenen Umständen finden Sie in VMware KB#.
**SAN sollte aktiviert werden und ein Aktionspunkt für ADP/PDL-Probleme sein**.
PowerPath
Wenn PowerPath vorhanden ist, müssen einige zusätzliche Dinge überprüft werden.
Kompatibilität – Ist die verwendete PowerPath-Version, die mit der ausgeführten Version von ESXi unterstützt wird.
Dies kann im ESM überprüft werden.
Konnektivität-
Es gibt verschiedene Arten von Meldungen, die angezeigt werden können, wenn PowerPath einen verlorenen Pfad erkennt, darunter:
PowerPath: So untersuchen Sie tote Pfade in PowerPath
NMP-Einstellungen
Für die meisten Dell Arrays*, mit Ausnahme von VPLEX, ist das Rundlaufverfahren (policy=rr ) mit IOPS=1 wird für eine optimale Performance empfohlen.
Diese Einstellung sollte aktiviert werden, wenn Leistung oder Latenz erwähnt wird.
Diese finden Sie in den Grabs unter /commands/localcli_storage-nmp-device-list.txt or /json/localcli_storage-nmp-device-list.json
* Aktuelle Empfehlungen finden Sie in den aktuellen Leitfäden zur Hostkonnektivität und den Best-Practice-Leitfäden zum Storage.
VMware-Artikelnummer 2069356
Anpassen des Round-Robin-IOPS-Limits von der Standardeinstellung 1000 auf 1 (2069356)
Dell EMC Host-Konnektivitätshandbuch VMware ESXi-Server
Unity – Seite 36
PowerStore – Seite 62
EMC XtremIO – Hostverbindungshandbücher
Kapitel 3 - Seite 57
Beispiel für NMNP-Einstellungen in /commands/localcli_storage-nmp-device-list.txt
Falsche Einstellungen
naa.6006016051904d00f056b95dc4abd917:
Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)
Storage Array Type: VMW_SATP_ALUA_CX
Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}
Path Selection Policy: VMW_PSP_RR
Path Selection Policy Device Config: {policy=rr,iops=1000,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}
Path Selection Policy Device Custom Config:
Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10
Einstellungen korrigieren
naa.6006016051904d00f056b95dc4abd917:
Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)
Storage Array Type: VMW_SATP_ALUA_CX
Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}
Path Selection Policy: VMW_PSP_RR
Path Selection Policy Device Config: {policy=rr,iops=1,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}
Path Selection Policy Device Custom Config:
Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10
Verwahrungen
ESXi 6.7 weist mehrere bekannte Probleme mit Cisco auf nfnic Treiber, die Leistungs- und Konnektivitätsprobleme verursachen.
Wenn das Problem mit einem der oben genannten Probleme zusammenhängt, überprüfen Sie die Cisco nfnic Treiberversion und überprüfen Sie die VMware-Wissensdatenbank (KB) auf betroffene Versionen.
Die Treiberversion finden Sie in der Ausgabe von /commands/localcli_software-vib-list.txt Datei.
Zusatzinformation
Für den Fall, dass andere Teams einbezogen werden müssen, stellen Sie sicher, dass Sie Folgendes erhalten:
- Protokolle (Switch/Storage)
- Speicher-SN#
- Datum und Uhrzeit des Problems
Wenn KundInnen Unterstützung bei der Einbindung von VMware benötigen, verweisen Sie sie auf die VMware-Seite "Kontakt".
Optionen für Supportkontakte
Additional Information
Aktuelle Informationen zu bekannten Problemen und Lösungen finden Sie in der gesamten Dokumentation sowie in den Versionshinweisen und im Leitfaden für allgemeine CLI-Meldungen.