Host verliert Pfade.
[HINWEIS an Scott: Siehe auch Hinweis in der Zusammenfassung]
ESX-Host reagiert nicht mehr und es muss ein Neustart durchgeführt werden. [Scott, können sich nur ESX-Hosts aufhängen? Die Zusammenfassung gibt an: „alle HBAs auf VPLEX“]
Aus dem ESXi-Protokoll „vmkernel“:
2020-08-30T03:52:23.501Z cpu187:66638)WARNING: lpfc: lpfc_els_unsol_buffer:8330: 0:(0):0115 Unknown ELS command x7f26e705 received from NPORT x1f04c0
2020-08-30T03:52:28.325Z cpu187:66638)WARNING: lpfc: lpfc_els_unsol_buffer:8330: 0:(0):0115 Unknown ELS command x7effc405 received from NPORT x1f04c0
Aus dem VPLEX-Firmwareprotokoll:
event fc/4: "This port has discovered the departure of the indicated port from the fabric."
128.221.253.37/cpu0/log:5988:W/"006016abc83a153324-2":36008:<6>2020/08/30 03:39:07.65: fc/4 A0-FC02.0: port 200000109b59a55d:100000109b59a55d:330fc0
(spn Emulex PPN-10:00:00:10:9b:59:a5:5d) (snn Emulex LPe16002B-M6 FV12.2.299.27 DV12.2.373.1 HN:localhost OS:VMware ESXi 6.5.0) (speed <unsupported by fabric>) departed
128.221.253.37/cpu0/log:5988:W/"006016abc83a153324-2":36009:<4>2020/08/30 03:39:07.65: stdf/18 FCP connection lost. IT: [Host1_vmhba1 (0x100000109b59a55d)
A0-FC02 (0xc00144879a780200)] [Scott, zurück zu dem Problem mit „alle HBAs auf VPLEX“: Wenn dieses Cisco-Problem Auswirkungen auf alle HBAs auf VPLEX hat, sollten wir Berichte von anderen ausgefallenen Hosts in den FW-Protokollen zeigen? Ist es vorgekommen, dass andere Hosts ähnlich dem oben dargestellten ESX-Host ausfallen?]
event fc/3: "This port has discovered the arrival of the indicated port on the fabric."
128.221.253.37/cpu0/log:5988:W/"006016abc83a153324-2":36020:<6>2020/08/30 03:40:37.66: fc/3 A0-FC02.0: port 200000109b59a55d:100000109b59a55d:330fc0
(spn Emulex PPN-10:00:00:10:9b:59:a5:5d) (snn Emulex LPe16002B-M6 FV12.2.299.27 DV12.2.373.1 HN:localhost OS:VMware ESXi 6.5.0) (speed <unsupported by fabric>) arrived
128.221.253.37/cpu0/log:5988:W/"006016abc83a153324-2":36027:<4>2020/08/30 04:03:28.34: stdf/17 FCP connection established. IT: [Host1_vmhba1 (0x100000109b59a55d)
A0-FC02 (0xc00144879a780200)]
[Scott: Sind diese Daten auch für andere HBAs angekommen? ]
Änderung:
Zonenaktivierung.
HBA-Ports und VPLEX-Front-End-Ports sind nicht an den Änderungen der Zone beteiligt.
[Scott: Dieser letzte Satz ergibt keinen Sinn, das Problem ist, so wie ich es verstanden habe, dass wenn eine Zoneset-Aktivierung auf einem Cisco-Switch vorhanden ist, alle HBAs und VPLEX FE-Ports betroffen sind. Außerdem: Welche Cisco-Switch-Code-Level sind betroffen?]
VPLEX führt eine Fabric-Ermittlung auf allen Fibre-Channel-Ports (Front-End-, Back-End-und FC-WANCOM) alle 90 Sekunden durch und verwendet dazu den Nameserver-Befehl „Get all next“ (GA_NXT). Dies erfolgt außerhalb des Empfangs eines RSCN vom Switch oder von PLOGI von einem HBA in der Zone.
Cisco-Fehler CSCvw75655 verursacht, dass VPLEX bei einer Fabric-Ermittlung auf einem Front-End-Port (FE), während ein/e Zoneset-Aktivierung/-Commit im Gange ist, eine geringe Chance hat, nur seine eigene Fibre-Channel-Adresse (FCID) zurück zu erhalten. Es geht dann davon aus, dass keine der angemeldeten HBA mehr mit dem Fabric verbunden sind, und sendet eine Abmeldung (PLOGO) an jeden HBA in seiner Zone. [Scott: Sind die VPLEX-und/oder Switch-Protokolle, die diese Aktion zeigen, dass eine PLOGO gesendet wird, wenn dies bei beiden Produkten der Fall ist, können wir Beispiele davon sehen und aus welchen Protokollen sie stammen?]
VPLEX protokolliert die fc/4-Events für jeden HBA, den es abmeldet, und fc/3-Events bei der nächsten 90-Sekunden-Fabric-Ermittlung, wenn die korrekten Informationen vom Switch-Nameserver empfangen werden.
Die Art und Weise, wie der HBA diese Abmeldung handhabt, hängt von der Treiber/Firmware ab. Der ESX-Host in diesem Beispiel hat sich aufgehängt und ein Neustart war erforderlich. [Scott: Haben wir Daten aus den Protokollen von anderen Hosts, die von diesem Ereignis betroffen sind? Wenn dies der Fall ist, können wir auch einige auflisten, sodass es nicht so aussieht, als wären nur ESX Hosts betroffen?]
Hinweis:
Die regelmäßige Fabric-Ermittlung wird durchgeführt, um sicherzustellen, dass VPLEX aktuelle Fabric-Daten hat, da eventuell nicht alle RSCNs VPLEX von der Fabric aus erreichen.
Problemumgehung:
Deaktivieren Sie auf dem Cisco-Switch die Funktion Nameserver/„Zone Server Shared Database“ (DB) wie folgt:
Produkte (1)
Cisco MDS 9000 NX-OS und SAN-OS-Software
Bekannte betroffene Versionen
8.3(2)
VPLEX-Fabric-Ermittlung
Beispiel:
Host 1, Host 2 und Host 3 in Zonen auf einem einzigen VPLEX-FE-Port.
VPLEX-FE-Port: FCID 0x200b20
Host 1: FCID 0x340000
Host 2: FCID 0x340020
Host 3: FCID 0x340040
Working... [Scott: Was ist das? Wurde das aus Info entnommen/kopiert? Wenn dies der Fall ist, können wir die Info „Working...“ entfernen]
Cisco-Bug CSCvw75655 ...