Connectrix: Troubleshooting von Kommunikationsproblemen zwischen Fibre-Channel-Nodes und Switchport oder SFP durch Ausschlussverfahren, Selbsthilfe
Summary: In diesem Artikel wird das Troubleshooting von Kommunikationsproblemen zwischen Fibre-Channel-Nodes und Switchport oder SFP durch Ausschlussverfahren beschrieben.
Symptoms
Troubleshooting von Kommunikationsproblemen zwischen Fibre-Channel-Nodes und Switchport oder SFP durch Ausschlussverfahren
Zu viele proaktive SFP-Austausche
Verbindungsausfall
G-Port
Nicht erleuchtet
Nicht funktionierende Sequenz (NOS)
Offlinesequenz (OLS)
Signalverlust
Fehlerhafter SFP
Troubleshooting des FC-Port
Fehler auf FC-Port
Cause
Es wurden zu viele SFPs proaktiv ausgetauscht, obwohl das Problem außerhalb des SFP oder Switches liegt.
Resolution
So beheben Sie dieses Problem:
- Identifizieren Sie den Node und den Switchport, auf denen der Kommunikationsfehler aufgetreten ist.
- Überprüfen Sie, ob der Switchport administrativ eingeschaltet (nicht blockiert, nicht geschlossen) bzw. aktiviert ist.
- Stellen Sie sicher, dass redundante Pfade für das angeschlossene Gerät verfügbar sind, bevor Sie fortfahren.
- Gehen Sie wie folgt vor, um den SFP als Problemursache auszuschließen:
- Überprüfen Sie, welcher Port auf dem Switch frei ist.
- Deaktivieren Sie den identifizierten freien Port auf dem Switch.
- Verschieben Sie das Kabel von dem zu untersuchenden Port zum neuen, im vorherigen Schritt deaktivierten freien Port.
- Ändern Sie den deaktivierten Port auf den aktivierten (oder administrativ eingeschalteten) Status und schalten Sie das Gerät wieder online.
- Löschen/setzen Sie die Statistiken/Zähler auf dem Switch auf null.
Informationen zu Brocade finden Sie im Wissensdatenbank-Artikel:
Informationen zu Cisco finden Sie im Wissensdatenbank-Artikel:
- Überwachen Sie den Port mit den entsprechenden Befehlen 4 bis 6 Stunden lang.
ERGEBNISSE:
- Wenn sich die Fehlerzähler erhöhen, liegt das Problem außerhalb des Switches und KundInnen/NutzerInnen/SAN-AdministratorInnen sollten folgende Maßnahmen ergreifen:
-
- Der SFP und das Kabel am neuen Port müssen gereinigt werden. (Um eine Kontamination des SFP durch ein verschmutztes Kabel zu vermeiden, sollten Sie ein professionelles Reinigungsset verwenden.)
- Das angeschlossene Gerät muss durch den Supportanbieter weiter untersucht werden.
- Wenn auf dem Cisco-Switch der Status „errdisabled“ ohne Erhöhung des Zählers auftritt, muss ein SR für weitere Back-end-Untersuchungen eröffnet werden.
- Wenn sich die Fehler nicht erhöhen (oder der Errdisabled-Status auf dem Cisco-Switch nicht wieder auftritt), ist der SFP vom vorherigen Port defekt. Eröffnen Sie einen SR für den SFP-Austausch und geben Sie dabei die oben genannten Analyseergebnisse an, einschließlich der Protokollausgaben, SFP-Details (SM oder MM, Geschwindigkeit usw.).
Additional Information
Hardwarefehler können leicht isoliert werden, indem ein einfacher Algorithmus auf das Problem angewendet wird: Wenn es nicht an dieser Hardwarekomponente liegt, dann liegt es an der anderen. Führen Sie eine Schleife aus, bis Sie den Fehler isoliert haben, der auf die problematische Hardware hinweist.
BEISPIELE FÜR BROCADE:
Connectrix B-Serie: Interpretieren der Brocade porterrshow-Ausgabe und Bedeutung der Zähler. Selbsthilfe
Beispiel 1: ENC OUT mit LINK FAIL und LOSS SYNC:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 2.3m 0 4 6 0 0 0 0 0 0
Allgemeine Ursache:
Nur gültig, wenn die Portstatistiken innerhalb der letzten 24 Stunden gelöscht wurden. Andernfalls klassifizieren Sie diese Zähler als historisch. Löschen Sie die Portstatistiken (wie oben unter Punkt 9 aufgeführt), überprüfen Sie die Zähler und erfassen Sie die Daten nach 4 bis 6 Stunden erneut.
Anhand der Fehler sind ein Verbindungsausfall und ein Verlust der Synchronisierung PLUS „enc out“-Fehler zu sehen. Diese können auch Signalverlustfehler enthalten.
Diese Fehlerkombinationen weisen in der Regel auf einen Neustart des Hosts oder einen Verbindungsreset außerhalb des Switches hin. Die „enc out“-Fehler werden während der Geschwindigkeitsaushandlung im Rahmen einer Verbindungsinitialisierung verursacht.
Erwartete Maßnahmen:
Überprüfen Sie, ob das an den Port angeschlossene Gerät einen legitimen Grund hatte, offline/online zu gehen, z. B. wegen eines Hostneustarts. Falls nicht, erstellen Sie einen SR.
Beispiel 2: ENC OUT:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 2.3m 0 0 0 0 0 0 0 0 0
Allgemeine Ursache:
Nur gültig, wenn die Portstatistiken innerhalb der letzten 24 Stunden gelöscht wurden. Andernfalls klassifizieren Sie diese Zähler als historisch. Löschen Sie die Portstatistiken (wie oben unter Punkt 9 aufgeführt), überprüfen Sie die Zähler und erfassen Sie die Daten nach 4 bis 6 Stunden erneut.
„Enc out“-Fehler ohne zugehörige Fehler weisen auf ein verschmutztes Kabel hin.
Erwartete Maßnahmen:
Untersuchen und reinigen Sie alle optischen Oberflächen am Kabel und SFP, die mit diesem Port und angeschlossenen Geräten verbunden sind.
Beispiel 3: CRC und CRC G_EOF:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 1.2k 1.2k 0 0 0 0 0 0 0 0 0 0 0 0 0
Allgemeine Ursache:
Nur gültig, wenn die Portstatistiken innerhalb der letzten 24 Stunden gelöscht wurden. Andernfalls klassifizieren Sie diese Zähler als historisch. Löschen Sie die Portstatistiken (wie oben unter Punkt 9 aufgeführt), überprüfen Sie die Zähler und erfassen Sie die Daten nach 4 bis 6 Stunden erneut.
Der Frame erreicht den Switchport mit einem fehlerhaften CRC, das Ende des Frames ist jedoch noch als fehlerfrei markiert.
Dies ist ein Hinweis darauf, dass dies der erste Port ist, der den fehlerhaften Frame registriert, sodass das Problem bei der SFP-/Kabel-/Geräteschnittstelle auf diesem bestimmten Port liegt.
Erwartete Maßnahmen:
Siehe Standardmaßnahme in der Lösung.
Löschen Sie bei einem ISL-Port die Statistiken, überprüfen Sie die Zähler und erfassen Sie die Daten nach 4 bis 6 Stunden erneut. Erfassen Sie die supportsaves von beiden Switches und eröffnen Sie einen SR für normales Troubleshooting.
Beispiel 4: CRC:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 1.2k 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Allgemeine Ursache:
Nur gültig, wenn die Portstatistiken innerhalb der letzten 24 Stunden gelöscht wurden. Andernfalls klassifizieren Sie diese Zähler als historisch. Löschen Sie die Portstatistiken (wie oben unter Punkt 9 aufgeführt), überprüfen Sie die Zähler und erfassen Sie die Daten nach 4 bis 6 Stunden erneut.
Der Port zeichnet einen Frame auf, der mit einem fehlerhaften CRC-Frame in den Switch gelangt ist, aber bereits als fehlerhaft markiert wurde. Dies tritt normalerweise bei einem ISL- und NPIV-F-Port auf.
Erwartete Maßnahmen:
Wenn auf dem NPIV-Port CRC-Fehler protokolliert werden, lassen Sie das Gerät vom Wartungsanbieter untersuchen!
Überprüfen Sie bei einem ISL-Port alle Ports in der Fabric auf die Protokollierung von crc g_oef und ergreifen Sie die gleichen Maßnahmen wie in Beispiel 3.
Beispiel 5: PCS ERR mit LINK FAIL und LOSS SYNC:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 0 0 4 4 0 0 0 0 0 466
Allgemeine Ursache:
Nur gültig, wenn die Portstatistiken innerhalb der letzten 24 Stunden gelöscht wurden. Andernfalls klassifizieren Sie diese Zähler als historisch. Löschen Sie die Portstatistiken (wie oben unter Punkt 9 aufgeführt), überprüfen Sie die Zähler und erfassen Sie die Daten nach 4 bis 6 Stunden erneut.
Dies gilt nur für Plattformen, die 10-Gbit/s- oder 16-Gbit/s-Ports oder höher (6505/6510/6520/DCX-8510) unterstützen, und wurde mit dem Condor3-ASIC, der GEN5-Plattform, eingeführt.
ER_PCS_BLK zeigt die Anzahl der PCS-Blockfehler (Physical Coding Sublayer) an. Dieser Zähler entspricht enc_out für 8-Gbit/s/4-Gbit/s-Verbindungen und wird nur für Geschwindigkeiten von 10 Gbit/s und 16 Gbit/s verwendet.
Anhand der Fehler sind ein Verbindungsausfall und der Verlust der Synchronisierung plus „pcs err“-Fehler zu sehen. Diese können auch Signalverlustfehler enthalten.
Diese Fehlerkombinationen weisen in der Regel auf einen Neustart des Hosts oder einen Verbindungsreset außerhalb des Switches hin.
Die „pcs err“-Fehler werden während der Geschwindigkeitsaushandlung im Rahmen einer Verbindungsinitialisierung verursacht.
Erwartete Maßnahmen:
Überprüfen Sie, ob das an den Port angeschlossene Gerät einen legitimen Grund hatte, offline/online zu gehen, z. B. wegen eines Hostneustarts. Falls nicht, erstellen Sie einen SR.
Beispiel 6: PCS ERR:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 466
Allgemeine Ursache:
Nur gültig, wenn die Portstatistiken innerhalb der letzten 24 Stunden gelöscht wurden. Andernfalls klassifizieren Sie diese Zähler als historisch. Löschen Sie die Portstatistiken (wie oben unter Punkt 9 aufgeführt), überprüfen Sie die Zähler und erfassen Sie die Daten nach 4 bis 6 Stunden erneut.
PCS ERR-Fehler ohne zugehörige Fehler weisen auf ein verschmutztes Kabel hin.
Erwartete Maßnahmen:
Untersuchen und reinigen Sie alle optischen Oberflächen am Kabel und SFP, die mit diesem Port und angeschlossenen Geräten verbunden sind.
BEISPIELE FÜR CISCO:
Beispiel 1: Errdisabled:
Errdisabled – keine Inkrementierung von Schnittstellenfehlern
fc1/1 is down (Error disabled - bit error rate too high) Hardware is Fibre Channel, SFP is short wave laser w/o OFC (SN). 5 minutes input rate 0 bits/sec, 0 bytes/sec, 0 frames/sec 5 minutes output rate 0 bits/sec, 0 bytes/sec, 0 frames/sec 179 frames input, 7668 bytes 0 discards, 0 errors 0 CRC, 0 unknown class 0 too long, 0 too short 23 frames output, 1320 bytes 0 discards, 0 errors 1 input OLS, 1 LRR, 0 NOS, 1 loop inits 2 output OLS, 0 LRR, 0 NOS, 1 loop inits Interface last changed at Thu Jun 5 01:51:00 2014
Allgemeiner Grund:
Der Status „Errdisabled“ einer Schnittstelle kann etwas irreführend sein, da die Schnittstellenzähler am Front-end möglicherweise keine Fehler anzeigen und der Switch den Port mit dem Status „errdisabled“ offline zu setzen scheint, während sich die Fehlerzähler am Back-end (ASIC/intern/Linecard) erhöhen.
Erwartete Maßnahmen:
Siehe Standardmaßnahme in der Lösung. Wenn dies öfter auftritt, erfassen Sie die Ausgabe des technischen Supports und eröffnen Sie einen SR.
- Fehlerhaftes oder defektes Kabel
- Fehlerhafter oder defekter SFP
- Der SFP ist für den Betrieb mit 1 Gbit/s spezifiziert, wird jedoch mit 2 Gbit/s verwendet.
- Der SFP ist für den Betrieb mit 2 Gbit/s spezifiziert, wird jedoch mit 4 Gbit/s verwendet.
- Es werden Kurzstreckenkabel für Langstrecken bzw. Langstreckenkabel für Kurzstrecken verwendet.
- Kurzzeitiger Verlust der Synchronisierung
- Lose Kabelverbindung an einem oder beiden Ende(n)
- Nicht ordnungsgemäße SFP-Verbindung an einem oder beiden Ende(n)
Es wird ein Schwellenwert für die Bitfehlerrate erkannt, wenn 15 Fehlerspitzen in einem Zeitraum von 5 Minuten auftreten. Der Switch deaktiviert die Schnittstelle standardmäßig, wenn der Schwellenwert erreicht wird. Sie können die folgenden Befehle nacheinander eingeben, um die Schnittstelle wieder zu aktivieren.
shutdown
no shutdown Sie können den Switch auch so konfigurieren, dass eine Schnittstelle nicht deaktiviert wird, wenn der Schwellenwert überschritten wird.
Standardmäßig deaktiviert der Schwellenwert die Schnittstelle.
Beispiel 2: CRC
CRCs werden inkrementiert.
fc13/1 is down (Initializing)
Port description is ***
Hardware is Fibre Channel, SFP is long wave laser cost reduced.
5 minutes input rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
5 minutes output rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
162 frames input, 6136 bytes
0 discards, 17 errors
17 CRC, 0 unknown class
0 too long, 17 too short
74 frames output, 6304 bytes
2 discards, 0 errors
108 input OLS, 54 LRR, 2 NOS, 0 loop inits
83 output OLS, 26 LRR, 56 NOS, 0 loop inits
Interface last changed at Tue May 27 08:37:20 2014
Allgemeine Ursache:
Der Port zeichnet einen Frame auf, der mit einem fehlerhaften CRC, aber einem fehlerfreien Ende des Frames in den Switch gelangt. Der CRC-Zähler wird nur auf dem jeweiligen Eingangsport, der den Fehler protokolliert, erhöht und jegliche Untersuchungen sollten sich auf diese physische Verbindung konzentrieren.
Erwartete Maßnahmen:
Siehe Standardmaßnahme in der Lösung.
Löschen Sie die Portstatistiken (wie oben unter Punkt 9 aufgeführt), überprüfen Sie die Zähler und erfassen Sie die Daten nach 4 bis 6 Stunden erneut.
Beispiel 3: NOS
Nicht funktionierende Sequenz (Non-Operational Sequence, NOS)
show int fc1/1 counters
fc1/1
5 minutes input rate 1753296 bits/sec, 219162 bytes/sec, 199 frames/sec
5 minutes output rate 2310384 bits/sec, 288798 bytes/sec, 194 frames/sec
2741512190 frames input, 2542476084276 bytes
0 class-2 frames, 0 bytes
2741512190 class-3 frames, 2542476084276 bytes
0 class-f frames, 0 bytes
0 discards, 0 errors, 0 CRC
0 unknown class, 0 too long, 0 too short
3410405365 frames output, 5164364339412 bytes
0 class-2 frames, 0 bytes
3410405365 class-3 frames, 5164364339412 bytes
0 class-f frames, 0 bytes
0 discards, 0 errors
1 input OLS, 1 LRR, 0 NOS, 307 loop inits
289 output OLS, 289 LRR, 289 NOS, 289 loop inits
0 link failures, 0 sync losses, 0 signal losses
48276 BB credit transitions from zero
16 receive B2B credit remaining
3 transmit B2B credit remaining
3 low priority transmit B2B credit remaining
Allgemeine Ursache:
Verlust der Verbindung vor den Verbindungsaushandlungen.
Erwartete Maßnahmen:
Überprüfen Sie Schicht 1 (physische Schicht) und das Quellgerät.