Connectrix: Troubleshooting von Kommunikationsproblemen zwischen Fibre-Channel-Nodes und Switchport oder SFP durch Ausschlussverfahren, Selbsthilfe

Summary: In diesem Artikel wird das Troubleshooting von Kommunikationsproblemen zwischen Fibre-Channel-Nodes und Switchport oder SFP durch Ausschlussverfahren beschrieben.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Troubleshooting von Kommunikationsproblemen zwischen Fibre-Channel-Nodes und Switchport oder SFP durch Ausschlussverfahren

Zu viele proaktive SFP-Austausche
Verbindungsausfall
G-Port
Nicht erleuchtet
Nicht funktionierende Sequenz (NOS)
Offlinesequenz (OLS)
Signalverlust
Fehlerhafter SFP
Troubleshooting des FC-Port
Fehler auf FC-Port

Cause

Es wurden zu viele SFPs proaktiv ausgetauscht, obwohl das Problem außerhalb des SFP oder Switches liegt.

Resolution

So beheben Sie dieses Problem:

  1. Identifizieren Sie den Node und den Switchport, auf denen der Kommunikationsfehler aufgetreten ist.
  2. Überprüfen Sie, ob der Switchport administrativ eingeschaltet (nicht blockiert, nicht geschlossen) bzw. aktiviert ist.
  3. Stellen Sie sicher, dass redundante Pfade für das angeschlossene Gerät verfügbar sind, bevor Sie fortfahren.

 

WARNUNG: Bevor Sie fortfahren, stellen Sie sicher, dass Sie wissen, wie Ihr Node reagiert, wenn er eine neue FCID erhält. Einige Betriebssystemversionen von AIX und HP-UX reagieren nicht gut auf derartige Änderungen, da die FCID im Hardwarepfad zum Storage-Gerät enthalten ist. Wenn Sie das Kabel verschieben, sind möglicherweise keine Daten verfügbar. Wenden Sie sich im Zweifelsfall an eine/n TechnikerIn des technischen Supports von EMC.

 

  1. Gehen Sie wie folgt vor, um den SFP als Problemursache auszuschließen:
HINWEIS:  Wenn ein Problem mit dem SFP vorliegt, ist dieses Verfahren der schnellste Weg, um das Gerät wieder online zu schalten.

 

  1. Überprüfen Sie, welcher Port auf dem Switch frei ist.
  2. Deaktivieren Sie den identifizierten freien Port auf dem Switch.
  3. Verschieben Sie das Kabel von dem zu untersuchenden Port zum neuen, im vorherigen Schritt deaktivierten freien Port.
  4. Ändern Sie den deaktivierten Port auf den aktivierten (oder administrativ eingeschalteten) Status und schalten Sie das Gerät wieder online.
  5. Löschen/setzen Sie die Statistiken/Zähler auf dem Switch auf null.

Informationen zu Brocade finden Sie im Wissensdatenbank-Artikel: 

Connectrix Brocade B-Serie: Anleitung zum Löschen von Schnittstellen- und ASIC-Zählern auf Connectrix Brocade B-Series-Switches und -Directors 

Informationen zu Cisco finden Sie im Wissensdatenbank-Artikel: 

Connectrix – MDS Series von Cisco: Anleitung zum Löschen von Schnittstellen- und ASIC-Zählern auf einem MDS

 

  1. Überwachen Sie den Port mit den entsprechenden Befehlen 4 bis 6 Stunden lang.

 

ERGEBNISSE:

  • Wenn sich die Fehlerzähler erhöhen, liegt das Problem außerhalb des Switches und KundInnen/NutzerInnen/SAN-AdministratorInnen sollten folgende Maßnahmen ergreifen:

 

    • Der SFP und das Kabel am neuen Port müssen gereinigt werden. (Um eine Kontamination des SFP durch ein verschmutztes Kabel zu vermeiden, sollten Sie ein professionelles Reinigungsset verwenden.)
    • Das angeschlossene Gerät muss durch den Supportanbieter weiter untersucht werden.
    • Wenn auf dem Cisco-Switch der Status „errdisabled“ ohne Erhöhung des Zählers auftritt, muss ein SR für weitere Back-end-Untersuchungen eröffnet werden.

 

  • Wenn sich die Fehler nicht erhöhen (oder der Errdisabled-Status auf dem Cisco-Switch nicht wieder auftritt), ist der SFP vom vorherigen Port defekt. Eröffnen Sie einen SR für den SFP-Austausch und geben Sie dabei die oben genannten Analyseergebnisse an, einschließlich der Protokollausgaben, SFP-Details (SM oder MM, Geschwindigkeit usw.).

 

HINWEIS: Sie können ab Schritt 6 das gleiche Verfahren durchführen, wenn Sie das Kabel und/oder das angeschlossene Gerät ausgetauscht haben, indem Sie die Zähler überprüfen.

 

Additional Information

HINWEIS: Wenn ein optischer SFP-Transceiver definitiv ausgefallen ist, wird in den meisten Fällen ein eindeutiger optischer Fehler im Ereignisprotokoll angezeigt.


Hardwarefehler können leicht isoliert werden, indem ein einfacher Algorithmus auf das Problem angewendet wird: Wenn es nicht an dieser Hardwarekomponente liegt, dann liegt es an der anderen. Führen Sie eine Schleife aus, bis Sie den Fehler isoliert haben, der auf die problematische Hardware hinweist.


BEISPIELE FÜR BROCADE:

HINWEIS: Eine Erläuterung oder Beschreibung der Zähler für „porterrshow“ finden Sie im Wissensdatenbank-Artikel zur Selbsthilfe: (die unten hervorgehobenen Beispiele)
Connectrix B-Serie: Interpretieren der Brocade porterrshow-Ausgabe und Bedeutung der Zähler. Selbsthilfe



Beispiel 1: ENC OUT mit LINK FAIL und LOSS SYNC:

 

porterrshow        :
CURRENT CONTEXT -- 3 , 111
     frames        enc  crc  crc    too   too   bad  enc   disc  link  loss  loss  frjt  fbsy  c3timeout    pcs
     tx     rx     in   err  g_eof  shrt  long  eof  out   c3    fail  sync  sig               tx    rx     err
xx:  849.1k 493.2k 0    0    0      0     0     0    2.3m  0     4     6     0     0     0     0      0     0


Allgemeine Ursache:
Nur gültig, wenn die Portstatistiken innerhalb der letzten 24 Stunden gelöscht wurden. Andernfalls klassifizieren Sie diese Zähler als historisch. Löschen Sie die Portstatistiken (wie oben unter Punkt 9 aufgeführt), überprüfen Sie die Zähler und erfassen Sie die Daten nach 4 bis 6 Stunden erneut.

Anhand der Fehler sind ein Verbindungsausfall und ein Verlust der Synchronisierung PLUS „enc out“-Fehler zu sehen. Diese können auch Signalverlustfehler enthalten.
Diese Fehlerkombinationen weisen in der Regel auf einen Neustart des Hosts oder einen Verbindungsreset außerhalb des Switches hin. Die „enc out“-Fehler werden während der Geschwindigkeitsaushandlung im Rahmen einer Verbindungsinitialisierung verursacht.

Erwartete Maßnahmen:
Überprüfen Sie, ob das an den Port angeschlossene Gerät einen legitimen Grund hatte, offline/online zu gehen, z. B. wegen eines Hostneustarts. Falls nicht, erstellen Sie einen SR.


Beispiel 2: ENC OUT:

porterrshow        :
CURRENT CONTEXT -- 3 , 111
     frames        enc  crc  crc    too   too   bad  enc   disc  link  loss  loss  frjt  fbsy  c3timeout    pcs
     tx     rx     in   err  g_eof  shrt  long  eof  out   c3    fail  sync  sig               tx    rx     err
xx:  849.1k 493.2k 0    0    0      0     0     0    2.3m  0     0     0     0     0     0     0      0     0


Allgemeine Ursache:
Nur gültig, wenn die Portstatistiken innerhalb der letzten 24 Stunden gelöscht wurden. Andernfalls klassifizieren Sie diese Zähler als historisch. Löschen Sie die Portstatistiken (wie oben unter Punkt 9 aufgeführt), überprüfen Sie die Zähler und erfassen Sie die Daten nach 4 bis 6 Stunden erneut.

„Enc out“-Fehler ohne zugehörige Fehler weisen auf ein verschmutztes Kabel hin.

Erwartete Maßnahmen:
Untersuchen und reinigen Sie alle optischen Oberflächen am Kabel und SFP, die mit diesem Port und angeschlossenen Geräten verbunden sind.


Beispiel 3: CRC und CRC G_EOF:

porterrshow        :
CURRENT CONTEXT -- 3 , 111
     frames        enc  crc  crc    too   too   bad  enc   disc  link  loss  loss  frjt  fbsy  c3timeout    pcs
     tx     rx     in   err  g_eof  shrt  long  eof  out   c3    fail  sync  sig               tx    rx     err
xx:  849.1k 493.2k 0    1.2k 1.2k   0     0     0    0     0     0     0     0     0     0     0      0     0


Allgemeine Ursache:
Nur gültig, wenn die Portstatistiken innerhalb der letzten 24 Stunden gelöscht wurden. Andernfalls klassifizieren Sie diese Zähler als historisch. Löschen Sie die Portstatistiken (wie oben unter Punkt 9 aufgeführt), überprüfen Sie die Zähler und erfassen Sie die Daten nach 4 bis 6 Stunden erneut.

Der Frame erreicht den Switchport mit einem fehlerhaften CRC, das Ende des Frames ist jedoch noch als fehlerfrei markiert.
Dies ist ein Hinweis darauf, dass dies der erste Port ist, der den fehlerhaften Frame registriert, sodass das Problem bei der SFP-/Kabel-/Geräteschnittstelle auf diesem bestimmten Port liegt.

Erwartete Maßnahmen:
Siehe Standardmaßnahme in der Lösung.

Löschen Sie bei einem ISL-Port die Statistiken, überprüfen Sie die Zähler und erfassen Sie die Daten nach 4 bis 6 Stunden erneut. Erfassen Sie die supportsaves von beiden Switches und eröffnen Sie einen SR für normales Troubleshooting.

 

Beispiel 4: CRC:

porterrshow        :
CURRENT CONTEXT -- 3 , 111
     frames        enc  crc  crc    too   too   bad  enc   disc  link  loss  loss  frjt  fbsy  c3timeout    pcs
     tx     rx     in   err  g_eof  shrt  long  eof  out   c3    fail  sync  sig               tx    rx     err
xx:  849.1k 493.2k 0    1.2k 0      0     0     0    0     0     0     0     0     0     0     0      0     0


Allgemeine Ursache:
Nur gültig, wenn die Portstatistiken innerhalb der letzten 24 Stunden gelöscht wurden. Andernfalls klassifizieren Sie diese Zähler als historisch. Löschen Sie die Portstatistiken (wie oben unter Punkt 9 aufgeführt), überprüfen Sie die Zähler und erfassen Sie die Daten nach 4 bis 6 Stunden erneut.

Der Port zeichnet einen Frame auf, der mit einem fehlerhaften CRC-Frame in den Switch gelangt ist, aber bereits als fehlerhaft markiert wurde. Dies tritt normalerweise bei einem ISL- und NPIV-F-Port auf.

Erwartete Maßnahmen:
Wenn auf dem NPIV-Port CRC-Fehler protokolliert werden, lassen Sie das Gerät vom Wartungsanbieter untersuchen!
Überprüfen Sie bei einem ISL-Port alle Ports in der Fabric auf die Protokollierung von crc g_oef und ergreifen Sie die gleichen Maßnahmen wie in Beispiel 3.


Beispiel 5: PCS ERR mit LINK FAIL und LOSS SYNC:

porterrshow        :
CURRENT CONTEXT -- 3 , 111
     frames        enc  crc  crc    too   too   bad  enc   disc  link  loss  loss  frjt  fbsy  c3timeout    pcs
     tx     rx     in   err  g_eof  shrt  long  eof  out   c3    fail  sync  sig               tx    rx     err
xx:  849.1k 493.2k 0    0    0      0     0     0    0     0     4     4     0     0     0     0      0     466


Allgemeine Ursache:
Nur gültig, wenn die Portstatistiken innerhalb der letzten 24 Stunden gelöscht wurden. Andernfalls klassifizieren Sie diese Zähler als historisch. Löschen Sie die Portstatistiken (wie oben unter Punkt 9 aufgeführt), überprüfen Sie die Zähler und erfassen Sie die Daten nach 4 bis 6 Stunden erneut.

Dies gilt nur für Plattformen, die 10-Gbit/s- oder 16-Gbit/s-Ports oder höher (6505/6510/6520/DCX-8510) unterstützen, und wurde mit dem Condor3-ASIC, der GEN5-Plattform, eingeführt.

ER_PCS_BLK zeigt die Anzahl der PCS-Blockfehler (Physical Coding Sublayer) an. Dieser Zähler entspricht enc_out für 8-Gbit/s/4-Gbit/s-Verbindungen und wird nur für Geschwindigkeiten von 10 Gbit/s und 16 Gbit/s verwendet.
Anhand der Fehler sind ein Verbindungsausfall und der Verlust der Synchronisierung plus „pcs err“-Fehler zu sehen. Diese können auch Signalverlustfehler enthalten.
Diese Fehlerkombinationen weisen in der Regel auf einen Neustart des Hosts oder einen Verbindungsreset außerhalb des Switches hin.
Die „pcs err“-Fehler werden während der Geschwindigkeitsaushandlung im Rahmen einer Verbindungsinitialisierung verursacht.

Erwartete Maßnahmen:
Überprüfen Sie, ob das an den Port angeschlossene Gerät einen legitimen Grund hatte, offline/online zu gehen, z. B. wegen eines Hostneustarts. Falls nicht, erstellen Sie einen SR.


Beispiel 6: PCS ERR:

porterrshow        :
CURRENT CONTEXT -- 3 , 111
     frames        enc  crc  crc    too   too   bad  enc   disc  link  loss  loss  frjt  fbsy  c3timeout    pcs
     tx     rx     in   err  g_eof  shrt  long  eof  out   c3    fail  sync  sig               tx    rx     err
xx:  849.1k 493.2k 0    0    0      0     0     0    0     0     0     0     0     0     0     0      0     466


Allgemeine Ursache:
Nur gültig, wenn die Portstatistiken innerhalb der letzten 24 Stunden gelöscht wurden. Andernfalls klassifizieren Sie diese Zähler als historisch. Löschen Sie die Portstatistiken (wie oben unter Punkt 9 aufgeführt), überprüfen Sie die Zähler und erfassen Sie die Daten nach 4 bis 6 Stunden erneut.

PCS ERR-Fehler ohne zugehörige Fehler weisen auf ein verschmutztes Kabel hin.

Erwartete Maßnahmen:
Untersuchen und reinigen Sie alle optischen Oberflächen am Kabel und SFP, die mit diesem Port und angeschlossenen Geräten verbunden sind.

 


BEISPIELE FÜR CISCO:

Beispiel 1: Errdisabled:

Errdisabled – keine Inkrementierung von Schnittstellenfehlern
 

fc1/1 is down (Error disabled - bit error rate too high)
    Hardware is Fibre Channel, SFP is short wave laser w/o OFC (SN).
    5 minutes input rate 0 bits/sec, 0 bytes/sec, 0 frames/sec
    5 minutes output rate 0 bits/sec, 0 bytes/sec, 0 frames/sec
      179 frames input, 7668 bytes
        0 discards, 0 errors
        0 CRC,  0 unknown class
        0 too long, 0 too short
      23 frames output, 1320 bytes
        0 discards, 0 errors
      1 input OLS, 1 LRR, 0 NOS, 1 loop inits
      2 output OLS, 0 LRR, 0 NOS, 1 loop inits
    Interface last changed at Thu Jun  5 01:51:00 2014

 

Allgemeiner Grund:
Der Status „Errdisabled“ einer Schnittstelle kann etwas irreführend sein, da die Schnittstellenzähler am Front-end möglicherweise keine Fehler anzeigen und der Switch den Port mit dem Status „errdisabled“ offline zu setzen scheint, während sich die Fehlerzähler am Back-end (ASIC/intern/Linecard) erhöhen.

Erwartete Maßnahmen:
Siehe Standardmaßnahme in der Lösung. Wenn dies öfter auftritt, erfassen Sie die Ausgabe des technischen Supports und eröffnen Sie einen SR.
 

HINWEIS: Informationen zum Status „Errdisabled“ von Cisco: Die Bitfehler können aus folgenden Gründen auftreten:
  • Fehlerhaftes oder defektes Kabel
  • Fehlerhafter oder defekter SFP
  • Der SFP ist für den Betrieb mit 1 Gbit/s spezifiziert, wird jedoch mit 2 Gbit/s verwendet.
  • Der SFP ist für den Betrieb mit 2 Gbit/s spezifiziert, wird jedoch mit 4 Gbit/s verwendet.
  • Es werden Kurzstreckenkabel für Langstrecken bzw. Langstreckenkabel für Kurzstrecken verwendet.
  • Kurzzeitiger Verlust der Synchronisierung
  • Lose Kabelverbindung an einem oder beiden Ende(n)
  • Nicht ordnungsgemäße SFP-Verbindung an einem oder beiden Ende(n)


Es wird ein Schwellenwert für die Bitfehlerrate erkannt, wenn 15 Fehlerspitzen in einem Zeitraum von 5 Minuten auftreten. Der Switch deaktiviert die Schnittstelle standardmäßig, wenn der Schwellenwert erreicht wird. Sie können die folgenden Befehle nacheinander eingeben, um die Schnittstelle wieder zu aktivieren.

shutdown
no shutdown
Sie können den Switch auch so konfigurieren, dass eine Schnittstelle nicht deaktiviert wird, wenn der Schwellenwert überschritten wird.


Standardmäßig deaktiviert der Schwellenwert die Schnittstelle.


Beispiel 2:   CRC

CRCs werden inkrementiert.
 

fc13/1 is down (Initializing)
    Port description is ***
    Hardware is Fibre Channel, SFP is long wave laser cost reduced.
    5 minutes input rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
    5 minutes output rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
      162 frames input, 6136 bytes
        0 discards, 17 errors
        17 CRC,  0 unknown class
        0 too long, 17 too short
      74 frames output, 6304 bytes
        2 discards, 0 errors
      108 input OLS, 54 LRR, 2 NOS, 0 loop inits
      83 output OLS, 26 LRR, 56 NOS, 0 loop inits
    Interface last changed at Tue May 27 08:37:20 2014


Allgemeine Ursache:

Der Port zeichnet einen Frame auf, der mit einem fehlerhaften CRC, aber einem fehlerfreien Ende des Frames in den Switch gelangt. Der CRC-Zähler wird nur auf dem jeweiligen Eingangsport, der den Fehler protokolliert, erhöht und jegliche Untersuchungen sollten sich auf diese physische Verbindung konzentrieren.

Erwartete Maßnahmen:
Siehe Standardmaßnahme in der Lösung.

Löschen Sie die Portstatistiken (wie oben unter Punkt 9 aufgeführt), überprüfen Sie die Zähler und erfassen Sie die Daten nach 4 bis 6 Stunden erneut.

 

Beispiel 3: NOS

Nicht funktionierende Sequenz (Non-Operational Sequence, NOS)

show int fc1/1 counters
fc1/1
    5 minutes input rate 1753296 bits/sec, 219162 bytes/sec, 199 frames/sec
    5 minutes output rate 2310384 bits/sec, 288798 bytes/sec, 194 frames/sec
    2741512190 frames input, 2542476084276 bytes
      0 class-2 frames, 0 bytes
      2741512190 class-3 frames, 2542476084276 bytes
      0 class-f frames, 0 bytes
      0 discards, 0 errors, 0 CRC
      0 unknown class, 0 too long, 0 too short
    3410405365 frames output, 5164364339412 bytes
      0 class-2 frames, 0 bytes
      3410405365 class-3 frames, 5164364339412 bytes
      0 class-f frames, 0 bytes
      0 discards, 0 errors
    1 input OLS, 1 LRR, 0 NOS, 307 loop inits
    289 output OLS, 289 LRR, 289 NOS, 289 loop inits
    0 link failures, 0 sync losses, 0 signal losses
     48276 BB credit transitions from zero
      16 receive B2B credit remaining
      3 transmit B2B credit remaining
      3 low priority transmit B2B credit remaining

 

Allgemeine Ursache:

Verlust der Verbindung vor den Verbindungsaushandlungen.


Erwartete Maßnahmen:
Überprüfen Sie Schicht 1 (physische Schicht) und das Quellgerät.

Affected Products

Connectrix

Products

Connectrix, Connectrix B-Series Hardware, Connectrix MDS-Series Hardware
Article Properties
Article Number: 000028863
Article Type: Solution
Last Modified: 29 Jul 2025
Version:  9
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.