Connectrix: Så här felsöker du kommunikationsproblem med Fibre Channel-nod för att byta port eller SFP genom eliminering, självhjälp.
Summary: I den här artikeln beskrivs hur du felsöker kommunikationsproblem mellan Fibre Channel-noder för att byta port eller SFP genom eliminering.
Symptoms
Hur felsöker jag kommunikationsproblem med Fibre Channel-nod för att byta port eller SFP genom eliminering?
För många proaktiva SFP-ersättningar
Länkfel
G-port
Inget ljus
Fungerar inte Sekvens (NOS)
Offlinesekvens (OLS)
Signalförlust
Felaktig SFP
Felsöka FC-portfel på FC-port
Cause
För många SFP:er ersätts proaktivt medan problemet ligger utanför SFP:n eller switchen.
Resolution
Gör så här för att lösa problemet:
- Identifiera noden och switchporten som berörs av kommunikationsfelet.
- Kontrollera att switchporten är administrativt aktiv (avblockerad, avstängd) eller aktiverad.
- Kontrollera att det finns redundanta sökvägar till den anslutna enheten innan du fortsätter.
- För att eliminera SFP från att vara problemet, gör följande:
- Kontrollera om det finns en ledig port på switchen.
- Inaktivera den identifierade lediga porten på switchen.
- Flytta kabeln från porten som ska undersökas till den nya inaktiverade fria porten i föregående steg.
- Ändra den inaktiverade porten för att aktivera tillstånd (eller administrativt upp) och anslut enheten igen.
- Rensa/återställ statistiken/räknarna till noll på switchen.
För Brocade, se KBA:
För Cisco, se KBA:
Connectrix – MDS-serien Cisco: Rensa gränssnitt och ASIC-räknare på en MDS
- Övervaka porten med respektive kommandon i 4-6 timmar.
RESULTAT:
- Om felräknarna ökar ligger problemet utanför switchen och kunden/användaren/SAN-administratören måste uppmanas att:
-
- Den nya porten, SFP:n och kabeln måste rengöras. (För att förhindra kontaminering på SFP:n av en smutsig kabel, överväg att använda ett professionellt rengöringskit.)
- Den anslutna enheten måste undersökas ytterligare av den som stöder enheten.
- Om tillståndet "errdisabled" kommer tillbaka utan någon räknarökning på Cisco-switchen måste en SR öppnas för ytterligare backend-undersökning.
- Om felen inte ökar (eller om Errineded-läget på Cisco-switchen inte kommer tillbaka) är SFP:n på den tidigare porten defekt. Skapa SR för SFP-byte och erbjud analysresultaten ovan, inklusive loggutdata, SFP-information (SM eller MM och hastighet osv.)
Additional Information
Maskinvarufel kan enkelt isoleras genom att tillämpa en enkel algoritm på problemet. Om det inte är den här hårdvaran så är det den andra delen. Loopa tills du isolerar felet som pekar på problemhårdvaran.
BROCADE-EXEMPEL:
Connectrix B-serien: Hur Brocade porterrshow-utdata ska tolkas och vad räknarna betyder. Självhjälp
Exempel 1: ENC OUT med LINK FAIL och LOSS SYNC:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 2.3m 0 4 6 0 0 0 0 0 0
Allmänt skäl:
Endast giltigt om portstatistik har rensats under de senaste 24 timmarna. I annat fall klassificerar du dessa räknare som historiska. Rensa hamnstatistik (som anges ovan under punkt 9) och kontrollera räknare och återtagningsdata efter 4-6 timmar.
Från felen kan vi se att länken misslyckas och förlust av synkronisering PLUS enc out-fel, dessa kan också inkludera förlust-sig-fel.
Dessa felkombinationer indikerar vanligtvis en värdomstart eller en länkåterställning utanför switchen. Enc out-felen orsakas under hastighetsförhandlingen som en del av en länkinitiering.
Förväntade åtgärder:
Kontrollera att enheten som är ansluten till porten hade en legitim anledning att gå offline och/eller online. Till exempel omstart av värd. Om inte, skapa en SR.
Exempel 2 ENC OUT:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 2.3m 0 0 0 0 0 0 0 0 0
Allmänt skäl:
Endast giltigt om portstatistik har rensats under de senaste 24 timmarna. I annat fall klassificerar du dessa räknare som historiska. Rensa hamnstatistik (som anges ovan under punkt 9) och kontrollera räknare och återtagningsdata efter 4-6 timmar.
Enc out-fel utan tillhörande fel indikerar smutsig kabel.
Förväntade åtgärder:
Inspektera och rengör alla optiska ytor på kabel och SFP som är anslutna till den här porten och anslutna enheter.
Exempel 3 CRC och CRC G_EOF:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 1.2k 1.2k 0 0 0 0 0 0 0 0 0 0 0 0 0
Allmänt skäl:
Endast giltigt om portstatistik har rensats under de senaste 24 timmarna. I annat fall klassificerar du dessa räknare som historiska. Rensa hamnstatistik (som anges ovan under punkt 9) och kontrollera räknare och återtagningsdata efter 4-6 timmar.
Ramen kommer in i switchporten med en felaktig CRC men med slutet av ramen fortfarande markerad som bra.
Det här är en indikation på att det här är den första porten som registrerar den felaktiga ramen, så problemet är antingen SFP/kabeln/det anslutna enhetsgränssnittet på den specifika porten.
Förväntade åtgärder:
Se standardåtgärden i upplösningen.
För en ISL-port, rensa statistik (enligt listan ovan under punkt 9) och kontrollera räknarna och ta om data efter 4-6 timmar, samla in supportsave-data från båda switcharna och öppna SR för normal felsökning.
Exempel 4 CRC:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 1.2k 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Allmänt skäl:
Endast giltigt om portstatistik har rensats under de senaste 24 timmarna. I annat fall klassificerar du dessa räknare som historiska. Rensa hamnstatistik (som anges ovan under punkt 9) och kontrollera räknare och återtagningsdata efter 4-6 timmar.
Porten spelar in en bildruta som kommer in i switchen med en dålig CRC-bildruta, men där bildrutan redan är markerad som dålig. Normalt ser du detta på ISL- och NPIV F-portar.
Förväntade åtgärder:
Om CRC-fel loggas på NPIV-porten ska du låta leverantören undersöka enheten!
För en ISL-port kontrollerar du alla portar i infrastrukturen för att se om det finns någon portloggning av crc-g_oef och åtgärder som i exempel 3.
Exempel 5 st ERR med LINK FAIL och LOSS SYNC:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 0 0 4 4 0 0 0 0 0 466
Allmänt skäl:
Endast giltigt om portstatistik har rensats under de senaste 24 timmarna. I annat fall klassificerar du dessa räknare som historiska. Rensa hamnstatistik (som anges ovan under punkt 9) och kontrollera räknare och återtagningsdata efter 4-6 timmar.
Detta gäller endast på plattformar som har stöd för portar på 10 Gbit/s eller 16 Gbit/s och högre (6505/6510/6520/DCX-8510) och det introducerades med Condor3 ASIC, GEN5-plattformen.
ER_PCS_BLK visar antalet PCS-blockfel (Physical Coding Sublayer). Denna räknare motsvarar enc_out för 8Gb/4Gb-länk och den används endast för 10 GB och 16 GB hastighet och högre.
Från felen kan vi se länkfel och förlust av synkronisering plus pcs fel, dessa kan också inkludera förlust sig-fel.
Dessa felkombinationer indikerar vanligtvis en värdomstart eller länkåterställning utanför switchen.
Datorfelen orsakas under hastighetsförhandlingarna som en del av länkinitieringen.
Förväntade åtgärder:
Kontrollera att enheten som är ansluten till porten hade en legitim anledning att gå offline och/eller online. Till exempel omstart av värd. Om inte, höj SR.
Exempel 6 PCS ERR:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 466
Allmänt skäl:
Endast giltigt om portstatistik har rensats under de senaste 24 timmarna. I annat fall klassificerar du dessa räknare som historiska. Rensa hamnstatistik (som anges ovan under punkt 9) och kontrollera räknare och återtagningsdata efter 4-6 timmar.
PCS ERR-fel utan några associerade fel indikerar smutsig kabel.
Förväntade åtgärder:
Inspektera och rengör alla optiska ytor på kabel och SFP som är anslutna till den här porten och anslutna enheter.
CISCO-EXEMPEL:
Exempel 1 ErrInaktiverad:
Errdisabled – inga gränssnittsfel ökar
fc1/1 is down (Error disabled - bit error rate too high) Hardware is Fibre Channel, SFP is short wave laser w/o OFC (SN). 5 minutes input rate 0 bits/sec, 0 bytes/sec, 0 frames/sec 5 minutes output rate 0 bits/sec, 0 bytes/sec, 0 frames/sec 179 frames input, 7668 bytes 0 discards, 0 errors 0 CRC, 0 unknown class 0 too long, 0 too short 23 frames output, 1320 bytes 0 discards, 0 errors 1 input OLS, 1 LRR, 0 NOS, 1 loop inits 2 output OLS, 0 LRR, 0 NOS, 1 loop inits Interface last changed at Thu Jun 5 01:51:00 2014
Allmän anledning:
Tillståndet "Errdisabled" för ett gränssnitt kan vara lite missvisande eftersom gränssnittsräknare kan vara rena på frontend och switchen verkar stänga porten med "errdisabled"-tillstånd och felräknare ökar på backend (ASIC/internt/linjekort).
Förväntade åtgärder:
Se standardåtgärd i lösningen. Om det inträffar igen samlar du in utdata från teknisk supportinformation och öppnar SR.
- Felaktig eller dålig kabel
- Felaktig eller dålig SFP
- SFP är specificerat att köras vid 1 Gbit/s men används vid 2 Gbit/s.
- SFP är specificerat att fungera vid 2 Gbps men används vid 4 Gbps.
- Kortdistanskabel används för långdistans, eller långdistanskabel används för kortdistans.
- Tillfällig synkroniseringsförlust
- Lös kabelanslutning i en eller båda ändarna
- Felaktig SFP-anslutning i ena eller båda ändar
Ett tröskelvärde för bitfelfrekvens identifieras när 15 felbursts inträffar under en 5-minutersperiod. Som standard inaktiverar switchen gränssnittet när tröskelvärdet nås. Du kan ange kommandona nedan i följd för att återaktivera gränssnittet.
shutdown
no shutdown Du kan konfigurera switchen så att den inte inaktiverar ett gränssnitt när tröskelvärdet överskrids.
Som standard inaktiverar tröskelvärdet gränssnittet.
Exempel 2: CRC
CRC ökar
fc13/1 is down (Initializing)
Port description is ***
Hardware is Fibre Channel, SFP is long wave laser cost reduced.
5 minutes input rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
5 minutes output rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
162 frames input, 6136 bytes
0 discards, 17 errors
17 CRC, 0 unknown class
0 too long, 17 too short
74 frames output, 6304 bytes
2 discards, 0 errors
108 input OLS, 54 LRR, 2 NOS, 0 loop inits
83 output OLS, 26 LRR, 56 NOS, 0 loop inits
Interface last changed at Tue May 27 08:37:20 2014
Allmän anledning:
Porten spelar in en bildruta som kommer in i switchen med en dålig CRC men en bra slutbild. CRC-räknaren ökar endast på den specifika ingressporten och loggar felet och eventuella undersökningar bör göras på den här fysiska länken.
Förväntade åtgärder:
Se standardåtgärden i upplösningen.
Rensa hamnstatistik (som anges ovan under punkt 9) och kontrollera räknare och återtagningsdata efter 4-6 timmar.
Exempel 3: NR
Sekvens av ej i drift (NOS)
show int fc1/1 counters
fc1/1
5 minutes input rate 1753296 bits/sec, 219162 bytes/sec, 199 frames/sec
5 minutes output rate 2310384 bits/sec, 288798 bytes/sec, 194 frames/sec
2741512190 frames input, 2542476084276 bytes
0 class-2 frames, 0 bytes
2741512190 class-3 frames, 2542476084276 bytes
0 class-f frames, 0 bytes
0 discards, 0 errors, 0 CRC
0 unknown class, 0 too long, 0 too short
3410405365 frames output, 5164364339412 bytes
0 class-2 frames, 0 bytes
3410405365 class-3 frames, 5164364339412 bytes
0 class-f frames, 0 bytes
0 discards, 0 errors
1 input OLS, 1 LRR, 0 NOS, 307 loop inits
289 output OLS, 289 LRR, 289 NOS, 289 loop inits
0 link failures, 0 sync losses, 0 signal losses
48276 BB credit transitions from zero
16 receive B2B credit remaining
3 transmit B2B credit remaining
3 low priority transmit B2B credit remaining
Allmän anledning:
Förlust av anslutning före länkförhandlingar.
Förväntade åtgärder:
Kontrollera lager 1 (fysiskt lager) och källenheten.