Connectrix: Sådan foretager du fejlfinding af Fibre Channel-node for at skifte port eller SFP-kommunikationsproblemer ved eliminering, Selvhjælp.
Summary: Denne artikel beskriver, hvordan du foretager fejlfinding af Fibre Channel-node for at skifte port eller SFP-kommunikationsproblemer ved eliminering.
Symptoms
Sådan foretages fejlfinding af Fibre Channel-node for at skifte port eller SFP-kommunikationsproblemer ved eliminering?
For mange proaktive SFP-udskiftninger
Linkfejl
G-port
Intet lys
fungerer ikke (NOS)
Off Line Sequence (OLS)
Tab af signal
Defekt SFP
Fejlfinding af FC-portfejl
på FC-port
Cause
For mange SFP'er udskiftes proaktivt, mens problemet ligger uden for SFP'en eller switchen.
Resolution
Sådan løses problemet:
- Identificer den node og switchport, der er involveret i kommunikationsfejlen.
- Kontroller, at switch-porten er administrativt oppe (ikke blokeret, ikke lukket) eller aktiveret.
- Sørg for, at der er redundante stier tilgængelige for den tilsluttede enhed, før du fortsætter.
- For at eliminere SFP for at være problemet skal du gøre følgende:
- Se efter den ledige port på switchen.
- Deaktiver den identificerede ledige port på switchen.
- Flyt kablet fra den port, der skal undersøges, til den nye deaktiverede friport i det forrige trin.
- Skift den deaktiverede port for at aktivere tilstand (eller administrativt op), og sæt enheden online igen.
- Ryd/nulstil statistik/tællere til nul på switchen.
For Brocade se KBA:
For Cisco se KBA:
Connectrix – MDS-serien Cisco: Sådan ryddes grænsefladen og ASIC-tællere på en MDS
- Overvåg porten med de respektive kommandoer i 4-6 timer.
RESULTATER:
- Hvis fejltællerne øges, ligger problemet uden for switchen, og kunden / brugeren / SAN-administratoren skal rådes til at:
-
- Den nye port SFP og kablet kræver rengøring. (For at forhindre forurening på SFP af et snavset kabel skal du overveje at bruge et professionelt rengøringssæt.)
- Den tilsluttede enhed skal undersøges yderligere af den, der understøtter enheden.
- På Cisco-switch, hvis den "fejlbehæftede" tilstand kommer tilbage uden modstigning, skal en SR åbnes for yderligere back end-undersøgelse.
- Hvis fejlene ikke øges (eller tilstanden Errdisabled på Cisco-switchen ikke kommer tilbage), er SFP på den forrige port defekt, hæv SR til SFP-udskiftning med ovenstående analyseresultater, herunder logoutput, SFP-detaljer (SM eller MM og hastighed osv.)
Additional Information
Hardwarefejl kan let isoleres ved at anvende en simpel algoritme på problemet; Hvis det ikke er dette stykke hardware, så er det det andet stykke. Løkke, indtil du isolerer fejlen, der peger på den problematiske hardware.
BROCADE EKSEMPLER:
Connectrix B-serien: Sådan fortolker du Brocade porterrshow output, og det betyder tællerne. Selvhjælp
Eksempel 1: ENC OUT med LINK FAIL og LOSS SYNC:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 2.3m 0 4 6 0 0 0 0 0 0
Generel årsag:
Kun gyldig, hvis portstatistikker er blevet ryddet inden for de sidste 24 timer. Ellers klassificere disse tællere som historiske. Ryd portstatistikker (som anført ovenfor under punkt 9), og kontroller tællerne, og tag data igen efter 4-6 timer.
Fra fejlene kan vi se linket mislykkes og tab af synkronisering PLUS enc out fejl, disse kan også omfatte tab sig-fejl.
Disse kombinationer af fejl indikerer generelt en genstart af værten eller en nulstilling af link uden for switchen. enc out-fejlene forårsages under hastighedsforhandlingen som en del af en linkinitialisering.
Forventede handlinger:
Kontrollér, at enheden, der er tilsluttet porten, havde en legitim grund til at gå offline og/eller online. F.eks. genstart af værten. Hvis ikke, skal du hæve en SR.
Eksempel 2 ENC UD:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 2.3m 0 0 0 0 0 0 0 0 0
Generel årsag:
Kun gyldig, hvis portstatistikker er blevet ryddet inden for de sidste 24 timer. Ellers klassificere disse tællere som historiske. Ryd portstatistikker (som anført ovenfor under punkt 9), og kontroller tællerne, og tag data igen efter 4-6 timer.
Enc out-fejl uden tilknyttede fejl indikerer snavset kabel.
Forventede handlinger:
Efterse og rens alle synsflader på kablet og SFP, der er tilsluttet denne port og tilsluttede enheder.
Eksempel 3 CRC og CRC G_EOF:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 1.2k 1.2k 0 0 0 0 0 0 0 0 0 0 0 0 0
Generel årsag:
Kun gyldig, hvis portstatistikker er blevet ryddet inden for de sidste 24 timer. Ellers klassificere disse tællere som historiske. Ryd portstatistikker (som anført ovenfor under punkt 9), og kontroller tællerne, og tag data igen efter 4-6 timer.
Rammen kommer ind i switch-porten med en dårlig CRC, men med enden af rammen stadig markeret som god.
Dette er en indikation af, at dette er den første port, der registrerer den dårlige ramme, så problemet er enten SFP-/kabel-/tilsluttet enhedsgrænsefladen på denne specifikke port.
Forventede handlinger:
Se standardhandling i opløsningen.
For en ISL-port skal du rydde statistik (som angivet ovenfor under punkt 9) og kontrollere tællerne og genoptage data efter 4-6 timer, indsamle supportsaves fra begge switche og åbne SR til normal fejlfinding.
Eksempel 4 CRC:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 1.2k 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Generel årsag:
Kun gyldig, hvis portstatistikker er blevet ryddet inden for de sidste 24 timer. Ellers klassificere disse tællere som historiske. Ryd portstatistikker (som anført ovenfor under punkt 9), og kontroller tællerne, og tag data igen efter 4-6 timer.
Porten optager en ramme, der kommer ind i kontakten med en dårlig CRC-ramme, men med rammen allerede markeret som dårlig. Se normalt dette på en ISL og NPIV F-port.
Forventede handlinger:
Hvis CRC-fejl logger på NPIV-porten, skal enheden undersøges ved at opretholde leverandøren!
For en ISL-port skal du kontrollere alle porte i strukturen for eventuelle portlogføring af CRC-g_oef og -handlinger som i eksempel 3.
Eksempel 5 PCS ERR med LINK FAIL og LOSS SYNC:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 0 0 4 4 0 0 0 0 0 466
Generel årsag:
Kun gyldig, hvis portstatistikker er blevet ryddet inden for de sidste 24 timer. Ellers klassificere disse tællere som historiske. Ryd portstatistikker (som anført ovenfor under punkt 9), og kontroller tællerne, og tag data igen efter 4-6 timer.
Dette gælder kun på platforme, der understøtter 10 Gbps- eller 16 Gbps-porte og derover (6505/6510/6520/DCX-8510), og det blev introduceret med Condor3 ASIC, GEN5-platformen.
ER_PCS_BLK viser antallet af fysiske kodningsunderlagsblokfejl (PCS). Denne tæller svarer til enc_out til 8 GB/4 GB-link, og den bruges kun til en hastighed på 10 GB og 16 GB og derover.
Fra fejlene kan vi se linkfejl og tab af synkronisering plus pc'er fejlfejl, disse kan også omfatte tab sig-fejl.
Disse kombinationer af fejl indikerer generelt en genstart af værten eller en nulstilling af linket uden for switchen.
Pc'ernes fejlfejl forårsages under hastighedsforhandlingen som en del af linkinitialisering.
Forventede handlinger:
Kontrollér, at enheden, der er tilsluttet porten, havde en legitim grund til at gå offline og/eller online. F.eks. genstart af værten. Hvis ikke, hæv SR.
Eksempel 6 STK-fejl:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 466
Generel årsag:
Kun gyldig, hvis portstatistikker er blevet ryddet inden for de sidste 24 timer. Ellers klassificere disse tællere som historiske. Ryd portstatistikker (som anført ovenfor under punkt 9), og kontroller tællerne, og tag data igen efter 4-6 timer.
PCS ERR-fejl uden tilknyttede fejl indikerer snavset kabel.
Forventede handlinger:
Efterse og rens alle synsflader på kablet og SFP, der er tilsluttet denne port og tilsluttede enheder.
CISCO-EKSEMPLER:
Eksempel 1 Fejldeaktiveret:
Fejl deaktiveret – ingen forøgelse af grænsefladefejl
fc1/1 is down (Error disabled - bit error rate too high) Hardware is Fibre Channel, SFP is short wave laser w/o OFC (SN). 5 minutes input rate 0 bits/sec, 0 bytes/sec, 0 frames/sec 5 minutes output rate 0 bits/sec, 0 bytes/sec, 0 frames/sec 179 frames input, 7668 bytes 0 discards, 0 errors 0 CRC, 0 unknown class 0 too long, 0 too short 23 frames output, 1320 bytes 0 discards, 0 errors 1 input OLS, 1 LRR, 0 NOS, 1 loop inits 2 output OLS, 0 LRR, 0 NOS, 1 loop inits Interface last changed at Thu Jun 5 01:51:00 2014
Generel årsag:
En grænseflades "Errdisabled"-tilstand kan være lidt misvisende, da grænsefladetællere kan være rene i frontenden, og switchen ser ud til at være nede i porten med "errdisabled" -tilstand, og fejltællere stiger i bagenden (ASIC/intern/linecard).
Forventede tiltag:
Se standardhandling i opløsningen. Hvis det sker igen, skal du indsamle oplysninger om teknisk support og åbne SR.
- Defekt eller dårligt kabel
- Defekt eller dårlig SFP
- SFP er specificeret til at fungere ved 1 Gbps, men bruges ved 2 Gbps.
- SFP er specificeret til at fungere ved 2 Gbps, men bruges ved 4 Gbps.
- Kortdistancekabel bruges til langdistance, eller langdistancekabel bruges til kortdistancekabel.
- Midlertidigt tab af synkronisering
- Løs kabelforbindelse i den ene eller begge ender
- Forkert SFP-forbindelse i den ene eller begge ender
Der registreres en bitfejlfrekvenstærskel, når der opstår 15 fejludbrud inden for en periode på 5 minutter. Som standard deaktiverer switchen grænsefladen, når tærsklen er nået. Du kan indtaste kommandoerne nedenfor i rækkefølge for at genaktivere grænsefladen.
shutdown
no shutdown Du kan konfigurere switchen til ikke at deaktivere en grænseflade, når tærsklen overskrides.
Som standard deaktiverer tærsklen grænsefladen.
Eksempel 2: CRC
CRC'er øges
fc13/1 is down (Initializing)
Port description is ***
Hardware is Fibre Channel, SFP is long wave laser cost reduced.
5 minutes input rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
5 minutes output rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
162 frames input, 6136 bytes
0 discards, 17 errors
17 CRC, 0 unknown class
0 too long, 17 too short
74 frames output, 6304 bytes
2 discards, 0 errors
108 input OLS, 54 LRR, 2 NOS, 0 loop inits
83 output OLS, 26 LRR, 56 NOS, 0 loop inits
Interface last changed at Tue May 27 08:37:20 2014
Generel årsag:
Porten optager en ramme, der kommer ind i kontakten med en dårlig CRC, men en god ende af rammen. CRC-tælleren øges kun på den specifikke indgående port, der logger fejlen, og eventuelle undersøgelser skal udføres på dette fysiske link.
Forventede handlinger:
Se standardhandling i opløsningen.
Ryd portstatistikker (som anført ovenfor under punkt 9), og kontroller tællerne, og tag data igen efter 4-6 timer.
Eksempel 3: NOS
Ikke-operationel sekvens (NOS)
show int fc1/1 counters
fc1/1
5 minutes input rate 1753296 bits/sec, 219162 bytes/sec, 199 frames/sec
5 minutes output rate 2310384 bits/sec, 288798 bytes/sec, 194 frames/sec
2741512190 frames input, 2542476084276 bytes
0 class-2 frames, 0 bytes
2741512190 class-3 frames, 2542476084276 bytes
0 class-f frames, 0 bytes
0 discards, 0 errors, 0 CRC
0 unknown class, 0 too long, 0 too short
3410405365 frames output, 5164364339412 bytes
0 class-2 frames, 0 bytes
3410405365 class-3 frames, 5164364339412 bytes
0 class-f frames, 0 bytes
0 discards, 0 errors
1 input OLS, 1 LRR, 0 NOS, 307 loop inits
289 output OLS, 289 LRR, 289 NOS, 289 loop inits
0 link failures, 0 sync losses, 0 signal losses
48276 BB credit transitions from zero
16 receive B2B credit remaining
3 transmit B2B credit remaining
3 low priority transmit B2B credit remaining
Generel årsag:
Tab af forbindelse forud for linkforhandlinger.
Forventede handlinger:
Kontroller lag 1 (fysisk lag) og kildeenheden.