Connectrix: Jak rozwiązywać problemy z komunikacją między węzłem Fibre Channel a portem przełącznika lub SFP poprzez eliminację, samodzielna pomoc.
Summary: W tym artykule wyjaśniono, jak rozwiązywać problemy z komunikacją między węzłem Fibre Channel a portem przełącznika lub SFP poprzez eliminację.
Symptoms
Jak rozwiązywać problemy z komunikacją między węzłem Fibre Channel a portem przełącznika lub SFP poprzez eliminację?
Zbyt wiele proaktywnych wymian SFP
Awaria łącza
Port G
Brak lampki
Sekwencja nieoperacyjna (NOS)
Sekwencja offline (OLS)
Utrata sygnału
Wadliwy SFP
Rozwiązywanie problemów z błędami portu FC
Błędy na porcie FC
Cause
Zbyt wiele modułów SFP zostało aktywnie wymienionych, podczas gdy problem leży poza SFP lub przełącznikiem.
Resolution
Rozwiązanie problemu:
- Zidentyfikuj węzeł i port przełącznika, których dotyczy awaria komunikacji.
- Sprawdź, czy port przełącznika jest administracyjnie włączony (odblokowany, niezamknięty) lub włączony.
- Przed kontynuowaniem upewnij się, że dostępne są nadmiarowe ścieżki do podłączonego urządzenia.
- Aby wyeliminować problem z SFP, wykonaj następujące czynności:
- Sprawdź wolny port przełącznika.
- Wyłącz zidentyfikowany wolny port przełącznika.
- Przenieś przewód z portu, który ma być badany, do nowego, wyłączonego wolnego portu w poprzednim kroku.
- Zmień wyłączony port na stan włączony (lub administracyjny) i przełącz urządzenie z powrotem w tryb online.
- Wyczyść/zresetuj statystyki/liczniki do zera na przełączniku.
Aby uzyskać informacje o Brocade, patrz artykuł z bazy wiedzy:
Aby uzyskać informacje na temat Cisco, patrz artykuł z bazy wiedzy:
Connectrix serii MDS Cisco: czyszczenie liczników interfejsu i ASIC w MDS
- Monitoruj port za pomocą odpowiednich poleceń przez 4–6 godzin.
REZULTATY:
- Jeśli liczniki błędów rosną, problem leży poza przełącznikiem, a klient / użytkownik / administrator sieci SAN powinien zostać poinformowany o tym, że:
-
- nowy port SFP i przewód wymagają czyszczenia (aby zapobiec zanieczyszczeniu SFP brudnego przewodu, rozważ użycie profesjonalnego zestawu do czyszczenia),
- podłączone urządzenie musi zostać dokładniej zbadane przez osobę obsługującą to urządzenie,
- w przypadku przełącznika Cisco, jeśli stan „errdisabled” powraca bez zwiększenia licznika, należy otworzyć SR w celu dalszego zbadania zaplecza.
- Jeśli liczba błędów nie zwiększa się (lub stan Errdisabled w przełączniku Cisco nie wraca), oznacza to, że moduł SFP na poprzednim porcie jest uszkodzony, należy zgłosić SR do wymiany SFP, podając powyższe wyniki analizy, w tym dane wyjściowe dziennika, szczegóły SFP (SM lub MM, prędkość itp.)
Additional Information
Awarie sprzętu można łatwo wyizolować, stosując prosty algorytm dla problemu; jeśli to nie ten sprzęt, oznacza to, że to ten drugi. Pętla do momentu wyizolowania awarii wskazującej problematyczny sprzęt.
PRZYKŁADY BROCADE:
Connectrix serii B: sposób interpretowania wyników polecenia porterrshow Brocade i znaczenie liczników. Samodzielna pomoc klienta
Przykład 1 ENC OUT z LINK FAIL i LOSS SYNC:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 2.3m 0 4 6 0 0 0 0 0 0
Przyczyna ogólna:
Ważna tylko wtedy, gdy w ciągu ostatnich 24 godzin usunięto statystyki portu. W przeciwnym razie sklasyfikuj te liczniki jako historyczne. Wyczyść statystyki portu (zgodnie z punktem 9 powyżej), sprawdź liczniki i ponownie pobierz dane po 4–6 godzinach.
Na podstawie błędów możemy zauważyć nieprawidłowe działanie łącza i błędy utraty synchronizacji PLUS enc out, mogą one również obejmować błąd utraty sygnału.
Te kombinacje błędów zazwyczaj wskazują ponowny rozruch hosta lub resetowanie łącza zewnętrznego względem przełącznika. Błędy enc out powstają podczas negocjacji prędkości w ramach inicjalizacji łącza.
Oczekiwane działania:
Sprawdź, czy istnieje uzasadniony powód, aby urządzenie podłączone do portu przeszło w tryb offline i/lub online. Na przykład ponowne uruchomienie hosta. Jeśli nie, należy przesłać zgłoszenie serwisowe.
Przykład 2 ENC OUT:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 2.3m 0 0 0 0 0 0 0 0 0
Przyczyna ogólna:
Ważna tylko wtedy, gdy w ciągu ostatnich 24 godzin usunięto statystyki portu. W przeciwnym razie sklasyfikuj te liczniki jako historyczne. Wyczyść statystyki portu (zgodnie z punktem 9 powyżej), sprawdź liczniki i ponownie pobierz dane po 4–6 godzinach.
Błędy „enc out” niepowiązane z innymi błędami wskazują, że kabel jest zabrudzony.
Oczekiwane działania:
Sprawdź i wyczyść wszystkie powierzchnie optyczne kabla oraz SFP podłączony do tego portu i podłączone urządzenia.
Przykład 3 CRC i CRC G_EOF:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 1.2k 1.2k 0 0 0 0 0 0 0 0 0 0 0 0 0
Przyczyna ogólna:
Ważna tylko wtedy, gdy w ciągu ostatnich 24 godzin usunięto statystyki portu. W przeciwnym razie sklasyfikuj te liczniki jako historyczne. Wyczyść statystyki portu (zgodnie z punktem 9 powyżej), sprawdź liczniki i ponownie pobierz dane po 4–6 godzinach.
Ramka wchodzi do portu przełącznika z uszkodzonym CRC, ale koniec ramki nadal jest oznaczony jako prawidłowy.
Oznacza to, że jest to pierwszy port, który zarejestrował uszkodzoną ramkę, dlatego problem dotyczy interfejsu SFP / kabla / podłączonego urządzenia na tym konkretnym porcie.
Oczekiwane działania:
Zobacz domyślne działanie w rozwiązaniu.
W przypadku portu ISL wyczyść statystyki (zgodnie z punktem 9 powyżej), sprawdź liczniki i ponownie pobierz dane po 4–6 godzinach, następnie zbierz dane z narzędzia supportsaves z obu przełączników i otwórz SR, aby w standardowy sposób rozwiązać problem.
Przykład 4 CRC:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 1.2k 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Przyczyna ogólna:
Ważna tylko wtedy, gdy w ciągu ostatnich 24 godzin usunięto statystyki portu. W przeciwnym razie sklasyfikuj te liczniki jako historyczne. Wyczyść statystyki portu (zgodnie z punktem 9 powyżej), sprawdź liczniki i ponownie pobierz dane po 4–6 godzinach.
Port rejestruje ramkę wchodzącą do przełącznika z uszkodzoną ramką CRC, ale ramka jest już oznaczona jako uszkodzona. Zwykle jest to widoczne na portach F ISL i NPIV.
Oczekiwane działania:
Jeśli błędy CRC rejestrują się na porcie NPIV, zwróć się do dostawcy serwisującego o zbadanie urządzenia!
W przypadku portu ISL należy sprawdzić wszystkie porty w sieci szkieletowej, czy nie mają żadnych portów rejestrujących crc g_oef i podjąć działania, jak w przykładzie 3.
Przykład 5 PCS ERR z LINK FAIL i LOSS SYNC:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 0 0 4 4 0 0 0 0 0 466
Przyczyna ogólna:
Ważna tylko wtedy, gdy w ciągu ostatnich 24 godzin usunięto statystyki portu. W przeciwnym razie sklasyfikuj te liczniki jako historyczne. Wyczyść statystyki portu (zgodnie z punktem 9 powyżej), sprawdź liczniki i ponownie pobierz dane po 4–6 godzinach.
Ma to zastosowanie tylko w przypadku platform obsługujących porty 10 Gb/s lub 16 Gb/s i wyższe (6505/6510/6520/DCX-8510) i zostało wprowadzone z platformą GEN5 Condor3 ASIC.
ER_PCS_BLK wyświetla liczbę błędów blokowania podwarstwy kodowania fizycznego (PCS). Licznik ten jest równoważny z enc_out łącza 8 Gb/4 Gb i jest używany tylko z szybkością 10 GB i 16 GB.
Na podstawie błędów możemy zobaczyć awarię łącza i utratę synchronizacji błędów plus pcs err, mogą one również obejmować błąd utraty sygnału.
Te kombinacje błędów zazwyczaj wskazują na ponowne uruchomienie hosta lub zresetowanie łącza zewnętrznego przełącznika.
Błędy pcs err powstają podczas negocjacji prędkości w ramach inicjalizacji łącza.
Oczekiwane działania:
Sprawdź, czy istnieją uzasadnione powody, aby urządzenie podłączone do portu przeszło do trybu offline i/lub online. Na przykład ponowne uruchomienie hosta. Jeśli nie, należy przesłać zgłoszenie serwisowe.
Przykład 6 PCS ERR:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 466
Przyczyna ogólna:
Ważna tylko wtedy, gdy w ciągu ostatnich 24 godzin usunięto statystyki portu. W przeciwnym razie sklasyfikuj te liczniki jako historyczne. Wyczyść statystyki portu (zgodnie z punktem 9 powyżej), sprawdź liczniki i ponownie pobierz dane po 4–6 godzinach.
Błędy PCS ERR niepowiązane z innymi błędami wskazują, że kabel jest zabrudzony.
Oczekiwane działania:
Sprawdź i wyczyść wszystkie powierzchnie optyczne kabla oraz SFP podłączony do tego portu i podłączone urządzenia.
PRZYKŁADY CISCO:
Przykład 1 Errdisabled:
Errdisabled - no interface errors incrementing
fc1/1 is down (Error disabled - bit error rate too high) Hardware is Fibre Channel, SFP is short wave laser w/o OFC (SN). 5 minutes input rate 0 bits/sec, 0 bytes/sec, 0 frames/sec 5 minutes output rate 0 bits/sec, 0 bytes/sec, 0 frames/sec 179 frames input, 7668 bytes 0 discards, 0 errors 0 CRC, 0 unknown class 0 too long, 0 too short 23 frames output, 1320 bytes 0 discards, 0 errors 1 input OLS, 1 LRR, 0 NOS, 1 loop inits 2 output OLS, 0 LRR, 0 NOS, 1 loop inits Interface last changed at Thu Jun 5 01:51:00 2014
Przyczyna ogólna:
Stan „Errdisabled” interfejsu może być nieco mylący, ponieważ liczniki interfejsu mogą być czyste na froncie, a przełącznik wydaje się opuszczać port ze stanem „errdisabled” i liczniki błędów rosną na zapleczu (ASIC/internal/linecard).
Oczekiwane działania:
Zobacz akcję domyślną w rozwiązaniu. Jeśli wystąpi ponownie, zbierz dane wyjściowe pomocy technicznej i otwórz zgłoszenie serwisowe.
- wadliwy lub uszkodzony przewód
- wadliwy lub zły SFP
- protokół SFP ma działać z szybkością 1 Gb/s, ale jest używany z szybkością 2 Gb/s
- protokół SFP ma działać z szybkością 2 Gb/s, ale jest używany z szybkością 4 Gb/s
- krótkodystansowy przewód jest używany na długich dystansach, a długodystansowy jest używany na krótkich dystansach
- chwilowa utrata synchronizacji
- luźne połączenie kablowe na jednym lub obu końcach
- nieprawidłowe połączenie SFP na jednym lub obu końcach
Próg szybkości błędów bitowych jest wykrywany, gdy w ciągu 5 minut wystąpi 15 serii błędów. Domyślnie przełącznik wyłącza interfejs po osiągnięciu określonego progu. Można wprowadzić poniższe polecenia po kolei, aby ponownie włączyć interfejs.
shutdown
no shutdown Przełącznik można skonfigurować w taki sposób, aby nie wyłączał interfejsu po przekroczeniu określonego progu.
Domyślnie próg wyłącza interfejs.
Przykład 2: CRC
Zwiększanie CRC
fc13/1 is down (Initializing)
Port description is ***
Hardware is Fibre Channel, SFP is long wave laser cost reduced.
5 minutes input rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
5 minutes output rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
162 frames input, 6136 bytes
0 discards, 17 errors
17 CRC, 0 unknown class
0 too long, 17 too short
74 frames output, 6304 bytes
2 discards, 0 errors
108 input OLS, 54 LRR, 2 NOS, 0 loop inits
83 output OLS, 26 LRR, 56 NOS, 0 loop inits
Interface last changed at Tue May 27 08:37:20 2014
Przyczyna ogólna:
Port rejestruje ramkę wprowadzaną do przełącznika ze złym CRC, ale dobrym końcem ramki. Licznik CRC zwiększa się tylko na określonym porcie wejściowym rejestrującym błąd, a wszelkie badania powinny być przeprowadzane na tym łączu fizycznym.
Oczekiwane działania:
Zobacz domyślne działanie w rozwiązaniu.
Wyczyść statystyki portów (wymienione powyżej w punkcie 9) i sprawdź liczniki oraz ponownie pobierz dane po 4–6 godzinach.
Przykład 3: NOS
Sekwencja nieoperacyjna (Non-Operational Sequence, NOS)
show int fc1/1 counters
fc1/1
5 minutes input rate 1753296 bits/sec, 219162 bytes/sec, 199 frames/sec
5 minutes output rate 2310384 bits/sec, 288798 bytes/sec, 194 frames/sec
2741512190 frames input, 2542476084276 bytes
0 class-2 frames, 0 bytes
2741512190 class-3 frames, 2542476084276 bytes
0 class-f frames, 0 bytes
0 discards, 0 errors, 0 CRC
0 unknown class, 0 too long, 0 too short
3410405365 frames output, 5164364339412 bytes
0 class-2 frames, 0 bytes
3410405365 class-3 frames, 5164364339412 bytes
0 class-f frames, 0 bytes
0 discards, 0 errors
1 input OLS, 1 LRR, 0 NOS, 307 loop inits
289 output OLS, 289 LRR, 289 NOS, 289 loop inits
0 link failures, 0 sync losses, 0 signal losses
48276 BB credit transitions from zero
16 receive B2B credit remaining
3 transmit B2B credit remaining
3 low priority transmit B2B credit remaining
Przyczyna ogólna:
Utrata połączenia przed rozpoczęciem negocjacji dotyczących łącza.
Oczekiwane działania:
Sprawdź warstwę 1 (warstwę fizyczną) i urządzenie źródłowe.