Connectrix: come risolvere i problemi di comunicazione tra nodo Fibre Channel e porta dello switch o SFP mediante eliminazione. Supporto in autonomia (in inglese)
Summary: Questo articolo spiega come risolvere i problemi relativi al nodo Fibre Channel nella porta dello switch o i problemi di comunicazione SFP tramite eliminazione.
Symptoms
Come risolvere i problemi relativi al nodo Fibre Channel nella porta dello switch o i problemi di comunicazione SFP tramite eliminazione?
Troppe sostituzioni SFP proattive
Errore di collegamento
Porta G
Nessuna indicazione visiva
Not Operational Sequence (NOS)
Off Line Sequence (OLS)
Perdita di segnale
SFP guasto
Risoluzione dei problemi sulla porta FC
Errori sulla porta FC
Cause
Troppi SFP sostituiti in modo proattivo mentre il problema si trova al di fuori dell'SFP o dello switch.
Resolution
Per risolvere il problema:
- Identificare il nodo e la porta dello switch coinvolti nell'errore di comunicazione.
- Verificare che la porta dello switch sia attiva a livello amministrativo (sbloccata, non chiusa) o abilitata.
- Assicurarsi che siano disponibili percorsi ridondanti per il dispositivo collegato prima di procedere.
- Per escludere l'SFP dal problema, procedere come segue:
- Individuare la porta libera sullo switch.
- Disabilitare la porta libera identificata sullo switch.
- Spostare il cavo dalla porta da esaminare alla nuova porta libera disabilitata nel passaggio precedente.
- Modificare la porta disabilitata allo stato abilitato (o attivo a livello amministrativo) e riportare il dispositivo online.
- Cancellare/azzerare le statistiche e i contatori sullo switch.
Per Brocade, consultare l'articolo della KB:
Per Cisco, consultare l'articolo della KB:
Connectrix - MDS-Series Cisco: come azzerare i contatori di interfaccia e ASIC su MDS (in inglese)
- Monitorare la porta con i rispettivi comandi per 4-6 ore.
RISULTATI:
- Se i contatori di errore aumentano, il problema si trova all'esterno dello switch ed è necessario consigliare al cliente/utente/amministratore SAN quanto riportato di seguito:
-
- L'SFP e il cavo della nuova porta richiedono pulizia. Per evitare contaminazioni sull'SFP di un cavo sporco, prendere in considerazione l'utilizzo di un kit di pulizia professionale.
- Il dispositivo collegato deve essere analizzato ulteriormente da chiunque lo supporti.
- Sullo switch Cisco, se lo stato "errdisabled" viene nuovamente visualizzato senza alcun incremento dei contatori, è necessario aprire una SR per ulteriori indagini sul back-end.
- Se gli errori non aumentano (o lo stato Errdisabled sullo switch Cisco non si ripresenta), l'SFP sulla porta precedente è difettoso: aprire una SR per la sostituzione dell'SFP fornendo i risultati dell'analisi sopra riportati, tra cui gli output di registro e i dettagli dell'SFP (SM o MM, velocità e così via)
Additional Information
I guasti hardware possono essere facilmente isolati applicando un semplice algoritmo al problema; se non si tratta di questo componente hardware, il problema riguardo l'altro. Eseguire un loop fino a isolare l'errore che indica l'hardware problematico.
ESEMPI DI BROCADE:
Connectrix - B-Series: come interpretare l'output di porterrshow di Brocade e cosa significano i contatori. Supporto in autonomia
Esempio 1 ENC OUT con LINK FAIL e LOSS SYNC:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 2.3m 0 4 6 0 0 0 0 0 0
Motivo generico:
Valido solo se le statistiche sulle porte sono state cancellate nelle ultime 24 ore. In caso contrario, classificare questi contatori come storici. Cancellare le statistiche sulle porte (come elencato in precedenza al punto 9), controllare i contatori e riacquisire i dati dopo 4-6 ore.
Dagli errori, è possibile vedere l'errore link fail e l'errore loss of sync oltre a enc out, che possono anche comprendere un errore loss sig.
Queste combinazioni di errori in genere indicano un riavvio dell'host o un ripristino del collegamento esterno allo switch. Gli errori enc out si verificano durante la negoziazione della velocità come parte dell'inizializzazione del collegamento.
Azioni previste:
Verificare che il dispositivo collegato alla porta abbia un motivo legittimo per passare offline e/oppure online, ad esempio, il riavvio dell'host. In caso contrario, aprire una SR.
Esempio 2 ENC OUT:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 2.3m 0 0 0 0 0 0 0 0 0
Motivo generico:
Valido solo se le statistiche sulle porte sono state cancellate nelle ultime 24 ore. In caso contrario, classificare questi contatori come storici. Cancellare le statistiche sulle porte (come elencato in precedenza al punto 9), controllare i contatori e riacquisire i dati dopo 4-6 ore.
Gli errori enc out senza eventuali errori associati indicano un cavo sporco.
Azioni previste:
Controllare e pulire tutte le superfici ottiche sul cavo e sull'SFP collegati a questa porta e ai dispositivi collegati.
Esempio 3 CRC e CRC G_EOF:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 1.2k 1.2k 0 0 0 0 0 0 0 0 0 0 0 0 0
Motivo generico:
Valido solo se le statistiche sulle porte sono state cancellate nelle ultime 24 ore. In caso contrario, classificare questi contatori come storici. Cancellare le statistiche sulle porte (come elencato in precedenza al punto 9), controllare i puntatori e riacquisire i dati dopo 4-6 ore.
Il frame accede alla porta dello switch con un CRC errato, ma con l'estremità del frame ancora contrassegnata come corretta.
Ciò indica che questa è la prima porta a registrare il frame errato, quindi il problema è rappresentato da SFP/cavo/interfaccia del dispositivo collegato su questa porta specifica.
Azioni previste:
Vedere l'azione predefinita nella risoluzione.
Per una porta ISL, cancellare le statistiche (come elencato in precedenza al punto 9), controllare i contatori e riacquisire i dati dopo 4-6, quindi raccogliere supportsave da entrambi gli switch e aprire una SR per la normale risoluzione dei problemi.
Esempio 4 CRC:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 1.2k 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Motivo generico:
Valido solo se le statistiche sulle porte sono state cancellate nelle ultime 24 ore. In caso contrario, classificare questi contatori come storici. Cancellare le statistiche sulle porte (come elencato in precedenza al punto 9), controllare i contatori e riacquisire i dati dopo 4-6 ore.
La porta registra un frame che entra nello switch con un frame CRC errato, ma con il frame già contrassegnato come errato. Normalmente, questo si verifica su porte ISL e NPIV F.
Azioni previste:
Se gli errori CRC vengono registrati sulla porta NPIV, fare esaminare il dispositivo dal fornitore di manutenzione.
Per una porta ISL, controllare nella fabric la presenza di eventuali porte che registrino crc g_oef e azioni come nell'esempio 3.
Esempio 5 PCS ERR con LINK FAIL e LOSS SYNC:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 0 0 4 4 0 0 0 0 0 466
Motivo generico:
Valido solo se le statistiche sulle porte sono state cancellate nelle ultime 24 ore. In caso contrario, classificare questi contatori come storici. Cancellare le statistiche sulle porte (come elencato in precedenza al punto 9), controllare i contatori e riacquisire i dati dopo 4-6 ore.
Questo vale solo per le piattaforme che supportano porte da 10 Gb/s o 16 Gb/s e velocità superiori (6505/6510/6520/DCX-8510) ed è stato introdotto con Condor3 ASIC, la piattaforma GEN5.
ER_PCS_BLK mostra il numero di errori di blocco Physical Coding Sublayer (PCS). Questo contatore equivale a enc_out per un collegamento da 8 Gb/4 Gb e viene utilizzato solo per la velocità di 10 GB e 16 Gb e velocità superiori.
Dagli errori, possiamo vedere errori link fail e loss of sync oltre a errori pcs err, che possono anche includere errori loss sig.
Queste combinazioni di errori in genere indicano un riavvio dell'host o il ripristino del collegamento esterno allo switch.
Gli errori pcs err si verificano durante la negoziazione della velocità come parte dell'inizializzazione del collegamento.
Azioni previste:
Verificare che il dispositivo collegato alla porta abbia un motivo legittimo per passare offline e/oppure online, ad esempio, il riavvio dell'host. In caso contrario, aprire una SR.
Esempio 6 PCS ERR:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 466
Motivo generico:
Valido solo se le statistiche sulle porte sono state cancellate nelle ultime 24 ore. In caso contrario, classificare questi contatori come storici. Cancellare le statistiche sulle porte (come elencato in precedenza al punto 9), controllare i contatori e riacquisire i dati dopo 4-6 ore.
Gli errori PSC ERR senza eventuali errori associati indicano un cavo sporco.
Azioni previste:
Controllare e pulire tutte le superfici ottiche sul cavo e sull'SFP collegati a questa porta e ai dispositivi collegati.
ESEMPI CISCO:
Esempio 1 Errdisabled:
Errdisabled: nessun incremento degli errori di interfaccia
fc1/1 is down (Error disabled - bit error rate too high) Hardware is Fibre Channel, SFP is short wave laser w/o OFC (SN). 5 minutes input rate 0 bits/sec, 0 bytes/sec, 0 frames/sec 5 minutes output rate 0 bits/sec, 0 bytes/sec, 0 frames/sec 179 frames input, 7668 bytes 0 discards, 0 errors 0 CRC, 0 unknown class 0 too long, 0 too short 23 frames output, 1320 bytes 0 discards, 0 errors 1 input OLS, 1 LRR, 0 NOS, 1 loop inits 2 output OLS, 0 LRR, 0 NOS, 1 loop inits Interface last changed at Thu Jun 5 01:51:00 2014
Motivo generale:
Lo stato "Errdisabled" di un'interfaccia può essere a tratti fuorviante, in quanto i contatori dell'interfaccia possono essere puliti sul front-end, lo switch sembra inattivo nella porta con stato "Errdisabled" e i contatori di errore aumentano sul back-end (ASIC/interno/scheda di linea).
Azioni previste:
Vedere l'azione predefinita nella risoluzione. Se si verifica nuovamente, raccogliere l'output dei dettagli del supporto tecnico e aprire una SR.
- Cavo difettoso o di cattiva qualità
- SFP guasto o non valido
- L'SFP è specificato per il funzionamento a 1 Gb/s, ma viene utilizzato a 2 Gb/s.
- L'SFP è specificato per il funzionamento a 2 Gb/s, ma viene utilizzato a 4 Gb/s.
- Il cavo a breve distanza viene utilizzato per lunghe distanze e viceversa.
- Perdita momentanea di sincronizzazione
- Collegamento del cavo allentato su una o entrambe le estremità
- Connessione SFP errata su una o entrambe le estremità
Viene rilevata una soglia del tasso di errore bit quando si verificano 15 burst di errore in un periodo di 5 minuti. Per impostazione predefinita, lo switch disabilita l'interfaccia quando viene raggiunta la soglia. È possibile inserire i comandi riportati di seguito in sequenza per riabilitare l'interfaccia.
shutdown
no shutdown È possibile configurare lo switch in modo da non disabilitare un'interfaccia quando la soglia viene superata.
Per impostazione predefinita, la soglia disabilita l'interfaccia.
Esempio 2: CRC
Incremento di CRC
fc13/1 is down (Initializing)
Port description is ***
Hardware is Fibre Channel, SFP is long wave laser cost reduced.
5 minutes input rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
5 minutes output rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
162 frames input, 6136 bytes
0 discards, 17 errors
17 CRC, 0 unknown class
0 too long, 17 too short
74 frames output, 6304 bytes
2 discards, 0 errors
108 input OLS, 54 LRR, 2 NOS, 0 loop inits
83 output OLS, 26 LRR, 56 NOS, 0 loop inits
Interface last changed at Tue May 27 08:37:20 2014
Motivo genico:
La porta sta registrando un frame che entra nello switch con un CRC difettoso, ma un'estremità del frame valida. Il contatore di CRC aumenta solo sulla porta di ingresso specifica registrando l'errore ed eventuali indagini devono essere eseguite su questo collegamento fisico.
Azioni previste:
Vedere l'azione predefinita nella risoluzione.
Cancellare le statistiche delle porte (come elencato in precedenza al punto 9), controllare i contatori e riacquisire i dati dopo 4-6 ore.
Esempio 3: NOS
Non-Operational Sequence (NOS)
show int fc1/1 counters
fc1/1
5 minutes input rate 1753296 bits/sec, 219162 bytes/sec, 199 frames/sec
5 minutes output rate 2310384 bits/sec, 288798 bytes/sec, 194 frames/sec
2741512190 frames input, 2542476084276 bytes
0 class-2 frames, 0 bytes
2741512190 class-3 frames, 2542476084276 bytes
0 class-f frames, 0 bytes
0 discards, 0 errors, 0 CRC
0 unknown class, 0 too long, 0 too short
3410405365 frames output, 5164364339412 bytes
0 class-2 frames, 0 bytes
3410405365 class-3 frames, 5164364339412 bytes
0 class-f frames, 0 bytes
0 discards, 0 errors
1 input OLS, 1 LRR, 0 NOS, 307 loop inits
289 output OLS, 289 LRR, 289 NOS, 289 loop inits
0 link failures, 0 sync losses, 0 signal losses
48276 BB credit transitions from zero
16 receive B2B credit remaining
3 transmit B2B credit remaining
3 low priority transmit B2B credit remaining
Motivo genico:
Perdita di connessione prima delle negoziazioni di collegamento.
Azioni previste:
Controllare il livello 1 (livello fisico) e il dispositivo di origine.