Connectrix: Como solucionar problemas de comunicação do nó Fibre Channel com a porta do switch ou SFP por eliminação, autoajuda.
Summary: Este artigo explica como solucionar problemas de comunicação entre o nó Fibre Channel e a porta do switch ou o SFP por meio de eliminação.
Symptoms
Como solucionar problemas de comunicação entre o nó Fibre Channel e a porta do switch ou o SFP por meio de eliminação?
Excesso de substituições proativas de SFP
Falha de link
Porta G
Sem luz
Sequência não operacional (NOS)
Sequência off-line (OLS)
Perda de sinal
SFP com defeito
Solucionar problemas na porta FC
Erros na porta FC
Cause
Muitos SFPs substituídos proativamente enquanto o problema está fora do SFP ou do switch.
Resolution
Para resolver esse problema:
- Identifique a porta do nó e do switch envolvida na falha de comunicação.
- Verifique se a porta do switch está administrativamente ativa (desbloqueada, sem desligamento) ou ativada.
- Antes de continuar, certifique-se de que haja caminhos redundantes disponíveis para o dispositivo conectado.
- Para eliminar a possibilidade de o SFP ser o problema, faça o seguinte:
- Verifique a porta livre no switch.
- Desative a porta livre identificada no switch.
- Mova o cabo da porta a ser investigada para a nova porta livre desativada na etapa anterior.
- Altere a porta desativada para ativar o estado (ou administrativamente ativa) e colocar o dispositivo on-line novamente.
- Limpe/redefina as estatísticas/os contadores para zero no switch.
Para Brocade, consulte o KBA:
Para a Cisco, consulte o artigo da base de conhecimento:
Connectrix - Cisco Série MDS: Como limpar a interface e os contadores ASIC em um MDS
- Monitore a porta com os respectivos comandos por 4 a 6 horas.
RESULTADOS:
- Se os contadores de erros aumentarem, o problema não está no switch, e o cliente/usuário/administrador da SAN deverá ser aconselhado a:
-
- A nova porta SFP e o cabo precisam ser limpos. (Para evitar a contaminação de um cabo sujo no SFP, considere usar um kit de limpeza profissional.)
- O dispositivo conectado deve ser investigado ainda mais pelo técnico de suporte do dispositivo.
- No switch Cisco, se o estado "errdisabled" voltar sem aumento do contador, um chamado deverá ser aberto para uma investigação mais aprofundada.
- Se os erros não aumentarem (ou se o estado Errdisabled no switch Cisco não voltar), o SFP na porta anterior está com defeito. Abra o chamado para substituição do SFP fornecendo os resultados da análise acima, incluindo as saídas de log, detalhes do SFP (SM ou MM, velocidade e assim por diante)
Additional Information
Falhas de hardware podem ser facilmente isoladas aplicando um algoritmo simples ao problema. Se não for nessa peça de hardware, então é na outra peça. Faça um loop até isolar a falha apontando para o hardware com problema.
EXEMPLOS DO BROCATE:
Connectrix Série B: Como interpretar a saída porterrshow do Brocade e o que significam os contadores. Autoajuda
Exemplo 1 ENC OUT com LINK FAIL e LOSS SYNC:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 2.3m 0 4 6 0 0 0 0 0 0
Motivo geral:
válido somente se as estatísticas de porta tiverem sido apagadas nas últimas 24 horas. Caso contrário, classifique esses contadores como históricos. Apague as estatísticas da porta (conforme listado anteriormente no ponto 9), verifique os contadores e recupere os dados depois de 4 a 6 horas.
Nos erros, é possível ver os erros link fail e loss of sync, além de enc out, podendo incluir também o erro loss sig.
Essas combinações de erros geralmente indicam uma reinicialização do host ou uma redefinição de link externa ao switch. Os erros enc out são causados durante a negociação de velocidade como parte de uma inicialização de link.
Ações esperadas:
verifique se o dispositivo conectado à porta teve um motivo legítimo para ficar off-line/on-line. Por exemplo, reinicialização do host. Caso contrário, crie um chamado.
Exemplo 2 ENC OUT:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 2.3m 0 0 0 0 0 0 0 0 0
Motivo geral:
válido somente se as estatísticas de porta tiverem sido apagadas nas últimas 24 horas. Caso contrário, classifique esses contadores como históricos. Apague as estatísticas da porta (conforme listado anteriormente no ponto 9), verifique os contadores e recupere os dados depois de 4 a 6 horas.
Os erros enc out sem erros associados indicam cabo sujo.
Ações esperadas:
inspecione e limpe as faces ópticas do cabo e o SFP conectado à essa porta e aos dispositivos acoplados.
Exemplo 3 CRC e CRC G_EOF:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 1.2k 1.2k 0 0 0 0 0 0 0 0 0 0 0 0 0
Motivo geral:
válido somente se as estatísticas de porta tiverem sido apagadas nas últimas 24 horas. Caso contrário, classifique esses contadores como históricos. Apague as estatísticas da porta (conforme listado anteriormente no ponto 9), verifique os contadores e recupere os dados depois de 4 a 6 horas.
O quadro está inserido na porta do switch com uma CRC com falha, mas a extremidade do quadro está marcada como funcional.
Isso indica que essa é a primeira porta a registrar o quadro com defeito. Assim o problema está na interface do SFP/cabo/dispositivo acoplado nessa porta específica.
Ações esperadas:
Consulte a ação padrão na resolução.
Em uma porta ISL, limpe as estatísticas (como listado anteriormente no ponto 9), verifique os contadores e recupere os dados depois de 4 a 6 horas, colete o supportsaves de ambos os switches e crie um chamado para solução normal de problemas.
Exemplo 4 CRC:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 1.2k 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Motivo geral:
válido somente se as estatísticas de porta tiverem sido apagadas nas últimas 24 horas. Caso contrário, classifique esses contadores como históricos. Apague as estatísticas da porta (conforme listado anteriormente no ponto 9), verifique os contadores e recupere os dados depois de 4 a 6 horas.
A porta está registrando um quadro inserido no switch com um quadro CRC com erros, mas o quadro já está marcado como inválido. Normalmente, isso é exibido em portas F ISL e NPIV.
Ações esperadas:
se houver erros de CRC registrados na porta NPIV, investigue o dispositivo mantendo o fornecedor.
No caso de uma porta ISL, verifique todas as portas no fabric para ver se alguma tem registro de crc g_oef e faça como no Exemplo 3.
Exemplo 5 PCS ERR com LINK FAIL e LOSS SYNC:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 0 0 4 4 0 0 0 0 0 466
Motivo geral:
válido somente se as estatísticas de porta tiverem sido apagadas nas últimas 24 horas. Caso contrário, classifique esses contadores como históricos. Apague as estatísticas da porta (conforme listado anteriormente no ponto 9), verifique os contadores e recupere os dados depois de 4 a 6 horas.
Isso é aplicável somente a plataformas com suporte a portas de 10 Gbps ou 16 Gbps e superiores (6505/6510/6520/DCX-8510) e foi introduzido com o Condor3 ASIC, a plataforma de 5ª geração.
ER_PCS_BLK mostra o número de erros de bloco da subcamada de codificação física (PCS). Esse contador é equivalente ao enc_out para o link de 8 Gb/4 Gb e é usado somente com as velocidades de 10 GB e 16 GB e superiores.
Nos erros, é possível ver os erros link fail e loss of sync, além de pcs err, podendo incluir também o erro loss sig.
Essas combinações de erros geralmente indicam uma reinicialização do host ou uma redefinição de link externa ao switch.
Os erros pcs err são causados durante a negociação de velocidade como parte de uma inicialização de link.
Ações esperadas:
verifique se o dispositivo conectado à porta teve um motivo legítimo para ficar off-line/on-line. Por exemplo, reinicialização do host. Caso contrário, abra o chamado.
Exemplo 6 PCS ERR:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 466
Motivo geral:
válido somente se as estatísticas de porta tiverem sido apagadas nas últimas 24 horas. Caso contrário, classifique esses contadores como históricos. Apague as estatísticas da porta (conforme listado anteriormente no ponto 9), verifique os contadores e recupere os dados depois de 4 a 6 horas.
Os erros PCS ERR sem erros associados indicam cabo sujo.
Ações esperadas:
inspecione e limpe as faces ópticas do cabo e o SFP conectado à essa porta e aos dispositivos acoplados.
EXEMPLOS CISCO:
exemplo 1 Errdisabled:
Errdisabled: nenhum erro de interface aumentando
fc1/1 is down (Error disabled - bit error rate too high) Hardware is Fibre Channel, SFP is short wave laser w/o OFC (SN). 5 minutes input rate 0 bits/sec, 0 bytes/sec, 0 frames/sec 5 minutes output rate 0 bits/sec, 0 bytes/sec, 0 frames/sec 179 frames input, 7668 bytes 0 discards, 0 errors 0 CRC, 0 unknown class 0 too long, 0 too short 23 frames output, 1320 bytes 0 discards, 0 errors 1 input OLS, 1 LRR, 0 NOS, 1 loop inits 2 output OLS, 0 LRR, 0 NOS, 1 loop inits Interface last changed at Thu Jun 5 01:51:00 2014
Motivo geral:
o estado "Errdisabled" de uma interface pode ser um pouco enganoso, pois os contadores da interface podem estar limpos no front-end e o switch parece desativar a porta com o estado "errdisabled", e os contadores de erro aumentam no back-end (ASIC/internal/linecard).
Ações esperadas:
consulte a ação padrão na resolução. Se ocorrer novamente, colete a saída dos detalhes do suporte técnico e abra o chamado.
- Cabo com defeito ou falha
- SFP com defeito ou falha
- O SFP é especificado para operar a 1 Gbps, mas é usado a 2 Gbps.
- O SFP é especificado para operar a 2 Gbps, mas é usado a 4 Gbps.
- O cabo de curta distância é usado para longa distância, ou o cabo de longa distância é usado para a curta distância.
- Perda momentânea de sincronização
- Conexão de cabo solta em uma ou ambas as extremidades
- Conexão SFP inadequada em uma ou ambas as extremidades
Um limite de taxa de erro de bits é detectado quando ocorrem 15 picos de erro em um período de 5 minutos. Por padrão, o switch desativa a interface quando o limite é atingido. Você pode digitar os comandos abaixo em sequência para reativar a interface.
shutdown
no shutdown Você pode configurar o switch para não desativar uma interface quando o limite for ultrapassado.
Por padrão, o limite desabilita a interface.
Exemplo 2: CRC
Incremento de CRCs
fc13/1 is down (Initializing)
Port description is ***
Hardware is Fibre Channel, SFP is long wave laser cost reduced.
5 minutes input rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
5 minutes output rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
162 frames input, 6136 bytes
0 discards, 17 errors
17 CRC, 0 unknown class
0 too long, 17 too short
74 frames output, 6304 bytes
2 discards, 0 errors
108 input OLS, 54 LRR, 2 NOS, 0 loop inits
83 output OLS, 26 LRR, 56 NOS, 0 loop inits
Interface last changed at Tue May 27 08:37:20 2014
Motivo geral:
A porta está gravando um quadro entrando no switch com um CRC defeituoso, mas com um end-of-frame bom. O contador de CRC só incrementa na porta de entrada específica registrando o erro e quaisquer investigações devem ser feitas nesse link físico.
Ações esperadas:
consulte a ação padrão na resolução.
Limpe as estatísticas de porta (conforme listado acima no ponto 9) e verifique os contadores e retome os dados após 4-6 horas.
Exemplo 3: NOS
Sequência não operacional (NOS)
show int fc1/1 counters
fc1/1
5 minutes input rate 1753296 bits/sec, 219162 bytes/sec, 199 frames/sec
5 minutes output rate 2310384 bits/sec, 288798 bytes/sec, 194 frames/sec
2741512190 frames input, 2542476084276 bytes
0 class-2 frames, 0 bytes
2741512190 class-3 frames, 2542476084276 bytes
0 class-f frames, 0 bytes
0 discards, 0 errors, 0 CRC
0 unknown class, 0 too long, 0 too short
3410405365 frames output, 5164364339412 bytes
0 class-2 frames, 0 bytes
3410405365 class-3 frames, 5164364339412 bytes
0 class-f frames, 0 bytes
0 discards, 0 errors
1 input OLS, 1 LRR, 0 NOS, 307 loop inits
289 output OLS, 289 LRR, 289 NOS, 289 loop inits
0 link failures, 0 sync losses, 0 signal losses
48276 BB credit transitions from zero
16 receive B2B credit remaining
3 transmit B2B credit remaining
3 low priority transmit B2B credit remaining
Motivo geral:
Perda de conexão antes das negociações de link.
Ações esperadas:
verifique a camada 1 (camada física) e o dispositivo de origem.