Connectrix: Como solucionar problemas de comunicação do nó Fibre Channel com a porta do switch ou SFP por eliminação, autoajuda.

Summary: Este artigo explica como solucionar problemas de comunicação entre o nó Fibre Channel e a porta do switch ou o SFP por meio de eliminação.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Como solucionar problemas de comunicação entre o nó Fibre Channel e a porta do switch ou o SFP por meio de eliminação?

Excesso de substituições proativas de SFP
Falha de link
Porta G
Sem luz
Sequência não operacional (NOS)
Sequência off-line (OLS)
Perda de sinal
SFP com defeito
Solucionar problemas na porta FC
Erros na porta FC

Cause

Muitos SFPs substituídos proativamente enquanto o problema está fora do SFP ou do switch.

Resolution

Para resolver esse problema:

  1. Identifique a porta do nó e do switch envolvida na falha de comunicação.
  2. Verifique se a porta do switch está administrativamente ativa (desbloqueada, sem desligamento) ou ativada.
  3. Antes de continuar, certifique-se de que haja caminhos redundantes disponíveis para o dispositivo conectado.

 

ADVERTÊNCIA: Antes de prosseguir, descubra como o nó reage se receber um novo FCID. Algumas versões do sistema operacional do AIX e do HP-UX não reagem bem a essas alterações, já que o FCID está integrado ao caminho de hardware para o dispositivo de armazenamento. Se você mover o cabo, os dados poderão ficar indisponíveis. Em caso de dúvidas, consulte um engenheiro de suporte técnico da EMC.

 

  1. Para eliminar a possibilidade de o SFP ser o problema, faça o seguinte:
Nota:  Se houver um problema com o SFP, esse procedimento é a maneira mais rápida de colocar o dispositivo on-line novamente.

 

  1. Verifique a porta livre no switch.
  2. Desative a porta livre identificada no switch.
  3. Mova o cabo da porta a ser investigada para a nova porta livre desativada na etapa anterior.
  4. Altere a porta desativada para ativar o estado (ou administrativamente ativa) e colocar o dispositivo on-line novamente.
  5. Limpe/redefina as estatísticas/os contadores para zero no switch.

Para Brocade, consulte o KBA: 

Connectrix Série B Brocade: Como limpar a interface e os contadores ASIC em switches e directors Connectrix Brocade série B 

Para a Cisco, consulte o artigo da base de conhecimento: 

Connectrix - Cisco Série MDS: Como limpar a interface e os contadores ASIC em um MDS

 

  1. Monitore a porta com os respectivos comandos por 4 a 6 horas.

 

RESULTADOS:

  • Se os contadores de erros aumentarem, o problema não está no switch, e o cliente/usuário/administrador da SAN deverá ser aconselhado a:

 

    • A nova porta SFP e o cabo precisam ser limpos. (Para evitar a contaminação de um cabo sujo no SFP, considere usar um kit de limpeza profissional.)
    • O dispositivo conectado deve ser investigado ainda mais pelo técnico de suporte do dispositivo.
    • No switch Cisco, se o estado "errdisabled" voltar sem aumento do contador, um chamado deverá ser aberto para uma investigação mais aprofundada.

 

  • Se os erros não aumentarem (ou se o estado Errdisabled no switch Cisco não voltar), o SFP na porta anterior está com defeito. Abra o chamado para substituição do SFP fornecendo os resultados da análise acima, incluindo as saídas de log, detalhes do SFP (SM ou MM, velocidade e assim por diante)

 

Nota: Você pode realizar o mesmo procedimento a partir da Etapa 6 se tiver substituído o cabo e/ou o dispositivo conectado, verificando os contadores.

 

Additional Information

Nota: Na maioria das vezes, se um transceptor óptico SFP definitivamente falhar, você verá uma falha óptica clara no log de eventos.


Falhas de hardware podem ser facilmente isoladas aplicando um algoritmo simples ao problema. Se não for nessa peça de hardware, então é na outra peça. Faça um loop até isolar a falha apontando para o hardware com problema.


EXEMPLOS DO BROCATE:

Nota: Para obter uma explicação ou descrição dos contadores no porterrshow, consulte o artigo da Base de conhecimento de autoajuda (KBA): (Exemplos destacados abaixo.)
Connectrix Série B: Como interpretar a saída porterrshow do Brocade e o que significam os contadores. Autoajuda



Exemplo 1           ENC OUT com LINK FAIL e LOSS SYNC:

 

porterrshow        :
CURRENT CONTEXT -- 3 , 111
     frames        enc  crc  crc    too   too   bad  enc   disc  link  loss  loss  frjt  fbsy  c3timeout    pcs
     tx     rx     in   err  g_eof  shrt  long  eof  out   c3    fail  sync  sig               tx    rx     err
xx:  849.1k 493.2k 0    0    0      0     0     0    2.3m  0     4     6     0     0     0     0      0     0


Motivo geral:
válido somente se as estatísticas de porta tiverem sido apagadas nas últimas 24 horas. Caso contrário, classifique esses contadores como históricos. Apague as estatísticas da porta (conforme listado anteriormente no ponto 9), verifique os contadores e recupere os dados depois de 4 a 6 horas.

Nos erros, é possível ver os erros link fail e loss of sync, além de enc out, podendo incluir também o erro loss sig.
Essas combinações de erros geralmente indicam uma reinicialização do host ou uma redefinição de link externa ao switch. Os erros enc out são causados durante a negociação de velocidade como parte de uma inicialização de link.

Ações esperadas:
verifique se o dispositivo conectado à porta teve um motivo legítimo para ficar off-line/on-line. Por exemplo, reinicialização do host. Caso contrário, crie um chamado.


Exemplo 2           ENC OUT:

porterrshow        :
CURRENT CONTEXT -- 3 , 111
     frames        enc  crc  crc    too   too   bad  enc   disc  link  loss  loss  frjt  fbsy  c3timeout    pcs
     tx     rx     in   err  g_eof  shrt  long  eof  out   c3    fail  sync  sig               tx    rx     err
xx:  849.1k 493.2k 0    0    0      0     0     0    2.3m  0     0     0     0     0     0     0      0     0


Motivo geral:
válido somente se as estatísticas de porta tiverem sido apagadas nas últimas 24 horas. Caso contrário, classifique esses contadores como históricos. Apague as estatísticas da porta (conforme listado anteriormente no ponto 9), verifique os contadores e recupere os dados depois de 4 a 6 horas.

Os erros enc out sem erros associados indicam cabo sujo.

Ações esperadas:
inspecione e limpe as faces ópticas do cabo e o SFP conectado à essa porta e aos dispositivos acoplados.


Exemplo 3     CRC e CRC G_EOF:

porterrshow        :
CURRENT CONTEXT -- 3 , 111
     frames        enc  crc  crc    too   too   bad  enc   disc  link  loss  loss  frjt  fbsy  c3timeout    pcs
     tx     rx     in   err  g_eof  shrt  long  eof  out   c3    fail  sync  sig               tx    rx     err
xx:  849.1k 493.2k 0    1.2k 1.2k   0     0     0    0     0     0     0     0     0     0     0      0     0


Motivo geral:
válido somente se as estatísticas de porta tiverem sido apagadas nas últimas 24 horas. Caso contrário, classifique esses contadores como históricos. Apague as estatísticas da porta (conforme listado anteriormente no ponto 9), verifique os contadores e recupere os dados depois de 4 a 6 horas.

O quadro está inserido na porta do switch com uma CRC com falha, mas a extremidade do quadro está marcada como funcional.
Isso indica que essa é a primeira porta a registrar o quadro com defeito. Assim o problema está na interface do SFP/cabo/dispositivo acoplado nessa porta específica.

Ações esperadas:
Consulte a ação padrão na resolução.

Em uma porta ISL, limpe as estatísticas (como listado anteriormente no ponto 9), verifique os contadores e recupere os dados depois de 4 a 6 horas, colete o supportsaves de ambos os switches e crie um chamado para solução normal de problemas.

 

Exemplo 4     CRC:

porterrshow        :
CURRENT CONTEXT -- 3 , 111
     frames        enc  crc  crc    too   too   bad  enc   disc  link  loss  loss  frjt  fbsy  c3timeout    pcs
     tx     rx     in   err  g_eof  shrt  long  eof  out   c3    fail  sync  sig               tx    rx     err
xx:  849.1k 493.2k 0    1.2k 0      0     0     0    0     0     0     0     0     0     0     0      0     0


Motivo geral:
válido somente se as estatísticas de porta tiverem sido apagadas nas últimas 24 horas. Caso contrário, classifique esses contadores como históricos. Apague as estatísticas da porta (conforme listado anteriormente no ponto 9), verifique os contadores e recupere os dados depois de 4 a 6 horas.

A porta está registrando um quadro inserido no switch com um quadro CRC com erros, mas o quadro já está marcado como inválido. Normalmente, isso é exibido em portas F ISL e NPIV.

Ações esperadas:
se houver erros de CRC registrados na porta NPIV, investigue o dispositivo mantendo o fornecedor.
No caso de uma porta ISL, verifique todas as portas no fabric para ver se alguma tem registro de crc g_oef e faça como no Exemplo 3.


Exemplo 5     PCS ERR com LINK FAIL e LOSS SYNC:

porterrshow        :
CURRENT CONTEXT -- 3 , 111
     frames        enc  crc  crc    too   too   bad  enc   disc  link  loss  loss  frjt  fbsy  c3timeout    pcs
     tx     rx     in   err  g_eof  shrt  long  eof  out   c3    fail  sync  sig               tx    rx     err
xx:  849.1k 493.2k 0    0    0      0     0     0    0     0     4     4     0     0     0     0      0     466


Motivo geral:
válido somente se as estatísticas de porta tiverem sido apagadas nas últimas 24 horas. Caso contrário, classifique esses contadores como históricos. Apague as estatísticas da porta (conforme listado anteriormente no ponto 9), verifique os contadores e recupere os dados depois de 4 a 6 horas.

Isso é aplicável somente a plataformas com suporte a portas de 10 Gbps ou 16 Gbps e superiores (6505/6510/6520/DCX-8510) e foi introduzido com o Condor3 ASIC, a plataforma de 5ª geração.

ER_PCS_BLK mostra o número de erros de bloco da subcamada de codificação física (PCS). Esse contador é equivalente ao enc_out para o link de 8 Gb/4 Gb e é usado somente com as velocidades de 10 GB e 16 GB e superiores.
Nos erros, é possível ver os erros link fail e loss of sync, além de pcs err, podendo incluir também o erro loss sig.
Essas combinações de erros geralmente indicam uma reinicialização do host ou uma redefinição de link externa ao switch.
Os erros pcs err são causados durante a negociação de velocidade como parte de uma inicialização de link.

Ações esperadas:
verifique se o dispositivo conectado à porta teve um motivo legítimo para ficar off-line/on-line. Por exemplo, reinicialização do host. Caso contrário, abra o chamado.


Exemplo 6     PCS ERR:

porterrshow        :
CURRENT CONTEXT -- 3 , 111
     frames        enc  crc  crc    too   too   bad  enc   disc  link  loss  loss  frjt  fbsy  c3timeout    pcs
     tx     rx     in   err  g_eof  shrt  long  eof  out   c3    fail  sync  sig               tx    rx     err
xx:  849.1k 493.2k 0    0    0      0     0     0    0     0     0     0     0     0     0     0      0     466


Motivo geral:
válido somente se as estatísticas de porta tiverem sido apagadas nas últimas 24 horas. Caso contrário, classifique esses contadores como históricos. Apague as estatísticas da porta (conforme listado anteriormente no ponto 9), verifique os contadores e recupere os dados depois de 4 a 6 horas.

Os erros PCS ERR sem erros associados indicam cabo sujo.

Ações esperadas:
inspecione e limpe as faces ópticas do cabo e o SFP conectado à essa porta e aos dispositivos acoplados.

 


EXEMPLOS CISCO:

exemplo 1    Errdisabled:

Errdisabled: nenhum erro de interface aumentando
 

fc1/1 is down (Error disabled - bit error rate too high)
    Hardware is Fibre Channel, SFP is short wave laser w/o OFC (SN).
    5 minutes input rate 0 bits/sec, 0 bytes/sec, 0 frames/sec
    5 minutes output rate 0 bits/sec, 0 bytes/sec, 0 frames/sec
      179 frames input, 7668 bytes
        0 discards, 0 errors
        0 CRC,  0 unknown class
        0 too long, 0 too short
      23 frames output, 1320 bytes
        0 discards, 0 errors
      1 input OLS, 1 LRR, 0 NOS, 1 loop inits
      2 output OLS, 0 LRR, 0 NOS, 1 loop inits
    Interface last changed at Thu Jun  5 01:51:00 2014

 

Motivo geral:
o estado "Errdisabled" de uma interface pode ser um pouco enganoso, pois os contadores da interface podem estar limpos no front-end e o switch parece desativar a porta com o estado "errdisabled", e os contadores de erro aumentam no back-end (ASIC/internal/linecard).

Ações esperadas:
consulte a ação padrão na resolução. Se ocorrer novamente, colete a saída dos detalhes do suporte técnico e abra o chamado.
 

Nota: Informações sobre o estado "Errdisabled" da Cisco: Os erros de bit podem ocorrer pelos seguintes motivos:
  • Cabo com defeito ou falha
  • SFP com defeito ou falha
  • O SFP é especificado para operar a 1 Gbps, mas é usado a 2 Gbps.
  • O SFP é especificado para operar a 2 Gbps, mas é usado a 4 Gbps.
  • O cabo de curta distância é usado para longa distância, ou o cabo de longa distância é usado para a curta distância.
  • Perda momentânea de sincronização
  • Conexão de cabo solta em uma ou ambas as extremidades
  • Conexão SFP inadequada em uma ou ambas as extremidades


Um limite de taxa de erro de bits é detectado quando ocorrem 15 picos de erro em um período de 5 minutos. Por padrão, o switch desativa a interface quando o limite é atingido. Você pode digitar os comandos abaixo em sequência para reativar a interface.

shutdown
no shutdown
Você pode configurar o switch para não desativar uma interface quando o limite for ultrapassado.


Por padrão, o limite desabilita a interface.


Exemplo 2:   CRC

Incremento de CRCs
 

fc13/1 is down (Initializing)
    Port description is ***
    Hardware is Fibre Channel, SFP is long wave laser cost reduced.
    5 minutes input rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
    5 minutes output rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
      162 frames input, 6136 bytes
        0 discards, 17 errors
        17 CRC,  0 unknown class
        0 too long, 17 too short
      74 frames output, 6304 bytes
        2 discards, 0 errors
      108 input OLS, 54 LRR, 2 NOS, 0 loop inits
      83 output OLS, 26 LRR, 56 NOS, 0 loop inits
    Interface last changed at Tue May 27 08:37:20 2014


Motivo geral:

A porta está gravando um quadro entrando no switch com um CRC defeituoso, mas com um end-of-frame bom. O contador de CRC só incrementa na porta de entrada específica registrando o erro e quaisquer investigações devem ser feitas nesse link físico.

Ações esperadas:
consulte a ação padrão na resolução.

Limpe as estatísticas de porta (conforme listado acima no ponto 9) e verifique os contadores e retome os dados após 4-6 horas.

 

Exemplo 3: NOS

Sequência não operacional (NOS)

show int fc1/1 counters
fc1/1
    5 minutes input rate 1753296 bits/sec, 219162 bytes/sec, 199 frames/sec
    5 minutes output rate 2310384 bits/sec, 288798 bytes/sec, 194 frames/sec
    2741512190 frames input, 2542476084276 bytes
      0 class-2 frames, 0 bytes
      2741512190 class-3 frames, 2542476084276 bytes
      0 class-f frames, 0 bytes
      0 discards, 0 errors, 0 CRC
      0 unknown class, 0 too long, 0 too short
    3410405365 frames output, 5164364339412 bytes
      0 class-2 frames, 0 bytes
      3410405365 class-3 frames, 5164364339412 bytes
      0 class-f frames, 0 bytes
      0 discards, 0 errors
    1 input OLS, 1 LRR, 0 NOS, 307 loop inits
    289 output OLS, 289 LRR, 289 NOS, 289 loop inits
    0 link failures, 0 sync losses, 0 signal losses
     48276 BB credit transitions from zero
      16 receive B2B credit remaining
      3 transmit B2B credit remaining
      3 low priority transmit B2B credit remaining

 

Motivo geral:

Perda de conexão antes das negociações de link.


Ações esperadas:
verifique a camada 1 (camada física) e o dispositivo de origem.

Affected Products

Connectrix

Products

Connectrix, Connectrix B-Series Hardware, Connectrix MDS-Series Hardware
Article Properties
Article Number: 000028863
Article Type: Solution
Last Modified: 29 Jul 2025
Version:  9
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.