Connectrix: Cómo se soluciona el problema del nodo de Fibre Channel al puerto del switch o los problemas de comunicación de SFP mediante eliminación: recurso de autoayuda.
Summary: En este artículo, se explica cómo se soluciona el problema del nodo de Fibre Channel al puerto del switch o los problemas de comunicación del SFP mediante eliminación.
Symptoms
Cómo se soluciona el problema del nodo de Fibre Channel al puerto del switch o los problemas de comunicación del SFP mediante eliminación.
Demasiados reemplazos proactivos del SFP
Falla de enlace
Puerto G
Sin luz
Secuencia no operativa (NOS)
Secuencia fuera de línea (OLS)
Pérdida de señal
SFP defectuoso
Solucionar problemas en el puerto FC
Errores en el puerto FC
Cause
Se reemplazaron proactivamente demasiados SFP mientras el problema se presenta fuera del SFP o switch.
Resolution
Para resolver este problema:
- Identifique el nodo y el puerto del switch involucrados en la falla de comunicación.
- Verifique que el puerto del switch esté activo administrativamente (desbloqueado, no cerrado) o habilitado.
- Asegúrese de que haya rutas redundantes disponibles para el dispositivo conectado antes de continuar.
- Para eliminar el SFP problemático, realice lo siguiente:
- Compruebe el puerto libre en el switch.
- Deshabilite el puerto libre identificado en el switch.
- Mueva el cable del puerto que se investigará al nuevo puerto libre deshabilitado en el paso anterior.
- Cambie el puerto deshabilitado para habilitar el estado (o activar administrativamente) y volver a poner el dispositivo en línea.
- Borre o restablezca a cero las estadísticas o contadores en el switch.
Para Brocade, consulte este artículo de la base de conocimientos:
Para Cisco, consulte este artículo de la base de conocimientos:
Connectrix serie MDS (Cisco): Cómo borrar la interfaz y los contadores ASIC en un MDS
- Monitoree el puerto con los comandos respectivos durante 4 a 6 horas.
RESULTADOS:
- Si los contadores de errores aumentan, el problema se encuentra fuera del switch y se debe informar al cliente/usuario/administrador de SAN lo siguiente:
-
- Es necesario limpiar el cable y el SFP del nuevo puerto. (Para evitar la contaminación en el SFP de un cable sucio, considere el uso de un kit de limpieza profesional).
- El dispositivo conectado debe ser investigado más a fondo por quienquiera que brinde soporte al dispositivo.
- En el switch Cisco, si el estado "errdisabled" vuelve sin un incremento del contador, se debe abrir una SR para seguir investigando el back-end.
- Si los errores no aumentan (o el estado Errdisabled en el switch Cisco no vuelve), el SFP en el puerto anterior está defectuoso; genere una SR para reemplazar el SFP y proporcione los resultados del análisis anterior, incluidos los resultados del registro y los detalles del SFP (SM o MM, velocidad, etc.).
Additional Information
Las fallas de hardware se pueden aislar fácilmente aplicando un algoritmo simple al problema: si no es esta pieza de hardware, entonces es la otra pieza. Ejecute en bucle hasta aislar la falla que apunta al hardware con problemas.
EJEMPLOS DE BROCADE:
Connectrix serie B: Cómo interpretar el resultado de porterrshow de Brocade y qué significan los contadores. Autoayuda
Ejemplo 1 ENC OUT con LINK FAIL y LOSS SYNC:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 2.3m 0 4 6 0 0 0 0 0 0
Motivo general:
Válido únicamente si se borraron las estadísticas de puertos en las últimas 24 horas. De lo contrario, clasifique estos contadores como históricos. Borre las estadísticas de puertos (según se indica en el Punto 9 anteriormente), verifique los contadores y vuelva a tomar los datos después de 4 a 6 horas.
Entre los errores, se pueden ver link fail y loss of sync, ADEMÁS DE enc out; estos también pueden incluir el error loss sig.
Por lo general, estas combinaciones de errores indican un reinicio de host o un restablecimiento de enlace externo al switch. Los errores enc out se producen durante la negociación de velocidad como parte de una inicialización de enlace.
Acciones previstas:
Verifique que el dispositivo conectado al puerto tenga un motivo legítimo para entrar offline o en línea. Por ejemplo, reiniciar el host. Si no es así, genere una SR.
Ejemplo 2 ENC OUT:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 2.3m 0 0 0 0 0 0 0 0 0
Motivo general:
Válido únicamente si se borraron las estadísticas de puertos en las últimas 24 horas. De lo contrario, clasifique estos contadores como históricos. Borre las estadísticas de puertos (según se indica en el Punto 9 anteriormente), verifique los contadores y vuelva a tomar los datos después de 4 a 6 horas.
Los errores enc out sin errores asociados indican que hay un cable sucio.
Acciones previstas:
Inspeccione y limpie todas las superficies ópticas del cable y el SFP conectado a este puerto y a los dispositivos conectados.
Ejemplo 3 CRC y CRC G_EOF:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 1.2k 1.2k 0 0 0 0 0 0 0 0 0 0 0 0 0
Motivo general:
Válido únicamente si se borraron las estadísticas de puertos en las últimas 24 horas. De lo contrario, clasifique estos contadores como históricos. Borre las estadísticas de los puertos (según se indica en el Punto 9 anteriormente), verifique los contadores y vuelva a tomar los datos después de 4 a 6 horas.
La trama ingresa al puerto del switch con una CRC incorrecta, pero el extremo de la trama se marca como correcto de todos modos.
Esto indica que este es el primer puerto en registrar la trama incorrecta, por lo que el problema es la interfaz de SFP/cable/dispositivo conectado en este puerto específico.
Acciones revistas:
Consulte la acción predeterminada en la resolución.
En el caso de un puerto ISL, borre las estadísticas (según se indica en el Punto 9 anteriormente), verifique los contadores, vuelva a tomar los datos después de 4 a 6 horas, recopile supportsaves de ambos switches y abra una SR para la solución de problemas normal.
Ejemplo 4 CRC:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 1.2k 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Motivo general:
Válido únicamente si se borraron las estadísticas de puertos en las últimas 24 horas. De lo contrario, clasifique estos contadores como históricos. Borre las estadísticas de puertos (según se indica en el Punto 9 anteriormente), verifique los contadores y vuelva a tomar los datos después de 4 a 6 horas.
El puerto registra una trama que ingresa al switch con una trama de CRC incorrecta, pero con la trama ya marcada como incorrecta. Normalmente, esto se observa en los puertos F ISL y NPIV.
Acciones previstas:
Si se registran errores CRC en el puerto NPIV, haga que el proveedor de mantenimiento investigue el dispositivo.
Para un puerto ISL, verifique todos los puertos del fabric en busca de algún puerto que registre crc g_oef y acción, como en el Ejemplo 3.
Ejemplo 5 PCS ERR con LINK FAIL y LOSS SYNC:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 0 0 4 4 0 0 0 0 0 466
Motivo general:
Válido únicamente si se borraron las estadísticas de puertos en las últimas 24 horas. De lo contrario, clasifique estos contadores como históricos. Borre las estadísticas de puertos (según se indica en el Punto 9 anteriormente) y vuelva a tomar los datos después de 4 a 6 horas.
Esto se aplica solo a las plataformas que soportan puertos de 10 Gbps o 16 Gbps y superiores (6505/6510/6520/DCX-8510), y se introdujeron con Condor3 ASIC, la plataforma de GEN5.
ER_PCS_BLK muestra la cantidad de errores de bloque de la subcapa de codificación física (PCS). Este contador es el equivalente de enc_out para el enlace de 8 Gb/4 Gb y se utiliza solo para velocidades de 10 GB y 16 GB.
Entre los errores, se pueden ver link fail y loss sync más pcs err; estos también pueden incluir el error loss sig.
Por lo general, estas combinaciones de errores indican un reinicio de host o un restablecimiento de enlace externo al switch.
Los errores pcs err se producen durante la negociación de velocidad como parte de una inicialización de enlace.
Acciones previstas:
Verifique que el dispositivo conectado al puerto tenga un motivo legítimo para entrar offline o en línea. Por ejemplo, reiniciar el host. Si no es así, genere una SR.
Ejemplo 6 PCS ERR:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 466
Motivo general:
Válido únicamente si se borraron las estadísticas de puertos en las últimas 24 horas. De lo contrario, clasifique estos contadores como históricos. Borre las estadísticas de puertos (según se indica en el Punto 9 anteriormente), verifique los contadores y vuelva a tomar los datos después de 4 a 6 horas.
Los errores PCS ERR sin errores asociados indican que hay un cable sucio.
Acciones previstas:
Inspeccione y limpie todas las superficies ópticas del cable y el SFP conectado a este puerto y a los dispositivos conectados.
EJEMPLOS DE CISCO:
Ejemplo 1 Errdisabled:
Errdisabled: sin incremento de errores de interfaz
fc1/1 is down (Error disabled - bit error rate too high) Hardware is Fibre Channel, SFP is short wave laser w/o OFC (SN). 5 minutes input rate 0 bits/sec, 0 bytes/sec, 0 frames/sec 5 minutes output rate 0 bits/sec, 0 bytes/sec, 0 frames/sec 179 frames input, 7668 bytes 0 discards, 0 errors 0 CRC, 0 unknown class 0 too long, 0 too short 23 frames output, 1320 bytes 0 discards, 0 errors 1 input OLS, 1 LRR, 0 NOS, 1 loop inits 2 output OLS, 0 LRR, 0 NOS, 1 loop inits Interface last changed at Thu Jun 5 01:51:00 2014
Motivo general:
El estado "Errdisabled" de una interfaz puede ser un tanto confuso, ya que los contadores de interfaz pueden estar limpios en el front-end y el switch parece bajar el puerto con el estado "errdisabled" y los contadores de errores aumentan en el back-end (ASIC/interno/tarjeta de línea).
Acciones previstas:
Consulte la acción predeterminada en la resolución. Si vuelve a ocurrir, recopile el resultado de los detalles del soporte técnico y abra la SR.
- El cable está defectuoso o en mal estado.
- El SFP está defectuoso o en mal estado.
- El SFP está especificado para funcionar a 1 Gbps, pero se utiliza a 2 Gbps.
- El SFP está especificado para funcionar a 2 Gbps, pero se utiliza a 4 Gbps.
- El cable de corto alcance se utiliza para distancias largas, o el cable de largo alcance se utiliza para distancias cortas.
- Hay pérdida de sincronización momentánea.
- La conexión de cables está suelta en uno o ambos extremos.
- La conexión SFP es incorrecta en uno o ambos extremos.
Se detecta un umbral de tasa de errores de bits cuando se producen 15 ráfagas de error en un período de 5 minutos. De manera predeterminada, el switch deshabilita la interfaz al alcanzar el umbral. Puede ingresar los siguientes comandos en secuencia para volver a habilitar la interfaz.
shutdown
no shutdown Puede configurar el switch para que no deshabilite una interfaz al superar el umbral.
De manera predeterminada, el umbral deshabilita la interfaz.
Ejemplo 2: CRC
Incremento de CRC
fc13/1 is down (Initializing)
Port description is ***
Hardware is Fibre Channel, SFP is long wave laser cost reduced.
5 minutes input rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
5 minutes output rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
162 frames input, 6136 bytes
0 discards, 17 errors
17 CRC, 0 unknown class
0 too long, 17 too short
74 frames output, 6304 bytes
2 discards, 0 errors
108 input OLS, 54 LRR, 2 NOS, 0 loop inits
83 output OLS, 26 LRR, 56 NOS, 0 loop inits
Interface last changed at Tue May 27 08:37:20 2014
Motivo general:
El puerto está grabando una trama que ingresa al switch con una CRC defectuosa, pero con un final de trama en buen estado. El contador de CRC solo se incrementa en el puerto de ingreso específico que registra el error y cualquier investigación se debe realizar en este enlace físico.
Acciones previstas:
Consulte la acción predeterminada en la resolución.
Borre las estadísticas de puertos (según se indica en el Punto 9 anteriormente), verifique los contadores y vuelva a tomar los datos después de 4 a 6 horas.
Ejemplo 3: NOS
Secuencia no operativa (NOS)
show int fc1/1 counters
fc1/1
5 minutes input rate 1753296 bits/sec, 219162 bytes/sec, 199 frames/sec
5 minutes output rate 2310384 bits/sec, 288798 bytes/sec, 194 frames/sec
2741512190 frames input, 2542476084276 bytes
0 class-2 frames, 0 bytes
2741512190 class-3 frames, 2542476084276 bytes
0 class-f frames, 0 bytes
0 discards, 0 errors, 0 CRC
0 unknown class, 0 too long, 0 too short
3410405365 frames output, 5164364339412 bytes
0 class-2 frames, 0 bytes
3410405365 class-3 frames, 5164364339412 bytes
0 class-f frames, 0 bytes
0 discards, 0 errors
1 input OLS, 1 LRR, 0 NOS, 307 loop inits
289 output OLS, 289 LRR, 289 NOS, 289 loop inits
0 link failures, 0 sync losses, 0 signal losses
48276 BB credit transitions from zero
16 receive B2B credit remaining
3 transmit B2B credit remaining
3 low priority transmit B2B credit remaining
Motivo general:
Pérdida de conexión previa a las negociaciones de enlace.
Acciones previstas:
Compruebe la capa 1 (capa física) y el dispositivo de origen.