Connectrix. Как устранить неполадки, связанные с подключением узла Fibre Channel к порту коммутатора или SFP, путем исключения, самостоятельное устранение неисправностей.
Summary: Эта статья о том, как устранить проблемы связи между узлом Fibre Channel и портом коммутатора или SFP методом исключения.
Symptoms
Как устранить проблемы связи между узлом Fibre Channel и портом коммутатора или SFP методом исключения?
Слишком много проактивных замен SFP
Неисправность канала
Порт G
Нет света
Неоперативная последовательность (NOS)
Последовательность отключения (OLS)
Потеря сигнала
Неисправный SFP
Устранение неполадок порта FC
Ошибки порта FC
Cause
Слишком много проактивных замен SFP, в то время как проблема находится вне SFP или коммутатора.
Resolution
Для решения этой проблемы выполните следующие действия.
- Определите узел и порт коммутатора, вовлеченные в сбой связи.
- Убедитесь, что порт коммутатора административно работает (не заблокирован, не закрыт) или включен.
- Прежде чем продолжить, убедитесь, что подключенное устройство имеет резервные пути.
- Чтобы исключить вероятность того, что проблема заключается в SFP, выполните следующие действия.
- Проверьте наличие свободного порта на коммутаторе.
- Отключите обнаруженный свободный порт на коммутаторе.
- Перенесите кабель с порта для исследования на новый свободный порт, отключенный на предыдущем шаге.
- Переведите отключенный порт во включенное состояние (или административно включите) и верните устройство в оперативный режим.
- Очистите/сбросьте статистику/счетчики до нуля на коммутаторе.
Для Brocade см. статью базы знаний:
Для Cisco см. статью базы знаний:
Connectrix - MDS Series Cisco. Как очистить интерфейс и счетчики ASIC на MDS
- Следите за портом с помощью соответствующих команд в течение 4–6 часов.
РЕЗУЛЬТАТЫ.
- Если счетчики ошибок увеличиваются, проблема лежит за пределами коммутатора, и заказчику/пользователю/администратору SAN необходимо дать соответствующие рекомендации.
-
- Необходимо очистить новый порт SFP и кабель. (Для предотвращения загрязнения SFP грязным кабелем рекомендуется использовать специальный комплект для очистки.)
- Подключенное устройство должно быть дополнительно исследовано лицом, осуществляющим поддержку.
- Если на коммутаторе Cisco состояние «errdisabled» возвращается без увеличения счетчика, необходимо открыть сервисную заявку для дальнейшего внутреннего исследования.
- Если количество ошибок не увеличивается (или состояние «Errdisabled» на коммутаторе Cisco не возвращается), SFP на предыдущем порте неисправен, откройте сервисную заявку на замену SFP, предоставив результаты анализа, включая выходные данные журнала, данные о SFP (SM или MM, скорость и т. д.)
Additional Information
Аппаратные сбои можно легко определить, применив к проблеме простой алгоритм: если дело не в этой части оборудования, значит, дело в другой. Продолжайте цикл до тех пор, пока не обнаружите сбой, указывающий на проблемное устройство.
ПРИМЕРЫ ДЛЯ BROCADE.
Connectrix серии B. Как интерпретировать выходные данные Brocade porterrshow и что означают счетчики. Самостоятельное устранение неисправностей
Пример 1 ENC OUT с ошибками LINK FAIL и LOSS SYNC.
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 2.3m 0 4 6 0 0 0 0 0 0
Общая причина.
Действительно, только если статистика порта была очищена в течение последних 24 часов. В противном случае эти счетчики следует классифицировать как архивные. Очистите статистику порта (как указано выше в пункте 9), проверьте счетчики и повторно снимите данные через 4–6 часов.
Среди ошибок можно увидеть ошибки link fail и loss of sync PLUS enc out, а также ошибку loss sig.
Эти сочетания ошибок обычно указывают на перезагрузку хоста или сброс внешнего канала коммутатора. Ошибки enc out возникают во время согласования скорости в процессе инициализации канала.
Ожидаемые действия.
Убедитесь, что подключенное к порту устройство имеет обоснованную причину для перехода в автономный и оперативный режим, т.е. для перезагрузки хоста. Например, перезагрузка хоста. Если нет, создайте сервисную заявку.
Пример 2 ENC OUT.
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 2.3m 0 0 0 0 0 0 0 0 0
Общая причина.
Действительно, только если статистика порта была очищена в течение последних 24 часов. В противном случае эти счетчики следует классифицировать как архивные. Очистите статистику порта (как указано выше в пункте 9), проверьте счетчики и повторно снимите данные через 4–6 часов.
Ошибки Enc out без связанных с ними ошибок указывают на загрязненный кабель.
Ожидаемые действия.
Осмотрите и очистите все оптические поверхности кабеля и SFP, подключенных к этому порту и присоединенным устройствам.
Пример 3 CRC и CRC G_EOF.
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 1.2k 1.2k 0 0 0 0 0 0 0 0 0 0 0 0 0
Общая причина.
Действительно, только если статистика порта была очищена в течение последних 24 часов. В противном случае эти счетчики следует классифицировать как архивные. Очистите статистику порта (как указано выше в пункте 9) и проверьте счетчики и повторно снимите данные через 4–6 часов.
Кадр входит в порт коммутатора с неисправным CRC, но конец кадра по-прежнему отмечен как исправный.
Это указывает на то, что это первый порт, зарегистрировавший неисправный кадр, поэтому проблема заключается в SFP / кабеле / интерфейсе подключенного устройства на данном конкретном порте.
Ожидаемые действия.
Смотрите действия по умолчанию в решении.
Для порта ISL очистите статистику (как указано выше в пункте 9), проверьте счетчики и повторно снимите данные через 4–6 часов, соберите данные с помощью команды supportsaves с обоих коммутаторов и откройте SR для обычного устранения неполадок.
Пример 4 CRC.
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 1.2k 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Общая причина.
Действительно, только если статистика порта была очищена в течение последних 24 часов. В противном случае эти счетчики следует классифицировать как архивные. Очистите статистику порта (как указано выше в пункте 9), проверьте счетчики и повторно снимите данные через 4–6 часов.
Порт записывает кадр, поступающий в коммутатор, с неисправным кадром CRC, но кадр уже помечен как неисправный. Обычно это наблюдается на ISL и F-портах NPIV.
Ожидаемые действия.
Если ошибки CRC регистрируются на порте NPIV, запросите у поставщика обслуживание устройства.
Для порта ISL проверьте все порты в фабрике на наличие любых портов, регистрирующих crc g_oef, и выполните действия, как показано в примере 3
Пример 5 PCS ERR с ошибками LINK FAIL и LOSS SYNC.
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 0 0 4 4 0 0 0 0 0 466
Общая причина.
Действительно, только если статистика порта была очищена в течение последних 24 часов. В противном случае эти счетчики следует классифицировать как архивные. Очистите статистику порта (как указано выше в пункте 9), проверьте счетчики и повторно снимите данные через 4–6 часов.
Это применимо только к платформам, которые поддерживают порты 10 Гбит/с или 16 Гбит/с (6505/6510/6520/DCX-8510), и было внедрено в состав платформы GEN5 Condor3 ASIC.
ER_PCS_BLK показывает количество ошибок блокировки подуровня физического кодирования (PCS). Этот счетчик эквивалентен enc_out для каналов 8 Гбит/4 Гбит и используется только для скоростей 10 Гбит/с и 16 Гбит/с и выше.
Среди ошибок можно увидеть link fail, loss of sync и pcs err, а также ошибку loss sig.
Эти сочетания ошибок обычно указывают на перезагрузку хоста или сброс внешнего канала коммутатора.
Ошибки pcs err возникают во время согласования скорости в процессе инициализации канала.
Ожидаемые действия.
Убедитесь, что устройство, подключенное к порту, имело обоснованную причину для перехода в автономный или оперативный режим. Например, перезагрузка хоста. Если нет, создайте сервисную заявку.
Пример 6 PCS ERR:
porterrshow : CURRENT CONTEXT -- 3 , 111 frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err xx: 849.1k 493.2k 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 466
Общая причина.
Действительно, только если статистика порта была очищена в течение последних 24 часов. В противном случае эти счетчики следует классифицировать как архивные. Очистите статистику порта (как указано выше в пункте 9), проверьте счетчики и повторно снимите данные через 4–6 часов.
Ошибки PCS ERR без связанных с ними ошибок указывают на загрязненный кабель.
Ожидаемые действия.
Осмотрите и очистите все оптические поверхности кабеля и SFP, подключенных к этому порту и присоединенным устройствам.
ПРИМЕРЫ CISCO:
Пример 1 Errdisabled.
Errdisabled — количество ошибок интерфейса не растет
fc1/1 is down (Error disabled - bit error rate too high) Hardware is Fibre Channel, SFP is short wave laser w/o OFC (SN). 5 minutes input rate 0 bits/sec, 0 bytes/sec, 0 frames/sec 5 minutes output rate 0 bits/sec, 0 bytes/sec, 0 frames/sec 179 frames input, 7668 bytes 0 discards, 0 errors 0 CRC, 0 unknown class 0 too long, 0 too short 23 frames output, 1320 bytes 0 discards, 0 errors 1 input OLS, 1 LRR, 0 NOS, 1 loop inits 2 output OLS, 0 LRR, 0 NOS, 1 loop inits Interface last changed at Thu Jun 5 01:51:00 2014
Общая причина.
Состояние интерфейса «Errdisabled» может немного вводить в заблуждение, так как счетчики интерфейса могут быть пустыми на внешней стороне, а коммутатор, похоже, отключает порт с состоянием «errdisabled», а счетчики ошибок увеличиваются на внутренней стороне (ASIC/internal/linecard).
Ожидаемые действия.
См. действия по умолчанию в решении. При повторном возникновении соберите сведения из выходных данных для службы технической поддержки и создайте сервисную заявку.
- Неисправный кабель
- Неисправный или плохой SFP
- SFP рассчитан на работу со скоростью 1 Гбит/с, но используется со скоростью 2 Гбит/с.
- SFP рассчитан на работу со скоростью 2 Гбит/с, но используется со скоростью 4 Гбит/с.
- Кабель для коротких дистанций используется на дальних дистанциях, или кабель для дальних дистанций используется на коротких дистанциях.
- Кратковременная потеря синхронизации
- Неплотное подключение кабеля на одном или обоих концах
- Неправильное подключение SFP на одном или обоих концах
Пороговое значение уровня битовых ошибок обнаруживается, когда за 5-минутный период происходит 15 всплесков ошибок. По умолчанию коммутатор отключает интерфейс при достижении порогового значения. Для повторного включения интерфейса можно последовательно ввести приведенные ниже команды.
shutdown
no shutdown Коммутатор можно настроить таким образом, чтобы он не отключал интерфейс при превышении порогового значения.
По умолчанию пороговое значение отключает интерфейс.
Пример 2 CRC
Увеличение CRC
fc13/1 is down (Initializing)
Port description is ***
Hardware is Fibre Channel, SFP is long wave laser cost reduced.
5 minutes input rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
5 minutes output rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
162 frames input, 6136 bytes
0 discards, 17 errors
17 CRC, 0 unknown class
0 too long, 17 too short
74 frames output, 6304 bytes
2 discards, 0 errors
108 input OLS, 54 LRR, 2 NOS, 0 loop inits
83 output OLS, 26 LRR, 56 NOS, 0 loop inits
Interface last changed at Tue May 27 08:37:20 2014
Общая причина.
Порт записывает входящий в коммутатор кадр с неисправным CRC, но конец кадра по-прежнему отмечен как исправный. Счетчик CRC увеличивается только на конкретном входящем порте, регистрирующем ошибку, и все исследования должны проводиться на этом физическом канале.
Ожидаемые действия.
См. действие по умолчанию в решении.
Очистите статистику порта (как указано выше в пункте 9), проверьте счетчики и повторно снимите данные через 4–6 часов.
Пример 3. NOS
Неоперативная последовательность (NOS)
show int fc1/1 counters
fc1/1
5 minutes input rate 1753296 bits/sec, 219162 bytes/sec, 199 frames/sec
5 minutes output rate 2310384 bits/sec, 288798 bytes/sec, 194 frames/sec
2741512190 frames input, 2542476084276 bytes
0 class-2 frames, 0 bytes
2741512190 class-3 frames, 2542476084276 bytes
0 class-f frames, 0 bytes
0 discards, 0 errors, 0 CRC
0 unknown class, 0 too long, 0 too short
3410405365 frames output, 5164364339412 bytes
0 class-2 frames, 0 bytes
3410405365 class-3 frames, 5164364339412 bytes
0 class-f frames, 0 bytes
0 discards, 0 errors
1 input OLS, 1 LRR, 0 NOS, 307 loop inits
289 output OLS, 289 LRR, 289 NOS, 289 loop inits
0 link failures, 0 sync losses, 0 signal losses
48276 BB credit transitions from zero
16 receive B2B credit remaining
3 transmit B2B credit remaining
3 low priority transmit B2B credit remaining
Общая причина.
Потеря подключения до согласования канала.
Ожидаемые действия.
Проверьте уровень 1 (физический уровень) и исходное устройство.