Connectrix. Cisco MDS9700 DS-X9448-768K9. Сбой канала: сбой сброса канала, непустая очередь recv, ошибки после сбоя hw-порта
Summary: Cisco MDS9700 DS-X9448-768K9. Сбой канала: сбой сброса канала, ошибки непустой очереди recv, наблюдаемые после сбоя hw-порта.
Symptoms
- Сбой портов 9–12 на втором ASIC LC с ошибками hwfailure. Порты fc13-16 (также на той же ASIC) отбрасывали пакеты, вызывая перегрузку на коммутаторе, но эти порты (13-16) не отображались как неисправные.
- Затронутая линейная плата представляет собой 48-портовый модуль расширенного FC 16 Гбит/с (DS-X9448-768K9)
Cause
Эта проблема вызвана следующей проблемой:
CSCuw59045> MDS9700 DS-X9448-768K9 — потеря синхронизации xbar должна завершиться сбоем на всех восьми портах.
Симптом:
После внутреннего аппаратного сбоя на блоке из четырех портов происходит повреждение или удаление кадров, или и то, и другое. Следующее сообщение syslog указывает на аппаратный сбой:
Пример аппаратного сбоя ASIC/канала сетевой топологии порта:
MODULE-4-MOD_WARNING: Module 4 (Serial number: JAE180605XF) reported warning fc4/9-12due to SAC sync lost in device DEV_LOCAL_SAC_ASIC (device error 0xc9101200) CALLHOME-2-EVENT: MODULE_WARNING MODULE-2-MOD_SOMEPORTS_FAILED: Module 4 (Serial number: JAE180605XF) reported failure on ports fc4/9-12 (Fibre Channel) due to Local serial link syncing exception in device DEV_LOCAL_SAC_ASIC (device error 0xc9101204)
Регистрируются следующие ошибки аппаратных сбоев портов:
PORT-5-IF_DOWN_HW_FAILURE: %$VSAN 101%$ Interface fc4/12 is down (Hardware Failure) vmax CALLHOME-2-EVENT: PORT_FAILURE PORT-5-IF_DOWN_HW_FAILURE: %$VSAN 101%$ Interface fc4/11 is down (Hardware Failure) server1 PORT-5-IF_DOWN_HW_FAILURE: %$VSAN 101%$ Interface fc4/10 is down (Hardware Failure) server2 PORT-5-IF_DOWN_HW_FAILURE: %$VSAN 1%$ Interface fc4/9 is down (Hardware Failure) ISL
При возникновении этого сбоя NX-OS устанавливает в состояние «hwFailure» только четыре порта вместо всех восьми портов для затронутого порта ASIC. Остальные четыре затронутых порта остаются включенными, но ведут себя как медленные порты. Когда это происходит, в настоящее время отображается регистрация следующих счетчиков, которые увеличиваются:
fc1/5 |F16_TMM_TOLB_TIMEOUT_DROP_CNT |13025 |01/01/16
К другим признакам относятся сброс каналов и сбои сброса каналов на несвязанных интерфейсах. Эти ошибки вызваны трафиком, направляемым на четыре неотключенных порта.
PORT-5-IF_DOWN_LINK_FAILURE: %$VSAN 101%$ Interface fc8/47 is down (Link failure Link Reset failed nonempty recv queue) server3 VSAN 101%$ Interface fc8/32 is down (Link failure Link Reset failed nonempty recv queue) server4
Условия:
Эта проблема возникает только на линейной плате MDS 9700 DS-X9448-768K9 после сбоя внутреннего канала фабрики.
Resolution
- Убедитесь, что только на четырех из восьми портов ASIC отображается hwсбой
- Проверьте, передаются ли ошибки «Link failure Link Reset nonempty recv queue» для других интерфейсов. Эти ошибки портов являются симптомом перегрузки коммутатора, а не основной причиной
Временное решение.
Шаг 1. Вручную отключите оставшиеся четыре порта на неисправном ASIC, чтобы предотвратить потерю или повреждение данных.
Группы портов 5-го поколения: (x — номер затронутого разъема LC)
fcx/1-8
fcx/9-16
fcx/17-24
fcx/25-32
fcx/33-40
fcx/41-48
Шаг 2. Замените затронутую линейную плату.
Additional Information
Известные затронутые выпуски:
- 6.2(1)
- 6.2(11)
- 6.2(11а)
- 6.2(11б)
- 6.2(11в)
- 6.2(11d)
- 6.2(13)
- 6.2(13а)
- 6.2(3)
- 6.2(5)
- 6.2(7)
- 6.2(9)
- 6.2(9а)
- 6.2(9б)
- 6.2(9в)
Обратитесь в службу поддержки Dell для получения превентивного временного решения проблемы.