Connectrix серии B. Критическая ошибка ядра коммутатора из-за увеличения использования памяти демоном Weblinker
Summary: Коммутатор сообщил о проблеме с MEMORY_USAGE_STATE, и через 30 минут коммутатор перезагрузился из-за критической ошибки ядра.
Symptoms
В errdump выпуск:
2025/07/22-22:50:19 (CST), [MAPS-1003], 293324, SLOT 2 | FID 128, WARNING, CC-MA001-SANX7-1, Chassis, Condition=CHASSIS(MEMORY_USAGE_STATE/NONE==WARNING), Current Value:[MEMORY_USAGE_STATE, WARNING], RuleName=defCHASSISMEMORY_USAGE_STATE_WARN, Dashboard Category=Switch Resource, Quiet Time=1 hour. 2025/07/22-22:52:19 (CST), [MAPS-1003], 293331, SLOT 2 | FID 81, WARNING, CC-MA001-SANX7-1-81, Chassis, Condition=CHASSIS(MEMORY_USAGE_STATE/NONE==WARNING), Current Value:[MEMORY_USAGE_STATE, WARNING], RuleName=defCHASSISMEMORY_USAGE_STATE_WARN, Dashboard Category=Switch Resource, Quiet Time=1 hour. 2025/07/22-23:10:09 (CST), [EM-1033], 156895, SLOT 1 | CHASSIS, ERROR, nevccsg31swb01, CP in Slot 2 set to faulty because CP ERROR asserted. 2025/07/22-23:10:09 (CST), [EM-1047], 156896, SLOT 1 | CHASSIS, INFO, nevccsg31swb01, CP in slot 2 not faulty, CP ERROR deasserted. 2025/07/22-23:11:19 (CST), [HAM-1004], 293376, SLOT 2 | CHASSIS, INFO, nevccsg31swb01, Processor rebooted - Software Fault:Kernel Panic
Cause
Коммутатор обнаружил ошибку FOS-863077 , которая вызвала утечку памяти.
Симптом:
Тем weblinker daemon Использование памяти продолжает увеличиваться во время мониторинга SANnav и таких операций, как configupload начинают терпеть неудачу.
Текущая версия коммутатора Fabric OS 9.2.2 не содержит исправления. Заказчик использует сторонний инструмент мониторинга, который также подвержен этой проблеме.
Ошибки SRM-5011 показывают, что, начиная с 21 июля 2025 г., уровень использования достигнет 75% от ограничения, поэтому для переключения на резервный ресурс потребуется 1 день:
2025/07/21-18:19:43:390633 (CST), [SRM-5011], 2330474/0, SLOT 2 | FID 128, INFO, CC-MA001-SANX7-1, phy memory utilization meets or exceeds threshold of 75 percent. Current value is 76 percent., osmisc.c, line: 405, comp:osmiscd, ltime:2025/07/21-18:19:43:390406
И мы видим множество сообщений об ошибке входа в LDAP. Поскольку все неудачные попытки входа происходят из-за HTTPS, они используют метод weblinker . Они истощают имеющиеся weblinker до тех пор, пока память полностью не исчерпается и не вызовет сбой ядра при восстановлении.
2025/07/22-23:06:26:207115 (CST), [SEC-1347], 2336526/293364, SLOT 2 | FID 128, INFO, CC-MA001-SANX7-1, LDAP server 10.236.91.139 reachable, but failed to validate or authorize the user account 'svc_bs_brocade_local'., ldap_config.c, line: 1237, comp:weblinker, ltime:2025/07/22-23:06:26:206934 2025/07/22-23:06:26:207828 (CST), [SEC-1193], 2336527/293365, SLOT 2 | FID 128, INFO, CC-MA001-SANX7-1, Security violation: Login failure attempt via HTTPS. IP Addr: 10.236.90.16., public.c, line: 4039, comp:weblinker, ltime:2025/07/22-23:06:26:207430 2025/07/22-23:07:12:879161 (CST), [SEC-1347], 2336528/293366, SLOT 2 | FID 128, INFO, CC-MA001-SANX7-1, LDAP server 10.236.91.139 reachable, but failed to validate or authorize the user account 'svc_bs_brocade_local'., ldap_config.c, line: 1237, comp:weblinker, ltime:2025/07/22-
Resolution
По умолчанию в системах Gen7 монитор потока включен. Однако, если какой-либо коммутатор под управлением FOS v9.1.0 или более поздней версии отключает мониторинг потока, эта проблема может возникнуть. Эта проблема также может возникать на платформах Gen6 без установленной лицензии Flow Vision.
Временное решение.
Активируйте монитор потока:
flow --activate sys_flow_monitor
В системах Gen6 без лицензии Flow Vision выполните модернизацию до версии FOS с исправлением этой проблемы.
- FOS9.1.1d6RN — закрыто
- FOS9.2.0c3RN — закрыто
- FOS9.2.1bRN-закрыто
- FOS9.2.2aRN — закрыто
Additional Information
Ознакомьтесь с документацией:
Примечания к выпуску ОС фабрики Dell Connectrix серии B