Connectrix B-Series — паника или высокая доступность рассинхронизированы из-за нехватки ресурсов на коммутаторе
Summary: После переключения при отказе режима высокой доступности (HA) процессоры управления (CP) не синхронизируются, и перезагрузка резервного CP не устраняет проблему.
Symptoms
Воздействие:
- Высокая доступность не синхронизирована после переключения при отказе. Перезагрузка резервного CP не устраняет проблему.
- Процесс CALD (управляющая программа уровня общего доступа) перестает отвечать (CALD используется в приложениях для управления)
- Отключение ресурсов
- Сбой коммутатора
Инфраструктура.
- Оборудование Dell: Connectrix ED-DCX7-4B
- Оборудование Dell: Connectrix ED-DCX7-8B
- Оборудование Dell: Connectrix ED-DCX6-4B
- Оборудование Dell: Connectrix ED-DCX6-8B
- Оборудование Dell: Connectrix ED-8510-8B
- Оборудование Dell: Connectrix ED-8510-4B
- Оборудование Dell: Connectrix DS-7730B
- Оборудование Dell: Connectrix DS-7720B
- Оборудование Dell: Connectrix DS-6630B
- Оборудование Dell: Connectrix DS-6620B
- Оборудование Dell: Connectrix DS-6610B
- Оборудование Dell: Connectrix DS-6520B
- Оборудование Dell: Connectrix DS-6510B
- Оборудование Dell: Connectrix DS-6505B
- Оборудование Dell: Connectrix MP-7810
- Программное обеспечение Dell: Secure Connect Gateway
- Программное обеспечение Dell: Secure Remote Services
- Программное обеспечение Dell: CloudIQ
- Программное обеспечение Brocade: Fabric OS 8.x
- Программное обеспечение Brocade: Fabric OS 9.x
Проблема
- Управляющая программа CALD завершает работу или становится недоступной, и возможна паника коммутатора из-за потока критических оповещений или оповещений высокого уровня.
- HA не синхронизирован, если коммутатору не удается восстановить управляющую программу CALD.
- CloudIQ прекращает мониторинг коммутатора
Ошибки:
Дамп ошибки: Симптомом является сбой Fabric OS CALED.
[KSWD-1002], 36479, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:2395. [KSWD-1002], 36774, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3063. [KSWD-1002], 36855, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3868.
Примеры PDshow:
^EUnable to handle kernel paging request for unknown fault^M ^EFaulting instruction address: 0x401b4ad8^M ^EOops taken on: 2021-02-04 at 13:57:09:090194^M ^EOops: Kernel access of bad area, sig: 7 [#1]^M ^EPREEMPT ^ESMP NR_CPUS=4 ^ELTT NESTING LEVEL : 0 ^E^M SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1) SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0 Service instances out of sync cald: unable to initialize ipc: -11 cal: ASP init failure (-4) /bin/cat: write error: No space left on device /bin/cat: write error: No space left on device
Выходные данные HADUMP:
== State == fcsw:0:0(2) IMG_INCOMP[A:S] IMG_COMP(1) fcsw0(M22) IMG_COMP IMG_COMP diagfss(M22) IMG_COMP IMG_COMP fc(M22) IMG_COMP IMG_COMP rt(M22) IMG_COMP IMG_COMP swc(M22) IMG_COMP IMG_COMP web(M22) IMG_COMP IMG_COMP md(M22) IMG_COMP IMG_COMP cal(M22) IMG_INCOMP IMG_COMP
Вывод ps exfcl в support show:
CALD не удалось перезапуститься, потому что первоначальный демон перешел в несуществующее состояние, и когда FOS попытался инициализировать новый демон CALD, он не смог этого сделать, потому что у CALD был статус, указывающий на то, что он все еще жив.
0 0 2150 1824 18 0 0 0 - Z ? 25919:54 \_ cald <defunct>
Особое условие:
мониторинг коммутатора Secure Remote Services и/или Secure Connect Gateway
Cause
Это было замечено в FOS 8.2.3c1.
Поток выходит из состояния ресурса в результате утечки ресурсов с потоком Secure Remote Support в CALD, порожденной для отправки выходных данных support show на сервер Secure Remote Services.
Причина сбоя при последующем перезапуске CALD связана с другим дефектом.
Причину:
Не удалось перезапустить CALD, так как первоначальный демон перешел в несуществующее состояние, и когда FOS попытался инициализировать новый демон cald, он не смог этого сделать, так как CALD имел состояние, указывающее на то, что он все еще активен. Это приводило к тому, что FOS не мог привести новый демон CALD в рабочее состояние.
0 0 2150 1824 18 0 0 0 - Z ? 25919:54 \_ cald <defunct>
SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1) SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0 Service instances out of sync cald: unable to initialize ipc: -11 cal: ASP init failure (-4) /bin/cat: write error: No space left on device /bin/cat: write error: No space left on device
Инженерный отдел переносит оба исправления в версию 8.2.3e.
Resolution
Исправить:
Выполните модернизацию до:
- Fabric OS 8.2.3e или более поздней версии
- Fabric OS v9.1.1d или более поздней версии
- Fabric OS v9.2.0b или более поздней версии
- Fabric OS v9.2.1 или более поздней версии
Решение:
Для восстановления и синхронизации CP коммутатор должен выполнить «холодную» перезагрузку. На коммутаторе введите следующую команду и потяните за кабель питания.
sysshutdown
Тщательно отслеживайте коммутаторы на наличие критических оповещений и своевременно устраняйте условия, вызывающие критические оповещения, или прекратите мониторинг коммутатора из Secure Remote Services или Secure Connect Gateway.
Additional Information
- Если запущен дополнительный процесс CALD, коммутатор все равно должен пройти процедуру восстановления при попытке переключения при отказе (предпочтительно в период обслуживания), а если высокая доступность выходит из синхронизации, требуется ХОЛОДНАЯ перезагрузка.
ДЕФЕКТ ПАРЧИ FOS-854095