Connectrix B-Series — паника или высокая доступность рассинхронизированы из-за нехватки ресурсов на коммутаторе

Summary: После переключения при отказе режима высокой доступности (HA) процессоры управления (CP) не синхронизируются, и перезагрузка резервного CP не устраняет проблему.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Воздействие:

  • Высокая доступность не синхронизирована после переключения при отказе. Перезагрузка резервного CP не устраняет проблему.
  • Процесс CALD (управляющая программа уровня общего доступа) перестает отвечать (CALD используется в приложениях для управления)
  • Отключение ресурсов
  • Сбой коммутатора

Инфраструктура.

  • Оборудование Dell: Connectrix ED-DCX7-4B
  • Оборудование Dell: Connectrix ED-DCX7-8B
  • Оборудование Dell: Connectrix ED-DCX6-4B
  • Оборудование Dell: Connectrix ED-DCX6-8B
  • Оборудование Dell: Connectrix ED-8510-8B
  • Оборудование Dell: Connectrix ED-8510-4B
  • Оборудование Dell: Connectrix DS-7730B
  • Оборудование Dell: Connectrix DS-7720B
  • Оборудование Dell: Connectrix DS-6630B
  • Оборудование Dell: Connectrix DS-6620B
  • Оборудование Dell: Connectrix DS-6610B
  • Оборудование Dell: Connectrix DS-6520B
  • Оборудование Dell: Connectrix DS-6510B
  • Оборудование Dell: Connectrix DS-6505B
  • Оборудование Dell: Connectrix MP-7810
  • Программное обеспечение Dell: Secure Connect Gateway
  • Программное обеспечение Dell: Secure Remote Services
  • Программное обеспечение Dell: CloudIQ
  • Программное обеспечение Brocade: Fabric OS 8.x
  • Программное обеспечение Brocade: Fabric OS 9.x

Проблема

  • Управляющая программа CALD завершает работу или становится недоступной, и возможна паника коммутатора из-за потока критических оповещений или оповещений высокого уровня.
  • HA не синхронизирован, если коммутатору не удается восстановить управляющую программу CALD.
  • CloudIQ прекращает мониторинг коммутатора

Ошибки:
Дамп ошибки: Симптомом является сбой Fabric OS CALED.

[KSWD-1002], 36479, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:2395.
[KSWD-1002], 36774, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3063.
[KSWD-1002], 36855, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3868.

Примеры PDshow:

^EUnable to handle kernel paging request for unknown fault^M
^EFaulting instruction address: 0x401b4ad8^M
^EOops taken on: 2021-02-04 at 13:57:09:090194^M
^EOops: Kernel access of bad area, sig: 7 [#1]^M
^EPREEMPT ^ESMP NR_CPUS=4 ^ELTT NESTING LEVEL : 0 ^E^M


SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1)
SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0
Service instances out of sync
cald: unable to initialize ipc: -11
cal: ASP init failure (-4)
/bin/cat: write error: No space left on device
/bin/cat: write error: No space left on device

Выходные данные HADUMP:

== State ==
   fcsw:0:0(2) IMG_INCOMP[A:S]    IMG_COMP(1)
     fcsw0(M22)    IMG_COMP    IMG_COMP    
   diagfss(M22)    IMG_COMP    IMG_COMP    
        fc(M22)    IMG_COMP    IMG_COMP    
        rt(M22)    IMG_COMP    IMG_COMP    
       swc(M22)    IMG_COMP    IMG_COMP    
       web(M22)    IMG_COMP    IMG_COMP    
        md(M22)    IMG_COMP    IMG_COMP    
       cal(M22)    IMG_INCOMP    IMG_COMP

Вывод ps exfcl в support show:
CALD не удалось перезапуститься, потому что первоначальный демон перешел в несуществующее состояние, и когда FOS попытался инициализировать новый демон CALD, он не смог этого сделать, потому что у CALD был статус, указывающий на то, что он все еще жив.

0     0  2150  1824  18   0      0     0 -      Z    ?        25919:54  \_ cald <defunct>

Особое условие:
мониторинг коммутатора Secure Remote Services и/или Secure Connect Gateway

Cause

Это было замечено в FOS 8.2.3c1.
Поток выходит из состояния ресурса в результате утечки ресурсов с потоком Secure Remote Support в CALD, порожденной для отправки выходных данных support show на сервер Secure Remote Services.

Причина сбоя при последующем перезапуске CALD связана с другим дефектом.

Причину:
Не удалось перезапустить CALD, так как первоначальный демон перешел в несуществующее состояние, и когда FOS попытался инициализировать новый демон cald, он не смог этого сделать, так как CALD имел состояние, указывающее на то, что он все еще активен. Это приводило к тому, что FOS не мог привести новый демон CALD в рабочее состояние.

0     0  2150  1824  18   0      0     0 -      Z    ?        25919:54  \_ cald <defunct>
SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1)
SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0
Service instances out of sync
cald: unable to initialize ipc: -11
cal: ASP init failure (-4)
/bin/cat: write error: No space left on device
/bin/cat: write error: No space left on device

Инженерный отдел переносит оба исправления в версию 8.2.3e.

Resolution

Исправить:
Выполните модернизацию до:

  • Fabric OS 8.2.3e или более поздней версии
  • Fabric OS v9.1.1d или более поздней версии
  • Fabric OS v9.2.0b или более поздней версии
  • Fabric OS v9.2.1 или более поздней версии

Решение:
Для восстановления и синхронизации CP коммутатор должен выполнить «холодную» перезагрузку. На коммутаторе введите следующую команду и потяните за кабель питания.

sysshutdown

Тщательно отслеживайте коммутаторы на наличие критических оповещений и своевременно устраняйте условия, вызывающие критические оповещения, или прекратите мониторинг коммутатора из Secure Remote Services или Secure Connect Gateway.

Additional Information

  • Если запущен дополнительный процесс CALD, коммутатор все равно должен пройти процедуру восстановления при попытке переключения при отказе (предпочтительно в период обслуживания), а если высокая доступность выходит из синхронизации, требуется ХОЛОДНАЯ перезагрузка.
ДЕФЕКТ ПАРЧИ FOS-853249
ДЕФЕКТ ПАРЧИ FOS-854095

Affected Products

Connectrix B-Series, Secure Connect Gateway, CloudIQ, EMC Secure Remote Services
Article Properties
Article Number: 000220385
Article Type: Solution
Last Modified: 05 Apr 2024
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.