Pane ou HA no switch Connectrix Série B fora de sincronia devido à falta de recursos do switch

Summary: Após o failover de alta disponibilidade (HA), os Processadores de Controle (CP) não são sincronizados, e reinicializar o CP em espera não resolve o problema.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Impacto:

  • A alta disponibilidade não está sincronizada após o failover. Reinicializar o CP em espera não resolve o problema.
  • O processo do daemon da camada de acesso comum (CALD) para de responder (aplicativos de capacidade de gerenciamento usam CALD)
  • Desativar recursos
  • Alternar entre em pane

Ambiente:

  • Hardware da Dell: Connectrix ED-DCX7-4B
  • Hardware da Dell: Connectrix ED-DCX7-8B
  • Hardware da Dell: Connectrix ED-DCX6-4B
  • Hardware da Dell: Connectrix ED-DCX6-8B
  • Hardware da Dell: Connectrix ED-8510-8B
  • Hardware da Dell: Connectrix ED-8510-4B
  • Hardware da Dell: Connectrix DS-7730B
  • Hardware da Dell: Connectrix DS-7720B
  • Hardware da Dell: Connectrix DS-6630B
  • Hardware da Dell: Connectrix DS-6620B
  • Hardware da Dell: Connectrix DS-6610B
  • Hardware da Dell: Connectrix DS-6520B
  • Hardware da Dell: Connectrix DS-6510B
  • Hardware da Dell: Connectrix DS-6505B
  • Hardware da Dell: Connectrix MP-7810
  • Software Dell: Gateway de conexão segura
  • Software Dell: Secure Remote Services
  • Software Dell: CloudIQ
  • Software Brocade: Fabric OS 8.x
  • Software Brocade: Fabric OS 9.x

Problema:

  • O daemon CALD é encerrado ou está indisponível e possível pane no switch devido a uma enxurrada de alertas críticos ou de alto nível.
  • A alta disponibilidade estará fora de sincronia se o switch não conseguir recuperar o daemon do Cald.
  • O CloudIQ interrompe o monitoramento do switch

Erros:
Despejo de erro: O sintoma é uma pane CALD do Fabric OS:

[KSWD-1002], 36479, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:2395.
[KSWD-1002], 36774, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3063.
[KSWD-1002], 36855, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3868.

Exemplos de PDshow:

^EUnable to handle kernel paging request for unknown fault^M
^EFaulting instruction address: 0x401b4ad8^M
^EOops taken on: 2021-02-04 at 13:57:09:090194^M
^EOops: Kernel access of bad area, sig: 7 [#1]^M
^EPREEMPT ^ESMP NR_CPUS=4 ^ELTT NESTING LEVEL : 0 ^E^M


SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1)
SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0
Service instances out of sync
cald: unable to initialize ipc: -11
cal: ASP init failure (-4)
/bin/cat: write error: No space left on device
/bin/cat: write error: No space left on device

Saída de HADUMP:

== State ==
   fcsw:0:0(2) IMG_INCOMP[A:S]    IMG_COMP(1)
     fcsw0(M22)    IMG_COMP    IMG_COMP    
   diagfss(M22)    IMG_COMP    IMG_COMP    
        fc(M22)    IMG_COMP    IMG_COMP    
        rt(M22)    IMG_COMP    IMG_COMP    
       swc(M22)    IMG_COMP    IMG_COMP    
       web(M22)    IMG_COMP    IMG_COMP    
        md(M22)    IMG_COMP    IMG_COMP    
       cal(M22)    IMG_INCOMP    IMG_COMP

ps exfcl saída no suporte show:
CALD falhou ao reiniciar porque o daemon original entrou em um estado extinto, e quando o FOS tentou inicializar um novo daemon Cald, não foi possível porque CALD tinha um status indicando que ainda estava vivo.

0     0  2150  1824  18   0      0     0 -      Z    ?        25919:54  \_ cald <defunct>

Condição específica:
Secure Remote Services e/ou Secure Connect Gateway monitorando o switch

Cause

Isso foi visto no FOS 8.2.3c1.
Thread fora da condição de recurso como resultado de um vazamento de recursos com o thread do Secure Remote Support no CALD, gerado para enviar a saída show de suporte para o servidor do Secure Remote Services.

O motivo da falha ao reiniciar o CALD deve-se a um defeito separado.

Causa raiz:
O CALD não reiniciou porque o daemon original entrou em um estado extinto e, quando o FOS tentou inicializar um novo daemon cald, não conseguiu porque o CALD tinha um status indicando que ainda estava vivo. Isso fez com que o FOS não conseguisse colocar o novo daemon CALD em um estado funcional.

0     0  2150  1824  18   0      0     0 -      Z    ?        25919:54  \_ cald <defunct>
SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1)
SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0
Service instances out of sync
cald: unable to initialize ipc: -11
cal: ASP init failure (-4)
/bin/cat: write error: No space left on device
/bin/cat: write error: No space left on device

Engenharia backports ambas as correções para 8.2.3e.

Resolution

Corrigir:
Faça upgrade para:

  • Fabric OS v8.2.3e ou posterior
  • Fabric OS v9.1.1d ou posterior
  • Fabric OS v9.2.0b ou posterior
  • Fabric OS v9.2.1 ou posterior

Solução alternativa:
O switch deve passar por uma inicialização a frio para recuperar e sincronizar os CPs. No switch, execute o comando abaixo e puxe o cabo de alimentação.

sysshutdown

Monitore os switches de perto em busca de alertas críticos e resolva as condições que causam os alertas críticos imediatamente, ou cancele o monitoramento do switch do Secure Remote Services ou do Secure Connect Gateway.

Additional Information

  • Se houver um processo secundário de CALD em execução, o switch ainda precisará passar pelo procedimento de recuperação de tentativa de hafailover (de preferência em uma janela de manutenção) e, se a HA ficar fora de sincronia, a reinicialização COLD será necessária.
Brocade DEFECT FOS-853249
Brocade DEFECT FOS-854095

Affected Products

Connectrix B-Series, Secure Connect Gateway, CloudIQ, EMC Secure Remote Services
Article Properties
Article Number: 000220385
Article Type: Solution
Last Modified: 05 Apr 2024
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.