Pane ou HA no switch Connectrix Série B fora de sincronia devido à falta de recursos do switch
Summary: Após o failover de alta disponibilidade (HA), os Processadores de Controle (CP) não são sincronizados, e reinicializar o CP em espera não resolve o problema.
Symptoms
Impacto:
- A alta disponibilidade não está sincronizada após o failover. Reinicializar o CP em espera não resolve o problema.
- O processo do daemon da camada de acesso comum (CALD) para de responder (aplicativos de capacidade de gerenciamento usam CALD)
- Desativar recursos
- Alternar entre em pane
Ambiente:
- Hardware da Dell: Connectrix ED-DCX7-4B
- Hardware da Dell: Connectrix ED-DCX7-8B
- Hardware da Dell: Connectrix ED-DCX6-4B
- Hardware da Dell: Connectrix ED-DCX6-8B
- Hardware da Dell: Connectrix ED-8510-8B
- Hardware da Dell: Connectrix ED-8510-4B
- Hardware da Dell: Connectrix DS-7730B
- Hardware da Dell: Connectrix DS-7720B
- Hardware da Dell: Connectrix DS-6630B
- Hardware da Dell: Connectrix DS-6620B
- Hardware da Dell: Connectrix DS-6610B
- Hardware da Dell: Connectrix DS-6520B
- Hardware da Dell: Connectrix DS-6510B
- Hardware da Dell: Connectrix DS-6505B
- Hardware da Dell: Connectrix MP-7810
- Software Dell: Gateway de conexão segura
- Software Dell: Secure Remote Services
- Software Dell: CloudIQ
- Software Brocade: Fabric OS 8.x
- Software Brocade: Fabric OS 9.x
Problema:
- O daemon CALD é encerrado ou está indisponível e possível pane no switch devido a uma enxurrada de alertas críticos ou de alto nível.
- A alta disponibilidade estará fora de sincronia se o switch não conseguir recuperar o daemon do Cald.
- O CloudIQ interrompe o monitoramento do switch
Erros:
Despejo de erro: O sintoma é uma pane CALD do Fabric OS:
[KSWD-1002], 36479, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:2395. [KSWD-1002], 36774, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3063. [KSWD-1002], 36855, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3868.
Exemplos de PDshow:
^EUnable to handle kernel paging request for unknown fault^M ^EFaulting instruction address: 0x401b4ad8^M ^EOops taken on: 2021-02-04 at 13:57:09:090194^M ^EOops: Kernel access of bad area, sig: 7 [#1]^M ^EPREEMPT ^ESMP NR_CPUS=4 ^ELTT NESTING LEVEL : 0 ^E^M SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1) SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0 Service instances out of sync cald: unable to initialize ipc: -11 cal: ASP init failure (-4) /bin/cat: write error: No space left on device /bin/cat: write error: No space left on device
Saída de HADUMP:
== State == fcsw:0:0(2) IMG_INCOMP[A:S] IMG_COMP(1) fcsw0(M22) IMG_COMP IMG_COMP diagfss(M22) IMG_COMP IMG_COMP fc(M22) IMG_COMP IMG_COMP rt(M22) IMG_COMP IMG_COMP swc(M22) IMG_COMP IMG_COMP web(M22) IMG_COMP IMG_COMP md(M22) IMG_COMP IMG_COMP cal(M22) IMG_INCOMP IMG_COMP
ps exfcl saída no suporte show:
CALD falhou ao reiniciar porque o daemon original entrou em um estado extinto, e quando o FOS tentou inicializar um novo daemon Cald, não foi possível porque CALD tinha um status indicando que ainda estava vivo.
0 0 2150 1824 18 0 0 0 - Z ? 25919:54 \_ cald <defunct>
Condição específica:
Secure Remote Services e/ou Secure Connect Gateway monitorando o switch
Cause
Isso foi visto no FOS 8.2.3c1.
Thread fora da condição de recurso como resultado de um vazamento de recursos com o thread do Secure Remote Support no CALD, gerado para enviar a saída show de suporte para o servidor do Secure Remote Services.
O motivo da falha ao reiniciar o CALD deve-se a um defeito separado.
Causa raiz:
O CALD não reiniciou porque o daemon original entrou em um estado extinto e, quando o FOS tentou inicializar um novo daemon cald, não conseguiu porque o CALD tinha um status indicando que ainda estava vivo. Isso fez com que o FOS não conseguisse colocar o novo daemon CALD em um estado funcional.
0 0 2150 1824 18 0 0 0 - Z ? 25919:54 \_ cald <defunct>
SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1) SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0 Service instances out of sync cald: unable to initialize ipc: -11 cal: ASP init failure (-4) /bin/cat: write error: No space left on device /bin/cat: write error: No space left on device
Engenharia backports ambas as correções para 8.2.3e.
Resolution
Corrigir:
Faça upgrade para:
- Fabric OS v8.2.3e ou posterior
- Fabric OS v9.1.1d ou posterior
- Fabric OS v9.2.0b ou posterior
- Fabric OS v9.2.1 ou posterior
Solução alternativa:
O switch deve passar por uma inicialização a frio para recuperar e sincronizar os CPs. No switch, execute o comando abaixo e puxe o cabo de alimentação.
sysshutdown
Monitore os switches de perto em busca de alertas críticos e resolva as condições que causam os alertas críticos imediatamente, ou cancele o monitoramento do switch do Secure Remote Services ou do Secure Connect Gateway.
Additional Information
- Se houver um processo secundário de CALD em execução, o switch ainda precisará passar pelo procedimento de recuperação de tentativa de hafailover (de preferência em uma janela de manutenção) e, se a HA ficar fora de sincronia, a reinicialização COLD será necessária.
Brocade DEFECT FOS-854095