Errore irreversibile dello switch Connectrix B-Series o HA non sincronizzato a causa dell'esaurimento delle risorse dello switch

Table of Contents

Detailed Article

Symptoms

Cause

Resolution

Additional Info

Affected Products

Provide Feedback

Summary: Dopo il failover di High Availability (HA), i processori di controllo (CP) non sono sincronizzati e il riavvio del CP di standby non risolve il problema.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Symptoms

Impatto:

HA non è sincronizzata dopo il failover. Il riavvio del CP di standby non risolve il problema.
Il processo CALD (Common Access Layer Daemon) smette di rispondere (le applicazioni di gestibilità utilizzano CALD)
Esaurimento delle risorse
Errore irreversibile dello switch

Ambiente:

Hardware Dell: Connectrix ED-DCX7-4B
Hardware Dell: Connectrix ED-DCX7-8B
Hardware Dell: Connectrix ED-DCX6-4B
Hardware Dell: Connectrix ED-DCX6-8B
Hardware Dell: Connectrix ED-8510-8B
Hardware Dell: Connectrix ED-8510-4B
Hardware Dell: Connectrix DS-7730B
Hardware Dell: Connectrix DS-7720B
Hardware Dell: Connectrix DS-6630B
Hardware Dell: Connectrix DS-6620B
Hardware Dell: Connectrix DS-6610B
Hardware Dell: Connectrix DS-6520B
Hardware Dell: Connectrix DS-6510B
Hardware Dell: Connectrix DS-6505B
Hardware Dell: Connectrix MP-7810
Software Dell: Gateway con connessione sicura
Software Dell: Secure Remote Services
Software Dell: CloudIQ
Software Brocade: Fabric OS 8.x
Software Brocade: Fabric OS 9.x

Problema:

Il daemon CALD termina o non è disponibile e potrebbe verificarsi un errore irreversibile dello switch a causa di un'ondata di avvisi critici o di alto livello.
HA non è sincronizzata se lo switch non è in grado di ripristinare il daemon CALD.
CloudIQ interrompe il monitoraggio dello switch

Errori:
Err dump: Il sintomo è un errore irreversibile CALD del sistema operativo fabric:

[KSWD-1002], 36479, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:2395.
[KSWD-1002], 36774, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3063.
[KSWD-1002], 36855, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3868.

Esempi di PDshow:

^EUnable to handle kernel paging request for unknown fault^M
^EFaulting instruction address: 0x401b4ad8^M
^EOops taken on: 2021-02-04 at 13:57:09:090194^M
^EOops: Kernel access of bad area, sig: 7 [#1]^M
^EPREEMPT ^ESMP NR_CPUS=4 ^ELTT NESTING LEVEL : 0 ^E^M


SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1)
SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0
Service instances out of sync
cald: unable to initialize ipc: -11
cal: ASP init failure (-4)
/bin/cat: write error: No space left on device
/bin/cat: write error: No space left on device

Output HADUMP:

== State ==
   fcsw:0:0(2) IMG_INCOMP[A:S]    IMG_COMP(1)
     fcsw0(M22)    IMG_COMP    IMG_COMP    
   diagfss(M22)    IMG_COMP    IMG_COMP    
        fc(M22)    IMG_COMP    IMG_COMP    
        rt(M22)    IMG_COMP    IMG_COMP    
       swc(M22)    IMG_COMP    IMG_COMP    
       web(M22)    IMG_COMP    IMG_COMP    
        md(M22)    IMG_COMP    IMG_COMP    
       cal(M22)    IMG_INCOMP    IMG_COMP

L'output di ps exfcl nel supporto mostra:
CALD non è riuscito a riavviarsi perché il daemon originale è entrato in uno stato inattivo e quando FOS ha tentato di inizializzare un nuovo daemon CALD, non è stato in grado di farlo perché CALD aveva uno stato che indicava che era ancora attivo.

0     0  2150  1824  18   0      0     0 -      Z    ?        25919:54  \_ cald <defunct>

Condizione specifica:
Secure Remote Services e/o Gateway con connessione sicura che monitorano lo switch

Cause

Questo problema è stato osservato in FOS 8.2.3c1.
Thread fuori dalla condizione di risorsa come risultato di una perdita di risorse con il thread Secure Remote Support in CALD, generato per l'invio dell'output support show al server Secure Remote Services.

Il motivo del mancato riavvio della CALD è dovuto a un difetto separato.

Root cause:
CALD non si è riavviato perché il daemon originale è passato a uno stato inattivo e quando FOS ha tentato di inizializzare un nuovo daemon cald, non è riuscito a farlo perché CALD aveva uno stato che indicava che era ancora attivo. Di conseguenza FOS non era in grado di mettere in funzione il nuovo daemon CALD.

0     0  2150  1824  18   0      0     0 -      Z    ?        25919:54  \_ cald <defunct>

SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1)
SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0
Service instances out of sync
cald: unable to initialize ipc: -11
cal: ASP init failure (-4)
/bin/cat: write error: No space left on device
/bin/cat: write error: No space left on device

L'ingegneria esegue il backport di entrambe le correzioni nella versione 8.2.3e.

Resolution

Correzione:
Eseguire l'aggiornamento a:

Fabric OS v8.2.3e o versione successiva
Fabric OS v9.1.1d o versione successiva
Fabric OS v9.2.0b o versione successiva
Fabric OS v9.2.1 o versione successiva

Soluzione:
Lo switch deve eseguire un avvio a freddo per ripristinare e sincronizzare i CP. Sullo switch, emettere il comando riportato di seguito e tirare il cavo di alimentazione.

sysshutdown

Monitorare attentamente gli switch per verificare la presenza di avvisi critici e risolvere tempestivamente le condizioni che causano gli avvisi critici oppure annullare il monitoraggio dello switch da Secure Remote Services o Gateway con connessione sicura.

Additional Information

Se è in esecuzione un processo CALD secondario, lo switch deve comunque eseguire la procedura di ripristino del tentativo di hafailover (preferibilmente in una finestra di manutenzione) e se l'HA non è sincronizzato, è necessario il riavvio a freddo.

Brocade DIFETTO FOS-853249
Brocade DIFETTO FOS-854095

Affected Products

Connectrix B-Series, Secure Connect Gateway, CloudIQ, EMC Secure Remote Services

Article Number: 000220385

Article Type: Solution

Last Modified: 05 Apr 2024

Version: 7

Check if your device is covered by Support Services.

Errore irreversibile dello switch Connectrix B-Series o HA non sincronizzato a causa dell'esaurimento delle risorse dello switch

Summary: Dopo il failover di High Availability (HA), i processori di controllo (CP) non sono sincronizzati e il riavvio del CP di standby non risolve il problema.

Symptoms

Cause

Resolution

Additional Information

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services