Fonctionnement inattendu du commutateur Connectrix série B ou HA désynchronisé en raison d’un manque de ressources sur le commutateur
Summary: Après le basculement de haute disponibilité (HA), les processeurs de contrôle (CP) ne sont pas synchronisés et le redémarrage du CP de secours ne résout pas le problème.
Symptoms
Impact :
- La haute disponibilité n’est pas synchronisée après le basculement. Le redémarrage du CP en veille ne résout pas le problème.
- Le processus Common Access Layer Daemon (CALD) cesse de répondre (les applications de facilité de gestion utilisent le CALD)
- Changer de ressources
- Panique du commutateur
Environnement :
- Matériel Dell : Connectrix ED-DCX7-4B
- Matériel Dell : Connectrix ED-DCX7-8B
- Matériel Dell : Connectrix ED-DCX6-4B
- Matériel Dell : Connectrix ED-DCX6-8B
- Matériel Dell : Connectrix ED-8510-8B
- Matériel Dell : Connectrix ED-8510-4B
- Matériel Dell : Connectrix DS-7730B
- Matériel Dell : Connectrix DS-7720B
- Matériel Dell : Connectrix DS-6630B
- Matériel Dell : Connectrix DS-6620B
- Matériel Dell : Connectrix DS-6610B
- Matériel Dell : Connectrix DS-6520B
- Matériel Dell : Connectrix DS-6510B
- Matériel Dell : Connectrix DS-6505B
- Matériel Dell : Connectrix MP-7810
- Dell Software : Passerelle de connexion sécurisée
- Dell Software : Services à distance sécurisés
- Dell Software : CloudIQ
- Logiciel Brocade : Fabric OS 8.x
- Logiciel Brocade : Fabric OS 9.x
Problème :
- Le processus CALD s’arrête ou est indisponible, et il est possible qu’il y ait un fonctionnement inattendu du commutateur en raison d’un flot d’alertes critiques ou de haut niveau.
- La haute disponibilité est désynchronisée si le commutateur ne parvient pas à restaurer le processus CALD.
- CloudIQ arrête de surveiller le commutateur
Erreurs:
Err dump : Le symptôme est un fonctionnement inattendu de la balise CALD du système d’exploitation du fabric :
[KSWD-1002], 36479, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:2395. [KSWD-1002], 36774, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3063. [KSWD-1002], 36855, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3868.
Exemples de PDshow :
^EUnable to handle kernel paging request for unknown fault^M ^EFaulting instruction address: 0x401b4ad8^M ^EOops taken on: 2021-02-04 at 13:57:09:090194^M ^EOops: Kernel access of bad area, sig: 7 [#1]^M ^EPREEMPT ^ESMP NR_CPUS=4 ^ELTT NESTING LEVEL : 0 ^E^M SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1) SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0 Service instances out of sync cald: unable to initialize ipc: -11 cal: ASP init failure (-4) /bin/cat: write error: No space left on device /bin/cat: write error: No space left on device
Sortie HADUMP :
== State == fcsw:0:0(2) IMG_INCOMP[A:S] IMG_COMP(1) fcsw0(M22) IMG_COMP IMG_COMP diagfss(M22) IMG_COMP IMG_COMP fc(M22) IMG_COMP IMG_COMP rt(M22) IMG_COMP IMG_COMP swc(M22) IMG_COMP IMG_COMP web(M22) IMG_COMP IMG_COMP md(M22) IMG_COMP IMG_COMP cal(M22) IMG_INCOMP IMG_COMP
ps exfcl output dans le support show :
CALD n’a pas pu redémarrer car le processus d’origine est passé dans un état obsolète, et lorsque le FOS a tenté d’initialiser un nouveau processus CALD, il n’a pas pu le faire car CALD avait un état indiquant qu’il était toujours actif.
0 0 2150 1824 18 0 0 0 - Z ? 25919:54 \_ cald <defunct>
Condition spécifique :
Secure Remote Services et/ou Secure Connect Gateway surveillent le commutateur
Cause
Cela a été vu dans FOS 8.2.3c1.
Thread hors de l’état des ressources à la suite d’une fuite de ressources avec le thread Secure Remote Support dans CALD, généré pour l’envoi de la sortie support show au serveur Secure Remote Services.
La raison de l’échec du redémarrage de CALD est due à un défaut distinct.
Cause:
Le CALD n’a pas pu redémarrer car le processus d’origine est passé à l’état obsolète, et lorsque FOS a tenté d’initialiser un nouveau processus cald, il n’a pas pu le faire, car le CALD avait un état indiquant qu’il était toujours actif. Ce problème empêchait le FOS de mettre le nouveau processus CALD en état de fonctionnement.
0 0 2150 1824 18 0 0 0 - Z ? 25919:54 \_ cald <defunct>
SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1) SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0 Service instances out of sync cald: unable to initialize ipc: -11 cal: ASP init failure (-4) /bin/cat: write error: No space left on device /bin/cat: write error: No space left on device
L’équipe d’ingénierie rétroporte les deux correctifs dans la version 8.2.3e.
Resolution
Difficulté:
Mettez à niveau vers :
- Fabric OS v8.2.3e ou version ultérieure
- Fabric OS v9.1.1d ou version ultérieure
- Fabric OS v9.2.0b ou version ultérieure
- Fabric OS v9.2.1 ou version ultérieure
Contournement:
Le commutateur doit faire l’objet d’un démarrage à froid afin de récupérer et de synchroniser les CP. Sur le commutateur, exécutez la commande ci-dessous et tirez sur le câble d’alimentation.
sysshutdown
Surveillez étroitement les commutateurs pour détecter les alertes critiques et traiter rapidement les conditions à l’origine des alertes critiques, ou désactivez la surveillance du commutateur de Secure Remote Services ou de Secure Connect Gateway.
Additional Information
- Si un processus CALD secondaire est en cours d’exécution, le commutateur doit toujours suivre la procédure de récupération de tentative de basculement hafail (de préférence dans une fenêtre de maintenance). Si la haute disponibilité se désynchronise, un redémarrage à froid est nécessaire.
Brocade DEFECT FOS-854095