Errore irreversibile dello switch Connectrix B-Series o HA non sincronizzato a causa dell'esaurimento delle risorse dello switch
Summary: Dopo il failover di High Availability (HA), i processori di controllo (CP) non sono sincronizzati e il riavvio del CP di standby non risolve il problema.
Symptoms
Impatto:
- HA non è sincronizzata dopo il failover. Il riavvio del CP di standby non risolve il problema.
- Il processo CALD (Common Access Layer Daemon) smette di rispondere (le applicazioni di gestibilità utilizzano CALD)
- Esaurimento delle risorse
- Errore irreversibile dello switch
Ambiente:
- Hardware Dell: Connectrix ED-DCX7-4B
- Hardware Dell: Connectrix ED-DCX7-8B
- Hardware Dell: Connectrix ED-DCX6-4B
- Hardware Dell: Connectrix ED-DCX6-8B
- Hardware Dell: Connectrix ED-8510-8B
- Hardware Dell: Connectrix ED-8510-4B
- Hardware Dell: Connectrix DS-7730B
- Hardware Dell: Connectrix DS-7720B
- Hardware Dell: Connectrix DS-6630B
- Hardware Dell: Connectrix DS-6620B
- Hardware Dell: Connectrix DS-6610B
- Hardware Dell: Connectrix DS-6520B
- Hardware Dell: Connectrix DS-6510B
- Hardware Dell: Connectrix DS-6505B
- Hardware Dell: Connectrix MP-7810
- Software Dell: Gateway con connessione sicura
- Software Dell: Secure Remote Services
- Software Dell: CloudIQ
- Software Brocade: Fabric OS 8.x
- Software Brocade: Fabric OS 9.x
Problema:
- Il daemon CALD termina o non è disponibile e potrebbe verificarsi un errore irreversibile dello switch a causa di un'ondata di avvisi critici o di alto livello.
- HA non è sincronizzata se lo switch non è in grado di ripristinare il daemon CALD.
- CloudIQ interrompe il monitoraggio dello switch
Errori:
Err dump: Il sintomo è un errore irreversibile CALD del sistema operativo fabric:
[KSWD-1002], 36479, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:2395. [KSWD-1002], 36774, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3063. [KSWD-1002], 36855, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3868.
Esempi di PDshow:
^EUnable to handle kernel paging request for unknown fault^M ^EFaulting instruction address: 0x401b4ad8^M ^EOops taken on: 2021-02-04 at 13:57:09:090194^M ^EOops: Kernel access of bad area, sig: 7 [#1]^M ^EPREEMPT ^ESMP NR_CPUS=4 ^ELTT NESTING LEVEL : 0 ^E^M SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1) SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0 Service instances out of sync cald: unable to initialize ipc: -11 cal: ASP init failure (-4) /bin/cat: write error: No space left on device /bin/cat: write error: No space left on device
Output HADUMP:
== State == fcsw:0:0(2) IMG_INCOMP[A:S] IMG_COMP(1) fcsw0(M22) IMG_COMP IMG_COMP diagfss(M22) IMG_COMP IMG_COMP fc(M22) IMG_COMP IMG_COMP rt(M22) IMG_COMP IMG_COMP swc(M22) IMG_COMP IMG_COMP web(M22) IMG_COMP IMG_COMP md(M22) IMG_COMP IMG_COMP cal(M22) IMG_INCOMP IMG_COMP
L'output di ps exfcl nel supporto mostra:
CALD non è riuscito a riavviarsi perché il daemon originale è entrato in uno stato inattivo e quando FOS ha tentato di inizializzare un nuovo daemon CALD, non è stato in grado di farlo perché CALD aveva uno stato che indicava che era ancora attivo.
0 0 2150 1824 18 0 0 0 - Z ? 25919:54 \_ cald <defunct>
Condizione specifica:
Secure Remote Services e/o Gateway con connessione sicura che monitorano lo switch
Cause
Questo problema è stato osservato in FOS 8.2.3c1.
Thread fuori dalla condizione di risorsa come risultato di una perdita di risorse con il thread Secure Remote Support in CALD, generato per l'invio dell'output support show al server Secure Remote Services.
Il motivo del mancato riavvio della CALD è dovuto a un difetto separato.
Root cause:
CALD non si è riavviato perché il daemon originale è passato a uno stato inattivo e quando FOS ha tentato di inizializzare un nuovo daemon cald, non è riuscito a farlo perché CALD aveva uno stato che indicava che era ancora attivo. Di conseguenza FOS non era in grado di mettere in funzione il nuovo daemon CALD.
0 0 2150 1824 18 0 0 0 - Z ? 25919:54 \_ cald <defunct>
SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1) SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0 Service instances out of sync cald: unable to initialize ipc: -11 cal: ASP init failure (-4) /bin/cat: write error: No space left on device /bin/cat: write error: No space left on device
L'ingegneria esegue il backport di entrambe le correzioni nella versione 8.2.3e.
Resolution
Correzione:
Eseguire l'aggiornamento a:
- Fabric OS v8.2.3e o versione successiva
- Fabric OS v9.1.1d o versione successiva
- Fabric OS v9.2.0b o versione successiva
- Fabric OS v9.2.1 o versione successiva
Soluzione:
Lo switch deve eseguire un avvio a freddo per ripristinare e sincronizzare i CP. Sullo switch, emettere il comando riportato di seguito e tirare il cavo di alimentazione.
sysshutdown
Monitorare attentamente gli switch per verificare la presenza di avvisi critici e risolvere tempestivamente le condizioni che causano gli avvisi critici oppure annullare il monitoraggio dello switch da Secure Remote Services o Gateway con connessione sicura.
Additional Information
- Se è in esecuzione un processo CALD secondario, lo switch deve comunque eseguire la procedura di ripristino del tentativo di hafailover (preferibilmente in una finestra di manutenzione) e se l'HA non è sincronizzato, è necessario il riavvio a freddo.
Brocade DIFETTO FOS-854095