Connectrix-Switch der B-Serie – Fehler oder HA nicht synchronisiert, da die Ressourcen für den Switch knapp werden
Summary: Nach einem HA-Failover (High Availability) werden die Steuerungsprozessoren (CP) nicht synchronisiert und durch einen Neustart des Stand-by-CP wird das Problem nicht behoben.
Symptoms
Auswirkungen:
- HA ist nach dem Failover nicht synchronisiert. Durch einen Neustart des Standby-CP wird das Problem nicht behoben.
- CALD-Prozess (Common Access Layer Daemon) reagiert nicht mehr (Verwaltungsanwendungen verwenden CALD)
- Ausschalten von Ressourcen
- Switch-Panik
Umgebung:
- Dell Hardware: Connectrix ED-DCX7-4B
- Dell Hardware: Connectrix ED-DCX7-8B
- Dell Hardware: Connectrix ED-DCX6-4B
- Dell Hardware: Connectrix ED-DCX6-8B
- Dell Hardware: Connectrix ED-8510-8B
- Dell Hardware: Connectrix ED-8510-4B
- Dell Hardware: Connectrix DS-7730B
- Dell Hardware: Connectrix DS-7720B
- Dell Hardware: Connectrix DS-6630B
- Dell Hardware: Connectrix DS-6620B
- Dell Hardware: Connectrix DS-6610B
- Dell Hardware: Connectrix DS-6520B
- Dell Hardware: Connectrix DS-6510B
- Dell Hardware: Connectrix DS-6505B
- Dell Hardware: Connectrix MP-7810
- Dell Software: Secure Connect Gateway
- Dell Software: Secure Remote Services
- Dell Software: CloudIQ
- Brocade-Software: Fabric OS 8.x
- Brocade-Software: Fabric OS 9.x
Problem:
- Der CALD-Daemon wird beendet oder ist nicht verfügbar, was zu einem Switch-Fehler aufgrund einer Flut von Warnmeldungen auf hohem Niveau führen kann.
- HA ist nicht synchron, wenn der Switch den CALD-Daemon nicht wiederherstellen kann.
- CloudIQ beendet die Überwachung des Switch.
Fehler:
Err Dump: Das Symptom ist ein Fabric OS CALD-Fehler:
[KSWD-1002], 36479, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:2395. [KSWD-1002], 36774, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3063. [KSWD-1002], 36855, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3868.
Beispiele für PDshow:
^EUnable to handle kernel paging request for unknown fault^M ^EFaulting instruction address: 0x401b4ad8^M ^EOops taken on: 2021-02-04 at 13:57:09:090194^M ^EOops: Kernel access of bad area, sig: 7 [#1]^M ^EPREEMPT ^ESMP NR_CPUS=4 ^ELTT NESTING LEVEL : 0 ^E^M SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1) SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0 Service instances out of sync cald: unable to initialize ipc: -11 cal: ASP init failure (-4) /bin/cat: write error: No space left on device /bin/cat: write error: No space left on device
HADUMP-Ausgabe:
== State == fcsw:0:0(2) IMG_INCOMP[A:S] IMG_COMP(1) fcsw0(M22) IMG_COMP IMG_COMP diagfss(M22) IMG_COMP IMG_COMP fc(M22) IMG_COMP IMG_COMP rt(M22) IMG_COMP IMG_COMP swc(M22) IMG_COMP IMG_COMP web(M22) IMG_COMP IMG_COMP md(M22) IMG_COMP IMG_COMP cal(M22) IMG_INCOMP IMG_COMP
Die Ausgabe von ps exfcl in der Support-Show zeigt:
CALD konnte nicht neu gestartet werden, da der ursprüngliche Daemon in einen nicht mehr aktiven Zustand versetzt wurde, und als der FOS versuchte, einen neuen CALD-Daemon zu initialisieren, war dies nicht möglich, da CALD einen Status hatte, der darauf hinwies, dass er noch aktiv war.
0 0 2150 1824 18 0 0 0 - Z ? 25919:54 \_ cald <defunct>
Spezifische Bedingung:
Secure Remote Services und/oder Secure Connect Gateway überwachen den Switch.
Cause
Dies trat in FOS 8.2.3c1 auf.
Der Thread verlässt den Ressourcenzustand als Ergebnis eines Ressourcenlecks mit dem Secure Remote Support-Thread in CALD, der für das Senden der Supportshow-Ausgabe an den Secure Remote Services-Server erzeugt wurde.
Der Grund dafür, dass CALD dann nicht neu gestartet werden kann, ist auf einen separaten Fehler zurückzuführen.
Ursache:
CALD konnte nicht neu gestartet werden, weil der ursprüngliche Daemon in einen nicht mehr existierenden Zustand wechselte. Als FOS versuchte, einen neuen Cald-Daemon zu initialisieren, war dies nicht möglich, da CALD einen Status hatte, der darauf hinwies, dass er noch aktiv war. Dies führte dazu, dass der FOS den neuen CALD-Daemon nicht in einen funktionierenden Zustand versetzen konnte.
0 0 2150 1824 18 0 0 0 - Z ? 25919:54 \_ cald <defunct>
SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1) SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0 Service instances out of sync cald: unable to initialize ipc: -11 cal: ASP init failure (-4) /bin/cat: write error: No space left on device /bin/cat: write error: No space left on device
Das Engineering portiert beide Korrekturen in 8.2.3e zurück.
Resolution
Lösung:
Upgrade auf:
- Fabric OS v8.2.3e oder höher
- Fabric OS v9.1.1d oder höher
- Fabric OS v9.2.0b oder höher
- Fabric OS v9.2.1 oder höher
Problemumgehung:
Der Switch muss einen Kaltstart durchlaufen, um wiederhergestellt zu werden und die CPs zu synchronisieren. Geben Sie am Switch den folgenden Befehl aus und ziehen Sie am Netzkabel.
sysshutdown
Überwachen Sie Switches genau auf kritische Warnmeldungen und beheben Sie die Bedingungen, die die kritischen Warnmeldungen verursachen, umgehend oder heben Sie die Überwachung des Switches über Secure Remote Services oder Secure Connect Gateway auf.
Additional Information
- Wenn ein sekundärer CALD-Prozess ausgeführt wird, muss der Switch weiterhin das Wiederherstellungsverfahren des Hafailover-Versuchs durchlaufen (vorzugsweise in einem Wartungsfenster). Wenn HA nicht mehr synchron ist, ist ein COLD-Neustart erforderlich.
Brocade DEFEKT FOS-854095