Connectrix-Switch der B-Serie – Fehler oder HA nicht synchronisiert, da die Ressourcen für den Switch knapp werden

Summary: Nach einem HA-Failover (High Availability) werden die Steuerungsprozessoren (CP) nicht synchronisiert und durch einen Neustart des Stand-by-CP wird das Problem nicht behoben.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Auswirkungen:

  • HA ist nach dem Failover nicht synchronisiert. Durch einen Neustart des Standby-CP wird das Problem nicht behoben.
  • CALD-Prozess (Common Access Layer Daemon) reagiert nicht mehr (Verwaltungsanwendungen verwenden CALD)
  • Ausschalten von Ressourcen
  • Switch-Panik

Umgebung:

  • Dell Hardware: Connectrix ED-DCX7-4B
  • Dell Hardware: Connectrix ED-DCX7-8B
  • Dell Hardware: Connectrix ED-DCX6-4B
  • Dell Hardware: Connectrix ED-DCX6-8B
  • Dell Hardware: Connectrix ED-8510-8B
  • Dell Hardware: Connectrix ED-8510-4B
  • Dell Hardware: Connectrix DS-7730B
  • Dell Hardware: Connectrix DS-7720B
  • Dell Hardware: Connectrix DS-6630B
  • Dell Hardware: Connectrix DS-6620B
  • Dell Hardware: Connectrix DS-6610B
  • Dell Hardware: Connectrix DS-6520B
  • Dell Hardware: Connectrix DS-6510B
  • Dell Hardware: Connectrix DS-6505B
  • Dell Hardware: Connectrix MP-7810
  • Dell Software: Secure Connect Gateway
  • Dell Software: Secure Remote Services
  • Dell Software: CloudIQ
  • Brocade-Software: Fabric OS 8.x
  • Brocade-Software: Fabric OS 9.x

Problem:

  • Der CALD-Daemon wird beendet oder ist nicht verfügbar, was zu einem Switch-Fehler aufgrund einer Flut von Warnmeldungen auf hohem Niveau führen kann.
  • HA ist nicht synchron, wenn der Switch den CALD-Daemon nicht wiederherstellen kann.
  • CloudIQ beendet die Überwachung des Switch.

Fehler:
Err Dump: Das Symptom ist ein Fabric OS CALD-Fehler:

[KSWD-1002], 36479, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:2395.
[KSWD-1002], 36774, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3063.
[KSWD-1002], 36855, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3868.

Beispiele für PDshow:

^EUnable to handle kernel paging request for unknown fault^M
^EFaulting instruction address: 0x401b4ad8^M
^EOops taken on: 2021-02-04 at 13:57:09:090194^M
^EOops: Kernel access of bad area, sig: 7 [#1]^M
^EPREEMPT ^ESMP NR_CPUS=4 ^ELTT NESTING LEVEL : 0 ^E^M


SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1)
SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0
Service instances out of sync
cald: unable to initialize ipc: -11
cal: ASP init failure (-4)
/bin/cat: write error: No space left on device
/bin/cat: write error: No space left on device

HADUMP-Ausgabe:

== State ==
   fcsw:0:0(2) IMG_INCOMP[A:S]    IMG_COMP(1)
     fcsw0(M22)    IMG_COMP    IMG_COMP    
   diagfss(M22)    IMG_COMP    IMG_COMP    
        fc(M22)    IMG_COMP    IMG_COMP    
        rt(M22)    IMG_COMP    IMG_COMP    
       swc(M22)    IMG_COMP    IMG_COMP    
       web(M22)    IMG_COMP    IMG_COMP    
        md(M22)    IMG_COMP    IMG_COMP    
       cal(M22)    IMG_INCOMP    IMG_COMP

Die Ausgabe von ps exfcl in der Support-Show zeigt:
CALD konnte nicht neu gestartet werden, da der ursprüngliche Daemon in einen nicht mehr aktiven Zustand versetzt wurde, und als der FOS versuchte, einen neuen CALD-Daemon zu initialisieren, war dies nicht möglich, da CALD einen Status hatte, der darauf hinwies, dass er noch aktiv war.

0     0  2150  1824  18   0      0     0 -      Z    ?        25919:54  \_ cald <defunct>

Spezifische Bedingung:
Secure Remote Services und/oder Secure Connect Gateway überwachen den Switch.

Cause

Dies trat in FOS 8.2.3c1 auf.
Der Thread verlässt den Ressourcenzustand als Ergebnis eines Ressourcenlecks mit dem Secure Remote Support-Thread in CALD, der für das Senden der Supportshow-Ausgabe an den Secure Remote Services-Server erzeugt wurde.

Der Grund dafür, dass CALD dann nicht neu gestartet werden kann, ist auf einen separaten Fehler zurückzuführen.

Ursache:
CALD konnte nicht neu gestartet werden, weil der ursprüngliche Daemon in einen nicht mehr existierenden Zustand wechselte. Als FOS versuchte, einen neuen Cald-Daemon zu initialisieren, war dies nicht möglich, da CALD einen Status hatte, der darauf hinwies, dass er noch aktiv war. Dies führte dazu, dass der FOS den neuen CALD-Daemon nicht in einen funktionierenden Zustand versetzen konnte.

0     0  2150  1824  18   0      0     0 -      Z    ?        25919:54  \_ cald <defunct>
SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1)
SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0
Service instances out of sync
cald: unable to initialize ipc: -11
cal: ASP init failure (-4)
/bin/cat: write error: No space left on device
/bin/cat: write error: No space left on device

Das Engineering portiert beide Korrekturen in 8.2.3e zurück.

Resolution

Lösung:
Upgrade auf:

  • Fabric OS v8.2.3e oder höher
  • Fabric OS v9.1.1d oder höher
  • Fabric OS v9.2.0b oder höher
  • Fabric OS v9.2.1 oder höher

Problemumgehung:
Der Switch muss einen Kaltstart durchlaufen, um wiederhergestellt zu werden und die CPs zu synchronisieren. Geben Sie am Switch den folgenden Befehl aus und ziehen Sie am Netzkabel.

sysshutdown

Überwachen Sie Switches genau auf kritische Warnmeldungen und beheben Sie die Bedingungen, die die kritischen Warnmeldungen verursachen, umgehend oder heben Sie die Überwachung des Switches über Secure Remote Services oder Secure Connect Gateway auf.

Additional Information

  • Wenn ein sekundärer CALD-Prozess ausgeführt wird, muss der Switch weiterhin das Wiederherstellungsverfahren des Hafailover-Versuchs durchlaufen (vorzugsweise in einem Wartungsfenster). Wenn HA nicht mehr synchron ist, ist ein COLD-Neustart erforderlich.
Brocade DEFEKT FOS-853249
Brocade DEFEKT FOS-854095

Affected Products

Connectrix B-Series, Secure Connect Gateway, CloudIQ, EMC Secure Remote Services
Article Properties
Article Number: 000220385
Article Type: Solution
Last Modified: 05 Apr 2024
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.