Connectrix Bシリーズ スイッチのパニックまたはスイッチのリソース不足によるHAの同期ずれ

Summary: 高可用性(HA)フェールオーバー後にコントロール プロセッサー(CP)が同期されず、スタンバイCPを再起動しても問題は解決しません。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

影響:

  • フェールオーバー後にHAが同期していません。スタンバイCPを再起動しても、問題は解決しません。
  • Common Access Layerデーモン(CALD)プロセスが応答を停止する(管理機能アプリケーションはCALDを使用)
  • リソースの切り替え
  • スイッチ パニック

環境:

  • Dellハードウェア: Connectrix ED-DCX7-4B
  • Dellハードウェア: Connectrix ED-DCX7-8B
  • Dellハードウェア: Connectrix ED-DCX6-4B
  • Dellハードウェア: Connectrix ED-DCX6-8B
  • Dellハードウェア: Connectrix ED-8510-8B
  • Dellハードウェア: Connectrix ED-8510-4B
  • Dellハードウェア: Connectrix DS-7730B
  • Dellハードウェア: Connectrix DS-7720B
  • Dellハードウェア: Connectrix DS-6630B
  • Dellハードウェア: Connectrix DS-6620B
  • Dellハードウェア: Connectrix DS-6610B
  • Dellハードウェア: Connectrix DS-6520B
  • Dellハードウェア: Connectrix DS-6510B
  • Dellハードウェア: Connectrix DS-6505B
  • Dellハードウェア: Connectrix MP-7810
  • Dell Software: セキュア コネクト ゲートウェイ:
  • Dell Software: セキュア リモート サービス
  • Dell Software: CloudIQ
  • Brocadeソフトウェア: Fabric OS 8.x
  • Brocadeソフトウェア: Fabric OS 9.x

トピック:

  • CALDデーモンが終了するか使用不可になり、重大または高レベルのアラートが大量に発生したためにスイッチ パニックが発生する可能性があります。
  • スイッチがCALDデーモンを回復できない場合、HAは同期されていません。
  • CloudIQがスイッチの監視を停止する

エラー:
エラー ダンプ: 症状は、Fabric OS CALDパニックです。

[KSWD-1002], 36479, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:2395.
[KSWD-1002], 36774, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3063.
[KSWD-1002], 36855, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3868.

PDshowの例:

^EUnable to handle kernel paging request for unknown fault^M
^EFaulting instruction address: 0x401b4ad8^M
^EOops taken on: 2021-02-04 at 13:57:09:090194^M
^EOops: Kernel access of bad area, sig: 7 [#1]^M
^EPREEMPT ^ESMP NR_CPUS=4 ^ELTT NESTING LEVEL : 0 ^E^M


SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1)
SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0
Service instances out of sync
cald: unable to initialize ipc: -11
cal: ASP init failure (-4)
/bin/cat: write error: No space left on device
/bin/cat: write error: No space left on device

HADUMP 出力:

== State ==
   fcsw:0:0(2) IMG_INCOMP[A:S]    IMG_COMP(1)
     fcsw0(M22)    IMG_COMP    IMG_COMP    
   diagfss(M22)    IMG_COMP    IMG_COMP    
        fc(M22)    IMG_COMP    IMG_COMP    
        rt(M22)    IMG_COMP    IMG_COMP    
       swc(M22)    IMG_COMP    IMG_COMP    
       web(M22)    IMG_COMP    IMG_COMP    
        md(M22)    IMG_COMP    IMG_COMP    
       cal(M22)    IMG_INCOMP    IMG_COMP

support showの
ps exfcl出力:「CALDが再起動に失敗しました。元のデーモンがアクティブでない状態になったためです。また、FOSが新しいCALDデーモンを初期化しようとしたときに、CALDのステータスがまだアクティブであるために初期化できませんでした。

0     0  2150  1824  18   0      0     0 -      Z    ?        25919:54  \_ cald <defunct>

Specific Condition:
スイッチをモニタリングするSecure Remote ServicesまたはSecure Connect Gateway

Cause

これはFOS 8.2.3c1で発生しました。
Support Show出力をSecure Remote Servicesサーバーに送信するために生成された、CALDのSecure Remote Supportスレッドでのリソース リークの結果として、スレッドがリソース状態から外れました。

その後、CALDを再起動できない理由は、別の欠陥によるものです。

根本原因:
元のデーモンがアクティブ状態になったため、CALDの再起動に失敗しました。また、FOSが新しいcaldデーモンを初期化しようとしたときに、CALDのステータスがまだ稼働していることを示すため、初期化できませんでした。その結果、FOSは新しいCALDデーモンを動作状態にすることができませんでした。

0     0  2150  1824  18   0      0     0 -      Z    ?        25919:54  \_ cald <defunct>
SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1)
SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0
Service instances out of sync
cald: unable to initialize ipc: -11
cal: ASP init failure (-4)
/bin/cat: write error: No space left on device
/bin/cat: write error: No space left on device

エンジニアリングは両方の修正を8.2.3eにバックポートします。

Resolution

修正:
アップグレード先:

  • Fabric OS v8.2.3e以降
  • Fabric OS v9.1.1d以降
  • Fabric OS v9.2.0b以降
  • Fabric OS v9.2.1以降

回避 策:
CPをリカバリーして同期させるためには、スイッチでコールド ブートを実行する必要があります。スイッチで次のコマンドを発行し、電源ケーブルを引き出します。

sysshutdown

スイッチの重大アラートを注意深く監視し、重大なアラートの原因となっている状態に直ちに対処するか、Secure Remote Servicesまたはセキュア コネクト ゲートウェイからスイッチの監視を解除します。

Additional Information

  • セカンダリ CALD プロセスが実行されている場合、スイッチは hafailover を試行するリカバリ手順を(できればメンテナンス ウィンドウで)実行する必要があり、HA が同期しなくなった場合はコールド リブートが必要です。
Brocadeの欠陥 FOS-853249
Brocadeの欠陥 FOS-854095

Affected Products

Connectrix B-Series, Secure Connect Gateway, CloudIQ, EMC Secure Remote Services
Article Properties
Article Number: 000220385
Article Type: Solution
Last Modified: 05 Apr 2024
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.