Connectrix Bシリーズ スイッチのパニックまたはスイッチのリソース不足によるHAの同期ずれ
Summary: 高可用性(HA)フェールオーバー後にコントロール プロセッサー(CP)が同期されず、スタンバイCPを再起動しても問題は解決しません。
Symptoms
影響:
- フェールオーバー後にHAが同期していません。スタンバイCPを再起動しても、問題は解決しません。
- Common Access Layerデーモン(CALD)プロセスが応答を停止する(管理機能アプリケーションはCALDを使用)
- リソースの切り替え
- スイッチ パニック
環境:
- Dellハードウェア: Connectrix ED-DCX7-4B
- Dellハードウェア: Connectrix ED-DCX7-8B
- Dellハードウェア: Connectrix ED-DCX6-4B
- Dellハードウェア: Connectrix ED-DCX6-8B
- Dellハードウェア: Connectrix ED-8510-8B
- Dellハードウェア: Connectrix ED-8510-4B
- Dellハードウェア: Connectrix DS-7730B
- Dellハードウェア: Connectrix DS-7720B
- Dellハードウェア: Connectrix DS-6630B
- Dellハードウェア: Connectrix DS-6620B
- Dellハードウェア: Connectrix DS-6610B
- Dellハードウェア: Connectrix DS-6520B
- Dellハードウェア: Connectrix DS-6510B
- Dellハードウェア: Connectrix DS-6505B
- Dellハードウェア: Connectrix MP-7810
- Dell Software: セキュア コネクト ゲートウェイ:
- Dell Software: セキュア リモート サービス
- Dell Software: CloudIQ
- Brocadeソフトウェア: Fabric OS 8.x
- Brocadeソフトウェア: Fabric OS 9.x
トピック:
- CALDデーモンが終了するか使用不可になり、重大または高レベルのアラートが大量に発生したためにスイッチ パニックが発生する可能性があります。
- スイッチがCALDデーモンを回復できない場合、HAは同期されていません。
- CloudIQがスイッチの監視を停止する
エラー:
エラー ダンプ: 症状は、Fabric OS CALDパニックです。
[KSWD-1002], 36479, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:2395. [KSWD-1002], 36774, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3063. [KSWD-1002], 36855, SLOT 1 | FFDC | CHASSIS, WARNING, SWITCH_A, Detected termination of process cald:3868.
PDshowの例:
^EUnable to handle kernel paging request for unknown fault^M ^EFaulting instruction address: 0x401b4ad8^M ^EOops taken on: 2021-02-04 at 13:57:09:090194^M ^EOops: Kernel access of bad area, sig: 7 [#1]^M ^EPREEMPT ^ESMP NR_CPUS=4 ^ELTT NESTING LEVEL : 0 ^E^M SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1) SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0 Service instances out of sync cald: unable to initialize ipc: -11 cal: ASP init failure (-4) /bin/cat: write error: No space left on device /bin/cat: write error: No space left on device
HADUMP 出力:
== State == fcsw:0:0(2) IMG_INCOMP[A:S] IMG_COMP(1) fcsw0(M22) IMG_COMP IMG_COMP diagfss(M22) IMG_COMP IMG_COMP fc(M22) IMG_COMP IMG_COMP rt(M22) IMG_COMP IMG_COMP swc(M22) IMG_COMP IMG_COMP web(M22) IMG_COMP IMG_COMP md(M22) IMG_COMP IMG_COMP cal(M22) IMG_INCOMP IMG_COMP
support showの
ps exfcl出力:「CALDが再起動に失敗しました。元のデーモンがアクティブでない状態になったためです。また、FOSが新しいCALDデーモンを初期化しようとしたときに、CALDのステータスがまだアクティブであるために初期化できませんでした。
0 0 2150 1824 18 0 0 0 - Z ? 25919:54 \_ cald <defunct>
Specific Condition:
スイッチをモニタリングするSecure Remote ServicesまたはSecure Connect Gateway
Cause
これはFOS 8.2.3c1で発生しました。
Support Show出力をSecure Remote Servicesサーバーに送信するために生成された、CALDのSecure Remote Supportスレッドでのリソース リークの結果として、スレッドがリソース状態から外れました。
その後、CALDを再起動できない理由は、別の欠陥によるものです。
根本原因:
元のデーモンがアクティブ状態になったため、CALDの再起動に失敗しました。また、FOSが新しいcaldデーモンを初期化しようとしたときに、CALDのステータスがまだ稼働していることを示すため、初期化できませんでした。その結果、FOSは新しいCALDデーモンを動作状態にすることができませんでした。
0 0 2150 1824 18 0 0 0 - Z ? 25919:54 \_ cald <defunct>
SWD: SWD:swd_close_proc:Detected termination of cald:2150 (1) SWD: SWD:swd_close_proc:exit code:11, exit sig:17, parent sig:0 Service instances out of sync cald: unable to initialize ipc: -11 cal: ASP init failure (-4) /bin/cat: write error: No space left on device /bin/cat: write error: No space left on device
エンジニアリングは両方の修正を8.2.3eにバックポートします。
Resolution
修正:
アップグレード先:
- Fabric OS v8.2.3e以降
- Fabric OS v9.1.1d以降
- Fabric OS v9.2.0b以降
- Fabric OS v9.2.1以降
回避 策:
CPをリカバリーして同期させるためには、スイッチでコールド ブートを実行する必要があります。スイッチで次のコマンドを発行し、電源ケーブルを引き出します。
sysshutdown
スイッチの重大アラートを注意深く監視し、重大なアラートの原因となっている状態に直ちに対処するか、Secure Remote Servicesまたはセキュア コネクト ゲートウェイからスイッチの監視を解除します。
Additional Information
- セカンダリ CALD プロセスが実行されている場合、スイッチは hafailover を試行するリカバリ手順を(できればメンテナンス ウィンドウで)実行する必要があり、HA が同期しなくなった場合はコールド リブートが必要です。
Brocadeの欠陥 FOS-854095