Connectrix Cisco:予期しないPDUアクティビティによりスイッチが再起動されました

概要: 予期しない配電ユニットのアクティビティにより、スイッチが再起動しました。

この記事は次に適用されます: この記事は次には適用されません: この記事は、特定の製品に関連付けられていません。 すべての製品パージョンがこの記事に記載されているわけではありません。

現象

各スイッチで、3台のPSUが停止していますが、番号は同じではありません。
スイッチ1 --> PSU 1、4、5が存在しないか、シャットダウンしています。
スイッチ2:> PSU 1、3、5が存在しないか、シャットダウンしています。

 

シスコ ドキュメント:
https://www.cisco.com/c/en/us/td/docs/dcn/mds9000/hw/9700/cisco-mds-9700-switching-module-installation-guide.pdfこのハイパーリンクをクリックすると、デル・テクノロジーズ以外のWebサイトにアクセスします。

 

PSU 1、2、5、6、およびガードAとPSU 3、4、7、8
Cisco MDS 9710グリッドPSU接続

 

これらのいずれにも、上記のようにPSUが接続されていません。この場合、PS冗長モードであるため:
例: スイッチのタイムラインは次のとおりです。

Switch 1
2023 Dec  2 16:05:56  PSUs 1, 4 and 5 go down and switch seems to reload.

Switch initializes on 3 PSUs
2023 Dec  2 16:07:19 PSU 2 comes up
2023 Dec  2 16:07:19 PSU 3 comes up
2023 Dec  2 16:07:19 PSU 6 comes up (Switch initializes just fine on 3 PSUs)

2023 Dec  2 16:23:07 PSU 1 comes up
2023 Dec  2 16:23:09 PSU 4 comes up
2023 Dec  2 16:23:12 PSU 5 comes up (all 6 PSUs are up)

2023 Dec  2 16:27:01  PSU 2 goes down
2023 Dec  2 16:27:03  PSU 3 goes down
2023 Dec  2 16:27:06  PSU 6 goes down (switch stays up with just 3 PSUs)

2023 Dec  2 16:52:07 PSU 2 comes up
2023 Dec  2 16:52:09 PSU 3 comes up
2023 Dec  2 16:52:12 PSU 6 comes up (all 6 PSUs are up)

Switch 2:
2023 Dec  2 16:06:00 PSUs 1, 3 and 5 go down and switch seems to reload.

Switch initializes on 3 PSUs
2023 Dec  2 16:07:21 PSU 2 comes up
2023 Dec  2 16:07:21 PSU 4 comes up
2023 Dec  2 16:07:21 PSU 6 comes up (Switch initializes just fine on 3 PSUs)

2023 Dec  2 16:23:07 PSU 1 comes up
2023 Dec  2 16:23:09 PSU 3 comes up
2023 Dec  2 16:23:12 PSU 5 comes up (all 6 PSUs are up)

2023 Dec  2 16:27:01 PSU 2 goes down
2023 Dec  2 16:27:03 PSU 4 goes down
2023 Dec  2 16:27:06 PSU 2 goes down (switch stays up with just 3 PSUs)

2023 Dec  2 16:52:07 PSU 2 comes up
2023 Dec  2 16:52:09 PSU 4 comes up
2023 Dec  2 16:52:12 PSU 6 comes up (all 6 PSUs are up)


2023 Dec  2 16:05:56 Switch 1 %PLATFORM-2-PS_ABSENT: Power supply 1 is absent/shutdown, ps-redundancy might be affected
2023 Dec  2 16:05:56 Switch 1 %PLATFORM-2-PS_ABSENT: Power supply 4 is absent/shutdown, ps-redundancy might be affected
2023 Dec  2 16:05:56 Switch 1 %PLATFORM-2-PS_ABSENT: Power supply 5 is absent/shutdown, ps-redundancy might be affected
2023 Dec  2 16:05:57 Switch 1 %USBHSD-2-MOUNT: logflash: online 
2023 Dec  2 16:05:59 Switch 1 %DAEMON-3-SYSTEM_MSG: sendto(10.0.0.0): Network is unreachable - ntpd[6294]
2023 Dec  2 16:06:00 Switch 1 %USER-3-SYSTEM_MSG: pdslib_initialize: If the client is  already intialized    - pm
2023 Dec  2 16:06:15 Switch 1 %USER-3-SYSTEM_MSG: pdslib_initialize: If the client is  already intialized    - stp
2023 Dec  2 16:06:15 Switch 1 %DAEMON-3-SYSTEM_MSG: sendto(10.0.0.0): Network is unreachable - ntpd[6294]
2023 Dec  2 16:06:26 Switch 1 %IM-5-IM_MGMT_INTF_STATE: mgmt0 is DOWN
2023 Dec  2 16:06:31 Switch 1 %DAEMON-3-SYSTEM_MSG: sendto(10.0.0.0): Network is unreachable - ntpd[6294]
2023 Dec  2 16:06:49 Switch 1 %DAEMON-3-SYSTEM_MSG: sendto(10.0.0.0): Network is unreachable - ntpd[6294]
2023 Dec  2 16:06:49 Switch 1 device_test: oper speed(10),oper duplex(1) 
2023 Dec  2 16:07:01 Switch 1 %IM-5-IM_MGMT_INTF_STATE: mgmt0 is UP

 

原因

スイッチがリロードされると、3台の電源供給ユニット(PSU)のみがアクティブな状態で復帰しました。その後、これら3台のPSUに再び障害が発生しても、スイッチは動作し続け、リロードされませんでした。
どうやら、スイッチは3台のPSUで十分に機能しているようです。しかし、3台のPSUに障害が発生した後、他の3台のPSUで瞬間的な電力損失が発生し、スイッチが再ロードされました。

 

また、各電源装置がいくつかのアラームビットまたはフラグを維持していることも注目に値します。これらは、個々のPSUの電源喪失などのイベントを記録します。
すべてのPSUが同時に電力を失った場合、これらのビットは短時間後にクリアされます。

 

この場合、それらはすべてゼロです。

PS 1
-----
...
  alm_bits  0: 0: 0: 0: 0
PS 2
-----
...
  alm_bits  0: 0: 0: 0: 0
PS 3
-----
...
  alm_bits  0: 0: 0: 0: 0
PS 4
-----
...
  alm_bits  0: 0: 0: 0: 0
PS 5
-----
...
  alm_bits  0: 0: 0: 0: 0
PS 6
-----
...
  alm_bits  0: 0: 0: 0: 0

 

ラボテストは、1〜6のPSUを使用して実施されました。PSU 1、4、5からの電源コードが抜けると(スイッチで発生したような)、スイッチは正常に動作したままになります。

 

前述のように、両方のスイッチで、各スイッチで3つのPSUが失われ、スイッチもアップ状態のままになるという問題が発生しました。

 

各スイッチで3台のPSUに障害が発生し、他の3台のPSUで別の瞬間的な停止が発生したようです。そのため、電源が供給されず、スイッチに完全な障害が発生しました。

 

解決方法

トラブルシューティング中に、ユーザーは「alm_bits」値がすべてゼロであることに気付きました。'0: 0: 0: 0: 0' これらのビットは、ネットワーク スイッチの電源供給ユニット(PSU)に関連するさまざまなアラームのステータスを示します。すべてのPSUが同時に電力を失うと、これらのアラームビットはクリアされます。

 

この動作の影響を探ってみましょう。

 

根本原因の分析:

  1. 相互接続されたPSU:
    ネットワーク スイッチでは、各PSUが他のPSUから電力を受け取ります。この相互接続により、冗長性とフォールト トレランスが確保されます。
    すべてのPSUの電源が失われると、アラーム ビットはゼロにリセットされます。この事象は、たとえ一時的であっても、6台のPSUすべてに影響する完全な電源喪失を示唆しています。
  2. 瞬間的な電力損失:
    根本原因は、すべてのPSUで発生する瞬間的な電源停止にあります。
    スイッチは 3 台のアクティブ PSU のみで動作を続けていましたが、同時に電力が失われたため、アラーム ビットのリセットがトリガーされました。

 

内部ビット値とドキュメント:

 

アラームビットレジスタ:
スイッチの内部には、PSUのステータスを追跡するさまざまなレジスターがあります。これには、電源喪失、リカバリー、その他の障害を示すビットが含まれます
残念ながら、シスコはこれらの内部ビット値を公式に文書化していません
ただし、すべてのPSUの電源が失われると、アラーム ビットがクリアされます。

 

緩和策と推奨事項:

  • 監視と冗長性:
  • PSUの正常性とアラームのモニタリングを続行します。
  • 同時電源喪失を防ぐため、少なくとも1台のPSUが電力を維持していることを確認します。
  • PSUの動作を理解し、配電ユニット(PDU)接続の冗長性を維持することは、ネットワークの信頼性にとって重要であることに注意してください。

 

対象製品

Connectrix MDS-Series Hardware

製品

Connectrix MDS-Series
文書のプロパティ
文書番号: 000224120
文書の種類: Solution
最終更新: 15 4月 2025
バージョン:  2
質問に対する他のDellユーザーからの回答を見つける
サポート サービス
お使いのデバイスがサポート サービスの対象かどうかを確認してください。