Connectrix Cisco:予期しないPDUアクティビティによりスイッチが再起動されました
概要: 予期しない配電ユニットのアクティビティにより、スイッチが再起動しました。
現象
各スイッチで、3台のPSUが停止していますが、番号は同じではありません。
スイッチ1 --> PSU 1、4、5が存在しないか、シャットダウンしています。
スイッチ2:> PSU 1、3、5が存在しないか、シャットダウンしています。
PSU 1、2、5、6、およびガードAとPSU 3、4、7、8
これらのいずれにも、上記のようにPSUが接続されていません。この場合、PS冗長モードであるため:
例: スイッチのタイムラインは次のとおりです。
Switch 1 2023 Dec 2 16:05:56 PSUs 1, 4 and 5 go down and switch seems to reload. Switch initializes on 3 PSUs 2023 Dec 2 16:07:19 PSU 2 comes up 2023 Dec 2 16:07:19 PSU 3 comes up 2023 Dec 2 16:07:19 PSU 6 comes up (Switch initializes just fine on 3 PSUs) 2023 Dec 2 16:23:07 PSU 1 comes up 2023 Dec 2 16:23:09 PSU 4 comes up 2023 Dec 2 16:23:12 PSU 5 comes up (all 6 PSUs are up) 2023 Dec 2 16:27:01 PSU 2 goes down 2023 Dec 2 16:27:03 PSU 3 goes down 2023 Dec 2 16:27:06 PSU 6 goes down (switch stays up with just 3 PSUs) 2023 Dec 2 16:52:07 PSU 2 comes up 2023 Dec 2 16:52:09 PSU 3 comes up 2023 Dec 2 16:52:12 PSU 6 comes up (all 6 PSUs are up) Switch 2: 2023 Dec 2 16:06:00 PSUs 1, 3 and 5 go down and switch seems to reload. Switch initializes on 3 PSUs 2023 Dec 2 16:07:21 PSU 2 comes up 2023 Dec 2 16:07:21 PSU 4 comes up 2023 Dec 2 16:07:21 PSU 6 comes up (Switch initializes just fine on 3 PSUs) 2023 Dec 2 16:23:07 PSU 1 comes up 2023 Dec 2 16:23:09 PSU 3 comes up 2023 Dec 2 16:23:12 PSU 5 comes up (all 6 PSUs are up) 2023 Dec 2 16:27:01 PSU 2 goes down 2023 Dec 2 16:27:03 PSU 4 goes down 2023 Dec 2 16:27:06 PSU 2 goes down (switch stays up with just 3 PSUs) 2023 Dec 2 16:52:07 PSU 2 comes up 2023 Dec 2 16:52:09 PSU 4 comes up 2023 Dec 2 16:52:12 PSU 6 comes up (all 6 PSUs are up) 2023 Dec 2 16:05:56 Switch 1 %PLATFORM-2-PS_ABSENT: Power supply 1 is absent/shutdown, ps-redundancy might be affected 2023 Dec 2 16:05:56 Switch 1 %PLATFORM-2-PS_ABSENT: Power supply 4 is absent/shutdown, ps-redundancy might be affected 2023 Dec 2 16:05:56 Switch 1 %PLATFORM-2-PS_ABSENT: Power supply 5 is absent/shutdown, ps-redundancy might be affected 2023 Dec 2 16:05:57 Switch 1 %USBHSD-2-MOUNT: logflash: online 2023 Dec 2 16:05:59 Switch 1 %DAEMON-3-SYSTEM_MSG: sendto(10.0.0.0): Network is unreachable - ntpd[6294] 2023 Dec 2 16:06:00 Switch 1 %USER-3-SYSTEM_MSG: pdslib_initialize: If the client is already intialized - pm 2023 Dec 2 16:06:15 Switch 1 %USER-3-SYSTEM_MSG: pdslib_initialize: If the client is already intialized - stp 2023 Dec 2 16:06:15 Switch 1 %DAEMON-3-SYSTEM_MSG: sendto(10.0.0.0): Network is unreachable - ntpd[6294] 2023 Dec 2 16:06:26 Switch 1 %IM-5-IM_MGMT_INTF_STATE: mgmt0 is DOWN 2023 Dec 2 16:06:31 Switch 1 %DAEMON-3-SYSTEM_MSG: sendto(10.0.0.0): Network is unreachable - ntpd[6294] 2023 Dec 2 16:06:49 Switch 1 %DAEMON-3-SYSTEM_MSG: sendto(10.0.0.0): Network is unreachable - ntpd[6294] 2023 Dec 2 16:06:49 Switch 1 device_test: oper speed(10),oper duplex(1) 2023 Dec 2 16:07:01 Switch 1 %IM-5-IM_MGMT_INTF_STATE: mgmt0 is UP
原因
スイッチがリロードされると、3台の電源供給ユニット(PSU)のみがアクティブな状態で復帰しました。その後、これら3台のPSUに再び障害が発生しても、スイッチは動作し続け、リロードされませんでした。
どうやら、スイッチは3台のPSUで十分に機能しているようです。しかし、3台のPSUに障害が発生した後、他の3台のPSUで瞬間的な電力損失が発生し、スイッチが再ロードされました。
また、各電源装置がいくつかのアラームビットまたはフラグを維持していることも注目に値します。これらは、個々のPSUの電源喪失などのイベントを記録します。
すべてのPSUが同時に電力を失った場合、これらのビットは短時間後にクリアされます。
この場合、それらはすべてゼロです。
PS 1 ----- ... alm_bits 0: 0: 0: 0: 0 PS 2 ----- ... alm_bits 0: 0: 0: 0: 0 PS 3 ----- ... alm_bits 0: 0: 0: 0: 0 PS 4 ----- ... alm_bits 0: 0: 0: 0: 0 PS 5 ----- ... alm_bits 0: 0: 0: 0: 0 PS 6 ----- ... alm_bits 0: 0: 0: 0: 0
ラボテストは、1〜6のPSUを使用して実施されました。PSU 1、4、5からの電源コードが抜けると(スイッチで発生したような)、スイッチは正常に動作したままになります。
前述のように、両方のスイッチで、各スイッチで3つのPSUが失われ、スイッチもアップ状態のままになるという問題が発生しました。
各スイッチで3台のPSUに障害が発生し、他の3台のPSUで別の瞬間的な停止が発生したようです。そのため、電源が供給されず、スイッチに完全な障害が発生しました。
解決方法
トラブルシューティング中に、ユーザーは「alm_bits」値がすべてゼロであることに気付きました。'0: 0: 0: 0: 0' これらのビットは、ネットワーク スイッチの電源供給ユニット(PSU)に関連するさまざまなアラームのステータスを示します。すべてのPSUが同時に電力を失うと、これらのアラームビットはクリアされます。
この動作の影響を探ってみましょう。
根本原因の分析:
- 相互接続されたPSU:
ネットワーク スイッチでは、各PSUが他のPSUから電力を受け取ります。この相互接続により、冗長性とフォールト トレランスが確保されます。
すべてのPSUの電源が失われると、アラーム ビットはゼロにリセットされます。この事象は、たとえ一時的であっても、6台のPSUすべてに影響する完全な電源喪失を示唆しています。 - 瞬間的な電力損失:
根本原因は、すべてのPSUで発生する瞬間的な電源停止にあります。
スイッチは 3 台のアクティブ PSU のみで動作を続けていましたが、同時に電力が失われたため、アラーム ビットのリセットがトリガーされました。
内部ビット値とドキュメント:
アラームビットレジスタ:
スイッチの内部には、PSUのステータスを追跡するさまざまなレジスターがあります。これには、電源喪失、リカバリー、その他の障害を示すビットが含まれます
残念ながら、シスコはこれらの内部ビット値を公式に文書化していません
ただし、すべてのPSUの電源が失われると、アラーム ビットがクリアされます。
緩和策と推奨事項:
- 監視と冗長性:
- PSUの正常性とアラームのモニタリングを続行します。
- 同時電源喪失を防ぐため、少なくとも1台のPSUが電力を維持していることを確認します。
- PSUの動作を理解し、配電ユニット(PDU)接続の冗長性を維持することは、ネットワークの信頼性にとって重要であることに注意してください。