Connectrix Cisco:由於 PDU 意外活動,交換器已重新開機

摘要: 由於配電裝置意外活動,交換器確實已重新開機。

本文章適用於 本文章不適用於 本文無關於任何特定產品。 本文未識別所有產品版本。

症狀

在每個交換器中,有三個 PSU 關閉,但它們的編號不同:
交換器 1 --> PSU 1、4、5 不存在或已關閉。
交換器 2 --> PSU 1、3、5 不存在或關機。

 

Cisco 文件:
https://www.cisco.com/c/en/us/td/docs/dcn/mds9000/hw/9700/cisco-mds-9700-switching-module-installation-guide.pdf此超連結會帶您前往 Dell Technologies 以外的網站。

 

PSU 1、2、5 和 6 以及 gird A 和 PSU 3、4、7、8
Cisco MDS 9710 電網與 PSU 連線

 

兩者皆未依上述方式連接 PSU。在這種情況下,由於是 PS 備援模式:
範例:以下是交換器的時間表:

Switch 1
2023 Dec  2 16:05:56  PSUs 1, 4 and 5 go down and switch seems to reload.

Switch initializes on 3 PSUs
2023 Dec  2 16:07:19 PSU 2 comes up
2023 Dec  2 16:07:19 PSU 3 comes up
2023 Dec  2 16:07:19 PSU 6 comes up (Switch initializes just fine on 3 PSUs)

2023 Dec  2 16:23:07 PSU 1 comes up
2023 Dec  2 16:23:09 PSU 4 comes up
2023 Dec  2 16:23:12 PSU 5 comes up (all 6 PSUs are up)

2023 Dec  2 16:27:01  PSU 2 goes down
2023 Dec  2 16:27:03  PSU 3 goes down
2023 Dec  2 16:27:06  PSU 6 goes down (switch stays up with just 3 PSUs)

2023 Dec  2 16:52:07 PSU 2 comes up
2023 Dec  2 16:52:09 PSU 3 comes up
2023 Dec  2 16:52:12 PSU 6 comes up (all 6 PSUs are up)

Switch 2:
2023 Dec  2 16:06:00 PSUs 1, 3 and 5 go down and switch seems to reload.

Switch initializes on 3 PSUs
2023 Dec  2 16:07:21 PSU 2 comes up
2023 Dec  2 16:07:21 PSU 4 comes up
2023 Dec  2 16:07:21 PSU 6 comes up (Switch initializes just fine on 3 PSUs)

2023 Dec  2 16:23:07 PSU 1 comes up
2023 Dec  2 16:23:09 PSU 3 comes up
2023 Dec  2 16:23:12 PSU 5 comes up (all 6 PSUs are up)

2023 Dec  2 16:27:01 PSU 2 goes down
2023 Dec  2 16:27:03 PSU 4 goes down
2023 Dec  2 16:27:06 PSU 2 goes down (switch stays up with just 3 PSUs)

2023 Dec  2 16:52:07 PSU 2 comes up
2023 Dec  2 16:52:09 PSU 4 comes up
2023 Dec  2 16:52:12 PSU 6 comes up (all 6 PSUs are up)


2023 Dec  2 16:05:56 Switch 1 %PLATFORM-2-PS_ABSENT: Power supply 1 is absent/shutdown, ps-redundancy might be affected
2023 Dec  2 16:05:56 Switch 1 %PLATFORM-2-PS_ABSENT: Power supply 4 is absent/shutdown, ps-redundancy might be affected
2023 Dec  2 16:05:56 Switch 1 %PLATFORM-2-PS_ABSENT: Power supply 5 is absent/shutdown, ps-redundancy might be affected
2023 Dec  2 16:05:57 Switch 1 %USBHSD-2-MOUNT: logflash: online 
2023 Dec  2 16:05:59 Switch 1 %DAEMON-3-SYSTEM_MSG: sendto(10.0.0.0): Network is unreachable - ntpd[6294]
2023 Dec  2 16:06:00 Switch 1 %USER-3-SYSTEM_MSG: pdslib_initialize: If the client is  already intialized    - pm
2023 Dec  2 16:06:15 Switch 1 %USER-3-SYSTEM_MSG: pdslib_initialize: If the client is  already intialized    - stp
2023 Dec  2 16:06:15 Switch 1 %DAEMON-3-SYSTEM_MSG: sendto(10.0.0.0): Network is unreachable - ntpd[6294]
2023 Dec  2 16:06:26 Switch 1 %IM-5-IM_MGMT_INTF_STATE: mgmt0 is DOWN
2023 Dec  2 16:06:31 Switch 1 %DAEMON-3-SYSTEM_MSG: sendto(10.0.0.0): Network is unreachable - ntpd[6294]
2023 Dec  2 16:06:49 Switch 1 %DAEMON-3-SYSTEM_MSG: sendto(10.0.0.0): Network is unreachable - ntpd[6294]
2023 Dec  2 16:06:49 Switch 1 device_test: oper speed(10),oper duplex(1) 
2023 Dec  2 16:07:01 Switch 1 %IM-5-IM_MGMT_INTF_STATE: mgmt0 is UP

 

原因

交換器重新載入時,重新開機時只有三個電源供應器 (PSU) 處於作用中狀態。後來,當這三個 PSU 再次故障時,交換器仍保持運作,且不會重新載入。
顯然,交換器可與三個 PSU 充分搭配運作。然而,在三個 PSU 故障後,其他 3 個 PSU 出現暫時斷電,導致交換器重新載入。

 

此外,值得注意的是,每個電源都維護一些報警位或標誌。這些會記錄個別 PSU 電源中斷等事件。
如果所有 PSU 同時斷電,系統會在短暫時間後清除這些位元。

 

在這種情況下,它們全部為零:

PS 1
-----
...
  alm_bits  0: 0: 0: 0: 0
PS 2
-----
...
  alm_bits  0: 0: 0: 0: 0
PS 3
-----
...
  alm_bits  0: 0: 0: 0: 0
PS 4
-----
...
  alm_bits  0: 0: 0: 0: 0
PS 5
-----
...
  alm_bits  0: 0: 0: 0: 0
PS 6
-----
...
  alm_bits  0: 0: 0: 0: 0

 

在 1 至 6 使用 PSU 進行實驗室測試。電源線從 PSU 1、4 和 5 拔出 (就像交換器上發生的情況一樣),而交換器仍可正常運作。

 

如前所述,在兩個交換器中,每個交換器都損失 3 個 PSU,而且交換器也會保持運作。

 

每個交換器上的 3 個 PSU 似乎發生故障,接著其他 3 個 PSU 再次發生暫時中斷。這導致交換機由於沒有電源而完全失效。

 

解析度

進行故障診斷時,使用者發現 「alm_bits」值均為零:'0: 0: 0: 0: 0' 這些位元表示與網路交換器中的電源供應單元 (PSU) 相關的各種警報狀態。當所有 PSU 同時斷電時,這些報警位元會被清除。

 

讓我們探討一下此行為的含義。

 

根本原因分析:

  1. 互連的 PSU:
    在您的網路交換器中,每個 PSU 都會從其他 PSU 接收電力。這種互連確保了冗餘和容錯。
    當所有 PSU 斷電時,報警位元將重設為零。這種情況表示所有六個 PSU 都已完全斷電,即使只是暫時的。
  2. 暫態電力損失:
    根本原因在於所有 PSU 都會經歷短暫的電源中斷。
    當交換器在僅使用三個使用中的 PSU 的情況下繼續運作時,同時斷電會觸發警報位元重設。

 

內部位元值與說明文件:

 

報警位寄存器:
交換器內部有各種追蹤 PSU 狀態的暫存器。其中包括指示斷電、恢復和其他故障的位元。
遺憾的是,思科尚未公開記錄這些內部位值。
但是,當所有 PSU 斷電時,系統會清除警報位元。

 

緩解措施與建議:

  • 監控和備援:
  • 繼續監控 PSU 執行狀況與警報。
  • 請確定至少有一個電源供應器維持供電,以避免同時斷電。
  • 請記住,瞭解 PSU 行為並維持配電裝置 (PDU) 連線備援對於網路可靠性至關重要。

 

受影響的產品

Connectrix MDS-Series Hardware

產品

Connectrix MDS-Series
文章屬性
文章編號: 000224120
文章類型: Solution
上次修改時間: 15 4月 2025
版本:  2
向其他 Dell 使用者尋求您問題的答案
支援服務
檢查您的裝置是否在支援服務的涵蓋範圍內。