Connectrix Cisco:由於 PDU 意外活動,交換器已重新開機
摘要: 由於配電裝置意外活動,交換器確實已重新開機。
症狀
在每個交換器中,有三個 PSU 關閉,但它們的編號不同:
交換器 1 --> PSU 1、4、5 不存在或已關閉。
交換器 2 --> PSU 1、3、5 不存在或關機。
PSU 1、2、5 和 6 以及 gird A 和 PSU 3、4、7、8
兩者皆未依上述方式連接 PSU。在這種情況下,由於是 PS 備援模式:
範例:以下是交換器的時間表:
Switch 1 2023 Dec 2 16:05:56 PSUs 1, 4 and 5 go down and switch seems to reload. Switch initializes on 3 PSUs 2023 Dec 2 16:07:19 PSU 2 comes up 2023 Dec 2 16:07:19 PSU 3 comes up 2023 Dec 2 16:07:19 PSU 6 comes up (Switch initializes just fine on 3 PSUs) 2023 Dec 2 16:23:07 PSU 1 comes up 2023 Dec 2 16:23:09 PSU 4 comes up 2023 Dec 2 16:23:12 PSU 5 comes up (all 6 PSUs are up) 2023 Dec 2 16:27:01 PSU 2 goes down 2023 Dec 2 16:27:03 PSU 3 goes down 2023 Dec 2 16:27:06 PSU 6 goes down (switch stays up with just 3 PSUs) 2023 Dec 2 16:52:07 PSU 2 comes up 2023 Dec 2 16:52:09 PSU 3 comes up 2023 Dec 2 16:52:12 PSU 6 comes up (all 6 PSUs are up) Switch 2: 2023 Dec 2 16:06:00 PSUs 1, 3 and 5 go down and switch seems to reload. Switch initializes on 3 PSUs 2023 Dec 2 16:07:21 PSU 2 comes up 2023 Dec 2 16:07:21 PSU 4 comes up 2023 Dec 2 16:07:21 PSU 6 comes up (Switch initializes just fine on 3 PSUs) 2023 Dec 2 16:23:07 PSU 1 comes up 2023 Dec 2 16:23:09 PSU 3 comes up 2023 Dec 2 16:23:12 PSU 5 comes up (all 6 PSUs are up) 2023 Dec 2 16:27:01 PSU 2 goes down 2023 Dec 2 16:27:03 PSU 4 goes down 2023 Dec 2 16:27:06 PSU 2 goes down (switch stays up with just 3 PSUs) 2023 Dec 2 16:52:07 PSU 2 comes up 2023 Dec 2 16:52:09 PSU 4 comes up 2023 Dec 2 16:52:12 PSU 6 comes up (all 6 PSUs are up) 2023 Dec 2 16:05:56 Switch 1 %PLATFORM-2-PS_ABSENT: Power supply 1 is absent/shutdown, ps-redundancy might be affected 2023 Dec 2 16:05:56 Switch 1 %PLATFORM-2-PS_ABSENT: Power supply 4 is absent/shutdown, ps-redundancy might be affected 2023 Dec 2 16:05:56 Switch 1 %PLATFORM-2-PS_ABSENT: Power supply 5 is absent/shutdown, ps-redundancy might be affected 2023 Dec 2 16:05:57 Switch 1 %USBHSD-2-MOUNT: logflash: online 2023 Dec 2 16:05:59 Switch 1 %DAEMON-3-SYSTEM_MSG: sendto(10.0.0.0): Network is unreachable - ntpd[6294] 2023 Dec 2 16:06:00 Switch 1 %USER-3-SYSTEM_MSG: pdslib_initialize: If the client is already intialized - pm 2023 Dec 2 16:06:15 Switch 1 %USER-3-SYSTEM_MSG: pdslib_initialize: If the client is already intialized - stp 2023 Dec 2 16:06:15 Switch 1 %DAEMON-3-SYSTEM_MSG: sendto(10.0.0.0): Network is unreachable - ntpd[6294] 2023 Dec 2 16:06:26 Switch 1 %IM-5-IM_MGMT_INTF_STATE: mgmt0 is DOWN 2023 Dec 2 16:06:31 Switch 1 %DAEMON-3-SYSTEM_MSG: sendto(10.0.0.0): Network is unreachable - ntpd[6294] 2023 Dec 2 16:06:49 Switch 1 %DAEMON-3-SYSTEM_MSG: sendto(10.0.0.0): Network is unreachable - ntpd[6294] 2023 Dec 2 16:06:49 Switch 1 device_test: oper speed(10),oper duplex(1) 2023 Dec 2 16:07:01 Switch 1 %IM-5-IM_MGMT_INTF_STATE: mgmt0 is UP
原因
交換器重新載入時,重新開機時只有三個電源供應器 (PSU) 處於作用中狀態。後來,當這三個 PSU 再次故障時,交換器仍保持運作,且不會重新載入。
顯然,交換器可與三個 PSU 充分搭配運作。然而,在三個 PSU 故障後,其他 3 個 PSU 出現暫時斷電,導致交換器重新載入。
此外,值得注意的是,每個電源都維護一些報警位或標誌。這些會記錄個別 PSU 電源中斷等事件。
如果所有 PSU 同時斷電,系統會在短暫時間後清除這些位元。
在這種情況下,它們全部為零:
PS 1 ----- ... alm_bits 0: 0: 0: 0: 0 PS 2 ----- ... alm_bits 0: 0: 0: 0: 0 PS 3 ----- ... alm_bits 0: 0: 0: 0: 0 PS 4 ----- ... alm_bits 0: 0: 0: 0: 0 PS 5 ----- ... alm_bits 0: 0: 0: 0: 0 PS 6 ----- ... alm_bits 0: 0: 0: 0: 0
在 1 至 6 使用 PSU 進行實驗室測試。電源線從 PSU 1、4 和 5 拔出 (就像交換器上發生的情況一樣),而交換器仍可正常運作。
如前所述,在兩個交換器中,每個交換器都損失 3 個 PSU,而且交換器也會保持運作。
每個交換器上的 3 個 PSU 似乎發生故障,接著其他 3 個 PSU 再次發生暫時中斷。這導致交換機由於沒有電源而完全失效。
解析度
進行故障診斷時,使用者發現 「alm_bits」值均為零:'0: 0: 0: 0: 0' 這些位元表示與網路交換器中的電源供應單元 (PSU) 相關的各種警報狀態。當所有 PSU 同時斷電時,這些報警位元會被清除。
讓我們探討一下此行為的含義。
根本原因分析:
- 互連的 PSU:
在您的網路交換器中,每個 PSU 都會從其他 PSU 接收電力。這種互連確保了冗餘和容錯。
當所有 PSU 斷電時,報警位元將重設為零。這種情況表示所有六個 PSU 都已完全斷電,即使只是暫時的。 - 暫態電力損失:
根本原因在於所有 PSU 都會經歷短暫的電源中斷。
當交換器在僅使用三個使用中的 PSU 的情況下繼續運作時,同時斷電會觸發警報位元重設。
內部位元值與說明文件:
報警位寄存器:
交換器內部有各種追蹤 PSU 狀態的暫存器。其中包括指示斷電、恢復和其他故障的位元。
遺憾的是,思科尚未公開記錄這些內部位值。
但是,當所有 PSU 斷電時,系統會清除警報位元。
緩解措施與建議:
- 監控和備援:
- 繼續監控 PSU 執行狀況與警報。
- 請確定至少有一個電源供應器維持供電,以避免同時斷電。
- 請記住,瞭解 PSU 行為並維持配電裝置 (PDU) 連線備援對於網路可靠性至關重要。