PowerEdge:CPU0704機器檢查錯誤反映出 iDRAC10 生命週期記錄中的 CPU 索引不準確
Samenvatting: 在記錄機器檢查事件 (MCE) 時,Dell PowerEdge 17G 伺服器在 iDRAC10 生命週期記錄 (LCLOG) 和系統事件記錄 (SEL) 中記錄不準確的 CPU 索引。
Symptomen
Dell PowerEdge 17G 伺服器採用開放運算計畫的資料中心模組化硬體系統 (DC-MHS) 架構。作為標準的一部分,CPU 在主機處理器模組 (HPM) 上以「0」開頭編製索引。iDRAC10 所使用的內部程式庫會與前幾代以「1」開始 CPU 索引的 PowerEdge 伺服器共用。在 v1.20.80.50 之前的 iDRAC10 韌體版本無法準確反映CPU0704 MCE 事件內的 CPU 索引編號。SEL 和 LCLOG 皆會在錯誤訊息字串中反映 +1 值。
iDRAC10 UI >> 系統>>概觀>>元件 >> 處理器索引範例:

在下面的 SEL 和 LCLOG 範例中,CPU 機器檢查錯誤發生在 CPU1 上,而事件字串則指出 CPU2 上發生錯誤。CPU0 上的 MCE 事件會在事件字串中記錄為 CPU1。
SEL 範例:
2025-07-07 17:50:51 1004 CPU 2 machine check error detected.
LCLOG 範例:
2025-07-07 17:50:51 5617 CPU0704 CPU 2 machine check error detected.
2025-07-07 17:50:51 5615 CPU0000 Internal error has occurred check for additional logs.
2025-07-07 17:48:15 5591 CPU0704 CPU 2 machine check error detected.
2025-07-07 17:48:14 5589 CPU0000 Internal error has occurred check for additional logs.
Oorzaak
iDRAC10 會利用與 iDRAC9 共用的程式庫,在處理 CPU0704 錯誤事件字串的引數時,該程式庫先前會解析從值 1 開始的 CPU 索引。
Oplossing
iDRAC10 韌體 1.20.80.50 和 2025 年 12 月 17G PowerEdge 伺服器 BIOS 版本新增邏輯,以正確剖析從伺服器 BIOS 收到的 CPU 索引資訊。
BIOS 發行版本因伺服器產品型號而異。請參閱下表,瞭解導入 iDRAC10 的修正列舉支援的 BIOS 版本。
|
|
|
|
|
|
|
|
|