PowerEdge:什麼是 Intel Xeon 可擴充處理器的 DDR4 自我修復功能

Summary: 搭載 DDR4 之 PowerEdge 伺服器的可修正與無法修正的記憶體錯誤,以及故障診斷步驟變更

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

搭載 Intel Xeon 可擴充處理器 (第 1 代或第 2 代) 且執行 BIOS 版本 2.1.x 或更新版本的 Dell PowerEdge 伺服器上的 DDR4「自我修復」功能是什麼?

這些 DDR4「自我修復」功能 (BIOS 強化功能) 如何改變了客戶與技術支援團隊在伺服器上遇到記憶體問題時所採取的動作?

較新 BIOS 版本所包含的「自我修復」強化功能是什麼?

Cause

Dell PowerEdge BIOS 會持續進行改良和強化,以改善伺服器重新開機時出現的記憶體事件訊息、錯誤處理和「自我修復」。如此一來,就不需要排定的維護時段或到現場更換記錄錯誤事件的 DDR4 記憶體 DIMM。

Resolution

具備 DDR4 且執行BIOS 版本 2.1.x 及以上的 PowerEdge 伺服器已實作兩項主要與記憶體相關的「自我修復」BIOS 強化功能。如果發生記憶體事件,這些強化功能確實會變更建議採取的步驟或動作,並記錄到 LifeCycle 記錄中。

注意:
  • 如果 BIOS 2.0 或之前版本的 DDR4 發生記憶體錯誤,請將 BIOS 更新為最新版本,其中包含許多記憶體自我修復功能和不斷增加的強化功能。我們始終鼓勵客戶更新至最新的可用 BIOS 版本 (以及 iDRAC 韌體),以利用最新的自我修復強化功能。
  • 先前的記憶體故障診斷步驟包含將故障 DIMM 移至其他插槽,以確認錯誤是發生在 DIMM 或 DIMM 插槽中。使用 BIOS 2.1.x 或更新版本時,第一個建議步驟是重新開機 (不需將 DIMM 移至其他插槽)。這可執行新的 BIOS 強化功能,有可能解決 (自我修復) DIMM 錯誤,不需排程更換任何 DIMM。
  1. 記憶體再訓練強化功能

在開機時執行記憶體再訓練 (在設定記憶體步驟初期),可針對每個 DIMM/插槽最佳化訊號定時和邊界,以提供最佳的存取方式。DIMM 的記憶體訊號定時和邊界特性可能因以下幾個不同原因改變:

  • 伺服器記憶體組態變更
  • BIOS 變更 (記憶體參考代碼 - MRC)
  • 伺服器及/或 DIMM 的不同作業溫度
  • DIMM 的一般年限

先前,偵測到的 BIOS 更新或記憶體組態變更,會導致後續開機時發生記憶體再訓練。從 BIOS 2.1.x 開始,已新增可修正及無法修正記憶體錯誤「觸發器」,以供排定再訓練:

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

若上述任一種錯誤記錄在 SEL 或生命週期記錄中,就會在排定在下次重新開機 (暖或冷) 時進行記憶體再訓練。無論啟動何種功能,BIOS 都會自動強制進行冷重新開機。

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."

 

如果作業系統無法處理該錯誤,此多位元錯誤可能會導致伺服器重新開機,因為發生嚴重錯誤。在該次開機期間會自動進行記憶體再訓練。如果多位元錯誤發生在作業系統可處理的非關鍵記憶體位置,則必須排定重新開機。

在 POST 期間進行記憶體再訓練,可透過最佳化訊號定時和邊界,對故障的 DIMM 及相關插槽進行「自我修復」。除非在開機期間執行記憶體再訓練失敗 (UEFI0106),或是相同的錯誤不斷發生,否則不必因為這些錯誤而更換 DIMM
 

  1. 封裝後續修復 (PPR)

第二個「自我修復」的記憶體強化功能是 PPR。PPR 可停用硬體層的位置或地址,改為使用備用的記憶體列,以修復故障記憶體位置。可用的備援記憶體列數取決於 DRAM 裝置和 DIMM 大小。

在此之前,此功能僅限於製造流程使用。如同之前提到的記憶體再訓練強化功能,特定可修正的記憶體錯誤,會導致特定的 DIMM 插槽排定在下次重新開機 (熱或冷) 時執行 PPR。無論啟動何種功能,BIOS 都會自動強制進行冷重新開機。由於在特定的 DIMM 插槽上排定進行 PPR 作業,在執行 PPR 作業之前,請勿變更 DIMM 插槽位置。錯誤範例如下:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

記錄中這些事件的任何一項,都會導致在下一次重新開機 (暖或冷) 時的設定記憶體階段初期排定執行 PPR。

注意:若訊息 ID MEM8000 (Correctable memory error logging disabled for a memory device at location DIMM_XX.) 在相同 DIMM 位置上沒有對應的 MEM0005/MEM0701/MEM0702,將不會在下次重新開機排定 PPR。

請參閱 2020 年 7 月 10 日更新的 MEM8000 事件變更,以及白皮書的 1.1 更新版和以上版本。

重新開機後,請確認已成功執行 PPR 作業。成功的 PPR 作業範例會類似:

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."


除非在重新開機後 PPR 作業失敗,否則不必因為這些可修正的記憶體錯誤而更換 DIMM。關鍵 PPR 作業失敗的訊息範例如下:

UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."

 

現已推出一份新發佈的白皮書 (1.0 版),說明 Dell PowerEdge 伺服器記憶體相關的可靠性、可用性及檢修性 (RAS) 功能,其中說明 PowerEdge 伺服器上的多種 RAS 功能 - 記憶體錯誤和 Dell PowerEdge YX4X 伺服器記憶體 RAS 功能

 

2020 年 4 月 24 日更新

Dell 持續強化我們的「自我修復」功能。下列章節列出與不同 BIOS 版本相關的更新與強化功能。

BIOS 2.1.x - 發佈從 BIOS 2.1.6 及更新版本開始的「自我修復」功能初始文章,包括範例錯誤訊息以及建議動作。

BIOS 2.4.x 和更新變更 (2019 年 12 月)

  • MEM0702 (可修正錯誤率超過上限...) - 訊息從嚴重更新為警告。將建議的動作更新為重新開機伺服器,以使「自我修復」運行 - 例如封裝後續修復。
    • 需要安裝 2019 年或更新的 iDRAC,才能收到更新訊息
    • 建議動作:重新開機伺服器以使 PPR 執行
  • MEM9060 - 更新訊息說明,表示已成功完成「自我修復」

BIOS 2.5.x 和更新變更 (2020 年 2 月)

  • 新增「可修正錯誤記錄」BIOS 選項,讓客戶停用所有與可修正錯誤相關的 Lifecycle 或 SEL 記錄。所有「自我修復」功能仍會持續運作 - 例如,PPR 和記憶體再訓練仍會在排定下次重新開機時執行 (在設定記憶體程序初期)。
  • 新增 RDIMM 和 LRDIMM 的 MEM08xx 錯誤,取代現有的錯誤訊息和動作。現有錯誤訊息仍會用於不支援「自我修復」功能的平台。
    • 需要 2020 年 2 月或更新的 iDRAC,以記錄新訊息。
注意:若未更新 iDRAC,SEL 或生命週期記錄中的新 BIOS 訊息將為「未知」。
  • MEM0802 - 取代 MEM0702 - 可修正錯誤率超過上限
    • 建議動作:重新開機伺服器以使 PPR 執行。確認 PPR 成功 (MEM0802)
  • MEM0804 - 取代 MEM9060 表示 PPR 已成功執行。現在包含執行 PPR 的 DIMM 插槽位置
    • 建議動作:無,此事件表示已執行「自我修復」,不需要更換 DIMM。
  • MEM0805 - 取代 UEFI0278,表示 PPR 失敗
    • 建議動作:更換故障的 DIMM

2020 年 7 月 10 日更新

BIOS 2.7.x 和更新版本變更 (2020 年 7 月區塊 BIOS - 預期在 7 月中旬於網路發佈)

  • MEM8000 (已停用可修正錯誤紀錄) - 從 BIOS ~2.0.x 開始,Dell 工程部門進行了 BIOS 變更,以強化可修正錯誤的偵測速率,這可能會影響效能。此變更導致 MEM8000 事件增加,這些事件尚未證明是由 DIMM 故障分析所導致。從 BIOS 2.7.x 開始,有兩個與 MEM8000 相關的變更。第一個是修改了 MEM8000 事件的通知。第二個是 BIOS 會排程在下次重新開機時執行自我修復 (PPR)。iDRAC 訊息尚未更新以反映新動作。
    • 建議動作:重新開機伺服器以使自我修復功能/PPR 執行。確認 PPR 成功 (MEM0804)。
  • MEM0001 (無法修正的錯誤) - 導致自我修復 (PPR) 排程在下次重新開機時執行。iDRAC 訊息尚未更新以反映新動作。
    • 建議動作:如果 MEM0001 與作業系統無法復原的關鍵頁面相關聯,則不需要採取任何動作,這仍是會導致重新開機的嚴重錯誤。如果 MEM0001 與作業系統可還原的非關鍵頁面相關聯,則必須排定重新開機以執行所有自我修復 (PPR)。確認 PPR 成功 (MEM0804)。

2021 年 1 月 13 日更新

BIOS 2.8.2 和更新版本變更 (2020 年 9 月區塊 BIOS)

  • MEM9072 (記憶體巡邏清除程序所識別的不可修正錯誤 - 頁面未使用或正在使用中) - 導致自我修復 (PPR) 排程在下次重新開機時執行。iDRAC 訊息尚未更新以反映新動作。
    • 建議動作:儘快安排重新開機。延遲重新開機可能會導致頁面耗用,出現可能導致重新開機的 MEM0001 錯誤。在重新開機期間執行記憶體自我修復 (PPR)。確認 PPR 成功 (MEM0804)。
注意:最新版本的工程白皮書 (版本 1.3 - 發行日期 2020 年 11 月 20 日) 位於:  https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdf
如需 Intel Xeon E 和 AMD EPYC 的內容,請繼續參考原本的工程白皮書 (1.0 版),位於:PowerEdge YX4X 伺服器記憶體 RAS 白皮書 1.0 版 (dell.com)

還有其他正在評估的 RAS 功能強化,以納入未來的 BIOS 更新中。

 
注意:如需特定錯誤代碼訊息的詳細說明和建議動作,請參閱下列連結:查閱 (dell.com)。由於錯誤代碼 (例如 MEM0001) 適用多個世代的伺服器和平台,因此建議的動作可能不一定適合特定的 BIOS 版本。新增的新錯誤代碼 (例如 MEM0802、MEM0804、MEM0805 等) 僅適用於搭載 Intel Xeon 可擴充處理器 (第 1 代或第 2 代) 的伺服器。

 

當有新資訊可用時,本文會隨之更新。


下載與驅動程式:驅動程式與下載

Affected Products

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R240, OEMR R250 , OEMR XE R250, OEMR R260, OEMR XE R260, OEMR R340, OEMR R350, OEMR XE R350, OEMR R360, OEMR XE R360, OEMR R440, PowerEdge XR2, OEMR R450, OEMR R540, OEMR R550, OEMR R5500, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R660, OEMR XL R660, OEMR R660xs, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R760, OEMR R760xa, OEMR R760XD2, OEMR XL R760, OEMR R760xs, OEMR R840, OEMR R860, OEMR R940, OEMR R940xa, OEMR R960, OEMR T140, OEMR T150, OEMR T340, OEMR T350, OEMR T360, OEMR T440, OEMR T550, OEMR T560, OEMR T640, OEMR XL T640, OEMR XL R240, OEMR XL R340, OEMR XL R660xs, OEMR XR11, OEMR XR12, OEMR XR4000r, OEMR XR4000w, OEMR XR4510c, OEMR XR4520c, OEMR XR5610, OEMR XR7620, OEMR XR8610t, OEMR XR8620t, Poweredge C4140, PowerEdge C6420, PowerEdge C6520, PowerEdge C6525, PowerEdge C6615, PowerEdge C6620, PowerEdge FC640, PowerEdge HS5610, PowerEdge HS5620, PowerEdge M640, PowerEdge MX740C, PowerEdge MX750c, PowerEdge MX760c, PowerEdge MX840C, PowerEdge R240, PowerEdge R250, PowerEdge R260, PowerEdge R340, PowerEdge R350, PowerEdge R360, PowerEdge R440, PowerEdge R450, PowerEdge R540, PowerEdge R550, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R660, PowerEdge R660xs, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R760, PowerEdge R760XA, PowerEdge R760xd2, PowerEdge R760xs, PowerEdge R840, PowerEdge R860, PowerEdge R940, PowerEdge R940xa, PowerEdge R960, PowerEdge T140, PowerEdge T150, PowerEdge T160, PowerEdge T340, PowerEdge T350, PowerEdge T360, PowerEdge T440, PowerEdge T550, PowerEdge T560, PowerEdge T640, PowerEdge XE2420, PowerEdge XE7100, PowerEdge XE7420, PowerEdge XE7440, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680, PowerEdge XE9680L, PowerEdge XR11, PowerEdge XR12, PowerEdge XR4000r, PowerEdge XR4000w, PowerEdge XR4510c, PowerEdge XR4520c, PowerEdge XR5610, PowerEdge XR7620, PowerEdge XR8610t, PowerEdge XR8620t, PowerFlex appliance R650, PowerFlex appliance R660, Powerflex appliance R750, PowerFlex appliance R760, PowerFlex custom node R650, PowerFlex custom node R660, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R860, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN C6420 Ready Node, Dell EMC vSAN MX740c Ready Node, Dell EMC vSAN MX750c Ready Node, Dell vSAN Ready Node MX760c, Dell EMC vSAN R440 Ready Node, Dell EMC vSAN R640 Ready Node, Dell EMC vSAN R650 Ready Node, vSAN Ready Node R660, Dell EMC vSAN R740 Ready Node, Dell EMC vSAN R740xd Ready Node, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R760 Ready Node, Dell EMC vSAN R840 Ready Node, Dell EMC vSAN T350 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...

Products

PowerFlex rack, VxFlex Ready Nodes, PowerFlex Appliance, PowerFlex custom node, ScaleIO, PowerFlex appliance Intelligent Catalog Software, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex custom node, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R660, PowerFlex custom node R6625, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R7625, PowerFlex rack connectivity, PowerFlex rack HW, PowerFlex rack RCM Software, PowerFlex Software, VxFlex Ready Node, VxFlex Ready Node R640, VxFlex Ready Node R740xd, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...
Article Properties
Article Number: 000053203
Article Type: Solution
Last Modified: 25 Nov 2025
Version:  26
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.