Dell PowerEdge BIOS 持續進行改良和增強功能,以改善伺服器重新開機時出現的記憶體事件訊息、錯誤處理和「自我修復」。如此一來,就不需要排定維護時段或到現場更換記錄錯誤事件的 DDR4 記憶體 DIMM。
具備 DDR4 且執行BIOS 版本 2.1.x 及以上的 PowerEdge 伺服器已實作兩項主要與記憶體相關的「自我修復」BIOS 強化功能。如果發生記憶體事件並記錄到 LifeCycle 記錄中,這些強化功能確實會變更建議採取的步驟或動作。
在開機時執行記憶體再訓練 (在設定記憶體步驟初期),可針對每個 DIMM/插槽最佳化訊號定時和邊界,以提供最佳的存取方式。DIMM 的記憶體訊號時序和邊界特性可能因以下幾個不同原因改變:
先前,偵測到的 BIOS 更新或記憶體組態變更,會導致後續開機時發生記憶體再訓練。從 BIOS 2.1.x 開始,已新增可修正及無法修正記憶體錯誤「觸發器」,以供排定再訓練:
Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
若上述任一種錯誤記錄在 SEL/生命週期記錄中,就會在排定在下一次重新開機 (暖或冷) 時進行記憶體重新訓練。無論啟動何種功能,BIOS 都會自動強制進行冷重新開機。
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
如果作業系統無法處理該錯誤,此多位元錯誤可能會導致伺服器重新開機,因為發生嚴重錯誤。在該次開機期間會自動進行記憶體再訓練。如果多位元錯誤發生在作業系統可處理的非關鍵記憶體位置,則必須排定重新開機。
在 POST 期間進行記憶體再訓練,可能會透過最佳化訊號定時和邊界,對故障的 DIMM 及相關插槽「自我修復」。除非在開機期間執行記憶體再訓練失敗 (UEFI0106),或是相同的錯誤不斷發生,否則不必因為這些錯誤而更換 DIMM。
第二個「自我修復」記憶增強是PPR。PPR 透過停用硬體層的位置或地址來修復故障的記憶體位置,改為使用備用的記憶體列。可用的備援記憶體列數取決於 DRAM 裝置和 DIMM 大小。
在此之前,此功能僅限於製造流程使用。如同之前提到的記憶體再訓練強化功能,特定可修正的記憶體錯誤,會導致特定的 DIMM 插槽排定在下次重新開機 (熱或冷) 時執行 PPR。無論啟動何種功能,BIOS 都會自動強制進行冷重新開機。由於在特定的 DIMM 插槽上排定進行 PPR 作業,在執行 PPR 作業之前,請勿變更 DIMM 插槽位置。錯誤範例如下:
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
記錄中的任何這些事件,都會導致在設定記憶體階段初期,將 PPR 排定在下一次重新開機 (暖或冷) 時進行。
重新開機後,請確認已成功執行 PPR 作業。成功的 PPR 作業範例會類似:
MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
新發佈的白皮書 (1.0 版) 說明了 Dell PowerEdge 伺服器記憶體相關的可靠性、可用性及檢修性 (RAS) 功能,其中說明了 PowerEdge 伺服器上可用的各種 RAS 特性與功能 - 記憶體錯誤和 Dell EMC PowerEdge YX4X 伺服器記憶體 RAS 功能。
如需可修正錯誤閾值事件的詳細資訊,請參閱 14G Intel 和 15G Intel/AMD PowerEdge 伺服器:DDR4 記憶體:管理可修正錯誤閾值事件。2020 年 4 月 24 日更新
Dell 持續強化我們的「自我修復」功能。下節列出不同 BIOS 版本的相關更新與增強功能。
BIOS 2.1.x - 發佈從 BIOS 2.1.6 及更新版本開始的「自我修復」功能初始文章,包括範例錯誤訊息以及建議動作。
BIOS 2.4.x 和更新變更 (2019 年 12 月)
BIOS 2.5.x 和更新變更 (2020 年 2 月)
2020 年 7 月 10 日更新
BIOS 2.7.x 和更新版本變更 (2020 年 7 月區塊 BIOS - 預期在 7 月中旬於網路發佈)
2021 年 1 月 13 日更新
BIOS 2.8.2 和更新版本變更 (2020 年 9 月區塊 BIOS)
還有其他正在評估的 RAS 功能強化,以納入未來的 BIOS 更新中。
當有新資訊可用時,本文將會更新。
另請參閱:透過交換測試故障診斷記憶體的指南 - 透過交換測試
故障診斷 PowerEdge 系統上的記憶體錯誤下載與驅動程式:驅動程式與下載 |Dell US