Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

14G Intel 和 15G Intel/AMD PowerEdge 伺服器:DDR4 記憶體:管理可修正錯誤閾值事件

Summary: 更新了在 Intel 14G 和 15G PowerEdge 伺服器以及 AMD 15G PowerEdge 伺服器上安裝的 DDR4 RDIMM 或 LRDIMM 上管理可修正錯誤閾值事件 (MEM0802 或 MEM5104) 時的建議。 注意:本文不適用於以 14G AMD 為基礎的 PowerEdge 伺服器,例如 64x5 或 74x5 平台,因為它們沒有此封裝後續修復/自我修復功能,即使 DIMM 本身提供支援也一樣。 ...

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

隨著企業級記憶體中 RAS (可靠性、存取性及檢修性) 功能的演進,Dell 在錯誤報告方面採取保守的方法,為客戶提供透明度。隨著此持續演進,Dell 的錯誤報告方法也在持續演進,以專注於需要更緊急回應的通知,而非主要為資訊性質的通知。

隨著基於DRAM的記憶體幾何形狀不斷縮小,為客戶提供所需的更高性能,預計越來越多的可糾正錯誤是統一縮放的自然組成部分。

Cause

在全球伺服器產業中,Dell 越來越接受一種共識,認為每個 DIMM 的部分可修正錯誤是無法避免的,且不保證必須立即重新開機以啟動自我修復。

Resolution

繼續運行報告可糾正錯誤的系統,而無需重新啟動以進行自我修復,不會顯著增加遇到可能導致意外停機的不可糾正錯誤的風險。事實上,業界其他人已經公開表示,他們的記憶體處理並未報告可更正的錯誤。

在 14G Intel PowerEdge BIOS 2.5.4 版及更新版本中,新增了名為「可修正錯誤記錄」的 BIOS 設定,讓客戶能選擇停用可修正錯誤報告,而且許多客戶都這樣做了。  即使沒有記錄,BIOS 也會繼續排程可修正閾值事件的自我修復。此排定的自我修復將在後續系統重新開機時自動執行。

為了更符合業界需求並持續獲得客戶意見回饋,自 2022 年 3 月起,Dell PowerEdge BIOS 更新將會將「可修正錯誤記錄」BIOS 設定預設為「停用」。  若客戶想要繼續看到可修正的記憶體閾值事件,則可以重新啟用此 BIOS 選項。包含此 BIOS 設定變更的 BIOS 版本包括:
  • 14G Intel 平台 - BIOS 版本 2.13.3 或更新版本
  • 15G AMD 平台 - BIOS 版本 2.6.5 或更新版本
  • 15G Intel 平台 - BIOS 版本 1.5.5 或更新版本。

透過系統重新開機進行 DDR4 DIMM 自我修復的優點:
  • 可修復 DDR4 DIMM,無須從系統卸下;所有 Dell 來源的 DDR4 DIMM 均支援記憶體自我修復。注意:14G AMD PowerEdge 伺服器沒有此功能。
  • 利用架構在 DRAM 中的可用備用行,其中壞行通過電保險信永久替換為已知的良好行。
  • 隨後的記憶體再訓練通過重新校準中心點來優化「數據眼」,以確保記憶體總線以最高級別的信令完整性運行。


針對啟用「可修正錯誤記錄」BIOS 設定 可修正閾值事件,如果發生記憶體閾值事件,Dell 建議您按照客戶的定期維護排程重新開機,以使排定的記憶體自我修復或自我修正。重新開機後,會記錄相關 DIMM 成功或失敗的自我修復事件。

在停用「可修正錯誤記錄」BIOS 設定 Di 後,Dell 建議按照客戶的定期維護排程重新開機。重新開機後,任何已排程的自我修復作業都將自動執行。如果自我修復/自我修正作業失敗,系統會記錄事件 (MEM0805 或 MEM7114 類型事件),並進一步建議實體更換受影響的 DIMM。

建議
Dell EMC 記憶體工程部門建議 PowerEdge 伺服器客戶使用舊版 BIOS (2022 年 3 月之前的區塊 BIOS 版本),將「可修正錯誤記錄」BIOS 設定變更為 「停用」。這將消除在其伺服器基礎結構中的零星可修正記憶體閾值事件(例如MEM0802或MEM5104類型事件),這些事件建議伺服器重新開機,以允許自我修復或自我更正。如前所述,當伺服器重新開機並報告任何故障時,任何計劃的自我修復或自我更正操作都將自動運行。
 

「可修正錯誤記錄」BIOS 設定可透過將伺服器重新開機至 F2 設定或透過 iDRAC GUI 來變更。
 

若要使用 F2 設定變更 BIOS 設定:

  • 將伺服器重新開機,並在 F2 設定時停止
  • 在「BIOS 設定 -> 記憶體設定」選項中,將「可修正錯誤記錄」變更為停用。
  • 儲存 BIOS 設定並退出 F2 設定

若要使用 iDRAC GUI 變更 BIOS 設定:

  • 登入 iDRAC GUI
  • 在組態 -> BIOS 設定下,展開記憶體設定區段
  • 將「可修正的錯誤記錄」設定變更為停用
  • 按一下套用按鈕以儲存記憶體設定
  • 別忘了選取套用 並重新開機 按鈕 (立即重新開機) 或下次 重新開 機時按鈕 以套用 BIOS 變更。


現有的記憶體相關知識庫文章和白皮書將會更新,以反映此建議變更。

注意:經核准的客戶訊息會以檔案形式附加至本文 -「管理 2021 年 12 月v1.pdf可修正錯誤通知」。

當有新資訊可用時,本文將會更新。

Article Properties


Affected Product
AX-6515, AX-7525, Dell EMC vSAN C6420 Ready Node, Dell EMC vSAN MX740c Ready Node, Dell EMC vSAN R440 Ready Node, Dell EMC vSAN R640 Ready Node, Dell EMC vSAN R650 Ready Node, Dell EMC vSAN R6515 Ready Node, Dell EMC vSAN R740 Ready Node , Dell EMC vSAN R740xd Ready Node ...
Product
Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R340, OEMR R440 , PowerEdge XR2, OEMR R540, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R6515, OEMR R6525, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R7515, OEMR R7525, OEMR R840, OEMR R940, OEMR R940xa, OEMR T440, OEMR T550, OEMR T640, OEMR XL T640, OEMR XL R340, PowerEdge C6420, PowerEdge C6525, PowerEdge MX740C, PowerEdge MX840C, PowerEdge R340, PowerEdge R540, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R6515, PowerEdge R6525, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R7515, PowerEdge R7525, PowerEdge R840, PowerEdge R940, PowerEdge R940xa, PowerEdge T440, PowerEdge T550, PowerEdge T640, PowerFlex appliance R650, PowerFlex appliance R6525, Powerflex appliance R750, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R750, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R7515 Ready Node, Dell EMC vSAN R840 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, Dell EMC XC Core XC7525 ...
Last Published Date

10 Feb 2022

Version

2

Article Type

Solution