Data Domain:記憶卡或 DIMM 失敗或發生故障錯誤

摘要: 本文件可協助識別錯誤或故障,並提供解決方案路徑。

本文章適用於 本文章不適用於 本文無關於任何特定產品。 本文未識別所有產品版本。

症狀

Data Domain (DD) 系統會監控系統記憶體硬體 (DIMM) 的狀態。如果發生任何 DIMM 相關錯誤,會發佈適當的警示通知。

適用於:
  • 所有 Data Domain 系統
  • Data Domain 作業系統 (DDOS) 的所有軟體版本
可能由 DDOS 發佈的警示通知:
DIMM-00001: Correctable ECC logging limit reached
DIMM-00002: Multibit Uncorrectable ECC error
DIMM-00003: A memory card has failed
ENVIRONMENT-00009: Memory correctable ECC errors exceed warning threshold
ENVIRONMENT-00013: Memory uncorrectable ECC error alert. 
ENVIRONMENT-00044: Memory riser fault has been detected
MEM-00001: DIMM failure detected after install. DDFS ""will not be started.
MEM-00002: Memory size(nnnnnnnnKB) goes below the configured size(nnnnnnnnKB)

原因

安裝在 Data Domain 系統上的 DIMM 具有錯誤檢查代碼 (ECC),可讓您快速修正可修正的記憶體錯誤。如果突破錯誤閾值,DDOS 會識別故障,並在系統上產生適當的警示。

無法修正的記憶體錯誤可能會導致系統重新開機,並被視為硬記憶體故障。任何單一 DIMM 或記憶體擴充卡的總故障可能會導致系統關閉事件,並使檔案系統無法啟用。這是因為 Data Domain 檔案系統 (DDFS) 程序填滿大部分的實體記憶體。

注意:其他症狀或警示可能會遮蔽記憶體錯誤 (例如,CPU 機器檢查錯誤 - 可能需要更深入的記錄分析和故障診斷)。

解析度

注意:如果在 Dell PowerEdge 型系統上回報 DIMM 錯誤,復原的第一個動作便是重新開機 DataDomain 裝置。這將啟動 PPR (POST 封裝修復) 以復原 DIMM。

必須判斷以找出警示的原因,並找出受影響的元件 DIMM、CPU 或主機板,並視需要更換零件。

若可能,請收集支援套裝,並與您簽約的服務提供者建立服務要求。下列影片顯示如何收集支援套裝:收集支援套裝 此超連結會帶您前往 Dell Technologies 以外的網站。

解決方法指南:

  • 若為 Dell PowerEdge 系統,請啟動系統重新開機,以便進行自動 POST 封裝修復 (PPR);以復原 DIMM。
    • BIOS 韌體的改善可讓 PPR 復原 DIMM 可修正和無法修正的錯誤 (參考
  • 比較目前系統狀態與 DIMM 故障或警示「前」的自動支援
  • 用於檢查記憶體的實用 DD-CLI (SSH) 命令:
# alerts show current
# system show meminfo
# enclosure show memory
# log view debug/messages.engineering  ('q' to quit)
  • 使用 DDOS 離線診斷程式來測試和判斷故障。前往 Dell 支援以存取 Dell EMC Data Domain Operating System 6.x 離線診斷套件使用者指南
  • 請盡可能執行實體故障診斷方法,以排除和判斷故障元件 (使用記錄的更換指南和程序)。
  • 重定 DIMM - 確定兩側都已正確卡入閂鎖。
  • 將它換成來自另一個插槽、通道、記憶體庫或控制器中已知良好的 DIMM:
  • 如果系統因為疑似記憶體/DIMM 故障而停機 (無法開機),請嘗試使用最小開機選項 (移除周邊裝置或介面卡,並將 1 個 DIMM 留在插槽「0」)

其他資訊

參考資料:

受影響的產品

Data Domain, Integrated Data Protection Appliance Family

產品

PowerProtect Data Protection Appliance, Data Domain, Data Domain Deduplication Storage Systems, PowerProtect Data Protection Hardware
文章屬性
文章編號: 000204330
文章類型: Solution
上次修改時間: 03 3月 2025
版本:  11
向其他 Dell 使用者尋求您問題的答案
支援服務
檢查您的裝置是否在支援服務的涵蓋範圍內。