Data Domain:故障診斷記憶體錯誤

摘要: 本知識文章說明如何對記憶體警示進行故障診斷,包括如何識別需要更換的故障 DIMM。

本文章適用於 本文章不適用於 本文無關於任何特定產品。 本文未識別所有產品版本。

症狀

本知識文章說明如何對記憶體警示進行故障診斷,包括如何識別需要更換的故障 DIMM。

可能的症狀/警示:
 

DIMM-00001: Correctable ECC logging limit reached
DIMM-00002: Multibit Uncorrectable ECC error
DIMM-00003: A memory card has failed
ENVIRONMENT-00009: Memory correctable ECC errors exceed warning threshold
ENVIRONMENT-00013: Memory uncorrectable ECC error alert. 
ENVIRONMENT-00044: Memory riser fault has been detected
MEM-00001: DIMM failure detected after install. DDFS ""will not be started.
MEM-00002: Memory size(nnnnnnnnKB) goes below the configured size(nnnnnnnnKB)

*These may also be reported without the hyphen (-): e.g.
DIMM00001, DIMM00002, DIMM00003, ENVIRONMENT00009, ENVIRONMENT00013, ENVIRONMENT00044, MEM00001, MEM00002
  • IPMI 監視程式重新開機
  • 記憶體少於預期警示
  • 開機自我測試 (POST) 時可能停止回應
  • 系統無法開機或系統當機

原因

安裝在 Datadomain 系統上的 DIMM 具有「ECC」(錯誤檢查碼),可讓您即時修正可修正的記憶體錯誤。如果突破錯誤閾值,DDOS 會標示故障,且應更換受影響的 DIMM。
無法修正的記憶體錯誤可能會導致系統重新開機,並被視為硬記憶體故障。
任何單一 DIMM 或記憶體擴充卡 (可容納多個 DIMM) 的總故障可能會導致系統關閉事件,並使檔案系統無法啟用。這是因為 DD 檔案系統 (DDFS) 程序填滿大部分的實體記憶體。

便條:記憶體錯誤可能會被其他症狀或警示所掩蓋,例如 CPU 機器檢查錯誤 - 可能需要更深入的記錄分析和故障診斷。

解析度

所有 DDOS 版本都會追蹤 DIMM 錯誤報告。但是,您可能需要分析系統記錄,才能找出故障的特定 DIMM。
注意:DIMM 可能位於連接至主機板的記憶體擴充板中。
         若要啟用 Data Domain 檔案系統 (DDFS),所有已安裝的記憶體都必須存在且正常運作。

故障診斷可能包括:

  • 離線診斷  
  • 記錄檔分析
  • 重新安裝可疑的 DIMM
  • 將可疑的 DIMM 移至「已知良好」的插槽 (即故障是否發生在 DIMM、插槽、通道或控制器上?)
  • 更換故障的 DIMM 或擴充板 (視情況而定)  
  • 持續監控,以確認硬體變更或更換後的系統穩定性

注意:如果在執行本知識庫文章中的步驟後仍無法解決問題,請聯絡您的支援供應商或建立服務要求

其他資訊

受影響的產品

Data Domain, PowerProtect Data Protection Appliance, Data Domain, Data Domain Deduplication Storage Systems, PowerProtect Data Protection Hardware
文章屬性
文章編號: 000034334
文章類型: Solution
上次修改時間: 05 8月 2025
版本:  7
向其他 Dell 使用者尋求您問題的答案
支援服務
檢查您的裝置是否在支援服務的涵蓋範圍內。