VxBlock:排查 Cisco UCS 內的記憶體錯誤

Summary: 本文詳細說明如何在 Cisco 統一運算系統 (UCS) 環境中故障診斷和解決記憶體錯誤。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

錯誤識別:

  • 查看UCS中的「故障」選項卡,以確定是否存在錯誤和影響。 
  • 在進行任何故障診斷之前,請先從受影響的伺服器擷取 UCSM 和機箱記錄。這是捕獲歷史數據以確定這些錯誤在故障排除后是否再次出現所必需的。 


錯誤確認:
識別錯誤後,請全部清除,並監控計數器以查看錯誤是否仍然存在。 

  1. 登入 UCS 命令列。
  2. 使用下列命令重設記憶體錯誤:

CLI# 範圍伺服器 X/Y
CLI# reset-all-memory-errors
CLI# 認可緩衝區

  1. 使用下列命令清除系統事件記錄:

CLI# 範圍伺服器 X/Y
CLI# 清除 sel
CLI# 認可緩衝區

  1. 使用下列命令重設 CIMC:

CLI# 範圍伺服器 X/Y
CLI# 範圍 CIMC
CLI# 重設
CLI# 認可緩衝區

  1. 監視環境48小時。 
如果記憶體錯誤持續存在,請擷取一組全新的 UCSM 和機箱記錄,然後前往下一節。


實體故障診斷:
更換 DIMM 模組之前,請先判斷錯誤是否與插槽、DIMM 或 CPU 有關。

這是通過交換硬體元件並監控環境來完成的。指示如下:
  1. 讓 ESXi 主機處於維護模式。 
  2. 故障的 DIMM 應替換為先前未顯示任何問題的 DIMM。
  3. 伺服器應重新開機並保持在維護模式。
  4. 可能會監視伺服器 48 小時,以查看問題是否再次出現。

如果您無法重新裝回元件,請聯絡 Dell 支援或聯絡其他資源以取得協助。  

如果重新拔插後仍出現錯誤,請按照下列動作操作:

  • 如果 DIMM 出現錯誤,請遵循 DIMM 前往新的插槽,並更換 DIMM。 
  • 如果 DIMM 錯誤仍留在相同的 DIMM 插槽中,請更換主機板。
  • 如果在更換 DIMM 和主機板後 DIMM 錯誤仍然存在,請透過 Dell 支援啟動 WebEx 以進行即時故障診斷。  

Additional Information

觀看本影片:

Affected Products

Converged Infrastructure
Article Properties
Article Number: 000194121
Article Type: How To
Last Modified: 19 Nov 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.