VxBlock:对 Cisco UCS 中的内存错误进行故障排除

摘要: 本文详细介绍了如何排除和解决思科统一计算系统(UCS)环境中的内存错误。

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

说明

错误识别:

  • 查看 UCS 中的“faults”(故障)选项卡,以确定是否存在错误和影响。 
  • 在执行任何故障处理之前,从受影响的服务器捕获 UCSM 和机箱日志。这对于捕获历史数据以确定这些错误在故障处理后是否再次出现是必要的。 


错误确认:
识别错误后,清除所有错误,并监视计数器以查看错误是否仍然存在。 

  1. 登录到 UCS 命令行。
  2. 使用以下命令重置内存错误:

CLI# scope server X/Y
CLI# reset-all-memory-errors
CLI# commit-buffer

  1. 使用以下命令清除系统事件日志:

CLI# scope server X/Y
CLI# clear sel
CLI# commit-buffer

  1. 使用以下命令重置CIMC:

CLI# scope server X/Y
CLI# scope cimc
CLI# reset
CLI# commit-buffer

  1. 监视环境 48 小时。 
如果内存错误仍然存在,请捕获一组全新的 UCSM 和机箱日志,然后转至下一部分。


物理故障处理:
在更换 DIMM 模块之前,请确定错误是否与插槽、DIMM 或 CPU 相关。

这是通过交换硬件组件并监视环境来完成的。说明如下:
  1. 将 ESXi 主机置于维护模式。 
  2. 出现故障的 DIMM 应与之前未显示任何问题的 DIMM 交换。
  3. 服务器应重新启动并保持在维护模式下。
  4. 服务器可能会被监视 48 小时,以查看问题是否再次出现。

如果您无法重新拔插组件,请联系戴尔支持或联系其他资源以获得帮助。  

如果重新拔插后错误仍然存在,请执行以下作:

  • 如果 DIMM 错误跟随 DIMM 到新插槽,请更换 DIMM。 
  • 如果同一 DIMM 插槽仍出现 DIMM 错误,请更换主板。
  • 如果更换 DIMM 和主板后 DIMM 错误仍然存在,请启动 WebEx 以通过戴尔支持进行实时故障处理。  

其他信息

请观看此视频:

受影响的产品

Converged Infrastructure
文章属性
文章编号: 000194121
文章类型: How To
上次修改时间: 19 11月 2025
版本:  4
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。