有关如何确认 Cisco C 系列服务器上的 DIMM 错误并对其进行故障排除的步骤
Summary: 有关如何确认 Cisco C 系列服务器上的 DIMM 错误并对其进行故障排除的步骤
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Instructions
如何清除 VxBlock UCS C 系列服务器上的 DIMM 错误
事实
- Cisco C系列机架式服务器(可能由UCSM管理,也可能不由UCSM管理)
症状
- 警报将显示在 CIMC 或 UCSM 中,例如:
F0184
F0185
F0137
F1236
F1237
- PSOD — 紫屏死机(在主机的 KVM 或控制台上)
解决 方案
日志收集
在执行任何故障处理之前,请从受影响的服务器捕获日志。我们需要一个基线来确定故障处理步骤是否成功。
C系列机架式服务器可以是独立服务器,也可以由UCSM管理。 收集和查看日志的步骤会略有不同,具体视具体情况而定。
- 独立。
- 由 UCSM 管理 — 在“选项”字段中选择 “机架安装” 而不是“机箱”或“ucsm”
- 如果只有CIMC日志,则可以判断它们来自UCSM托管服务器,因为文件名将包含CIMCXXX。 日志文件也将位于名为 Server XX 的压缩目录中,而不是直接位于主压缩目录中。 如果您看到此消息,则还需要UCSM日志。
日志分析
日志之间的主要区别在于
- UCSM托管服务器的UCSM sam_techsupport文件中提供了其他信息
- 目录的位置。(请参阅日志收集下的注释)
UCSM_X_TechSupport.tar\sam_techsupportinfo
- “show server inventory expand”(确认服务器序列号,找到 PID)。示例:
服务器 1:
型号:UCSC-C220-M4S
已确认序列号 (SN):FCHXXXXXXXXXXXX
已确认的产品名称:思科 UCS C220 M4S
Acknowledged PID:UCSC-C220-M4S
- “show fault detail”(查找关联的故障)— 示例:
Severity:主要 代码:F0844型 Last Transition Time:2017-05-23T12:40:40.774 描述:服务器 24 上的 DIMM DIMM_B2 operaState: disabled
- “show server memory detail”(查找受影响的 DIMM PID)— 示例:
Location:DIMM_A1 中文名称:16GB DDR4-2400-MHz RDIMM/PC4-19200/单列/x4/1.2V Pid:UCS-MR-xxxxxxxx-A注意 - 对于UCSM托管服务器
,sam_techsupport中提供了大多数信息 [ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
- 机箱信息区域
====================[机箱信息区域]======================
机箱部件编号 :[74-xxxxx-02]
机箱序列号 :[FCHXXXXXXXXX]
- 板区域
========================[ Board Area ]=========================
主板产品名称 :[UCSC-C240-Mxxxx]
主板序列号 :[FCHXXXXXXXX]
- SMBIOS 表转储开始
注意:这可能不是Cisco PID,但可以关联以查找它
内存设备
定位:DIMM_A1
部件号:36ASxxxxxx-2G3B1 Querying All IPMI Sensors 部分:
可纠正和不可纠正的错误: 传感器名称 |阅读 |单位 |状态 |LNR系列 |液相色谱 |LNC公司 |北卡罗来纳大学 |UC中文 |UNR DDR4_P2_E1_ECC |63250.000 |错误 |联合国 |北美 |北美 |北美 |北美 |北美 |60250.000 DDR4_P2_E2_ECC |63750.000 |错误 |联合国 |北美 |北美 |北美 |北美 |北美 |60250.000 DDR4_P2_E3_ECC |63250.000 |错误 |联合国 |北美 |北美 |北美 |北美 |北美 |60250.000
[ServerXX_TechSupport.tar]\var\log\sel\log
- 查看日志中是否存在任何可纠正和不可纠正的 ECC 错误:
内存DDR4_P2_E2_ECC #0xb0 |读取 CPU2 DIMM E2 上的 512 可纠正 ECC 错误 |断言
- 查看日志中是否有任何CATERR_N...已断言 |断言条目,示例如下:
03/06/2017 20:02:12 |中集集团 |处理器CATERR_N #0x70 |断言预测性故障 |断言提醒:这是预期行为,CATERR_N取消断言 |启动时在日志中断言[ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
- 查找受影响的 DIMM 的可纠正/不可纠正错误计数并复制相关字段,示例如下所示:
================== =================== DIMM 错误摘要 ------- DIMM E2 ---------- CURRENT SLOT ERROR COUNTS : 自上次服务器启动以来可纠正的 ECC 错误:0 累积可纠正 ECC 错误计数:2560 自上次服务器启动以来不可纠正的 ECC 错误:0 累积不可纠正 ECC 错误计数:3 以前的插槽错误计数: 可纠正的 ECC 错误计数:0 不可纠正的 ECC 错误计数:0
[ServerXX_TechSupport.tar]\var\sel_decode.txt
- 按角色条目和故障逐个播放
eventLogMaxEntries:1445 eventLogList: --- Id:1440 严重性:关键 Datetime:2017-03-10 00:57:17 dateTimeOrder:00005 描述:“System Software event:Post 传感器、DIMM 插槽 3、通道 E、处理器插槽 2。由于同一通道中的其他内存出现故障而禁用。[0xE542]被断言”
对于独立服务器:
- tmp\tech_support.frupids
======转储 IPMI FRU 记录====== 中文名称:UCSC-C220-xxx 产品部件号:74-xxxx-01 产品版本:A 产品型号:FCHxxxxxxxN — 服务器序列号 ======转储资源清册目录 PID ====== DIMMList: Name: DIMM_A1Description:8GB DDR3-1333-MHz RDIMM/PC3-10600/双列/1.35v Pid:UCS-MR-1X082RX-A – DIMM PID
后期分析
执行分析后,确保使用受影响服务器的正确序列号更新服务请求,并在数据库中搜索与正在调查的刀片式服务器关联的任何以前的 RMA。 如果最近更换了显示故障的 DIMM,则主板可能存在问题。
将您的分析添加到服务请求。
逻辑故障处理
识别错误后,我们将尝试清除所有错误,并在 UCSM 中监视计数器和故障选项卡,以查看它们是否仍然存在。
登录到 Server 命令行。
清除内存错误计数器
server# scope chassis 服务器/机箱 # reset-ecc使用以下命令清除系统事件日志:
Server# scope sel 服务器 /sel # clear 此操作将清除整个 sel。 继续?[y|N]y
使用以下命令重置CIMC日志:
Server# scope cimc 服务器 /cimc # scope log 服务器 /cimc/log # clear
监视环境 48 小时。
如果错误仍然存在,请捕获一组全新的 UCS 和机箱日志,确认分析,根据证据制定行动计划,然后继续执行下一部分。
原因
- DIMM 错误通常是由 DIMM 故障引起的,有时是由主板损坏引起的
说明
- 无
Additional Information
请参阅此视频:
Affected Products
Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems SeriesArticle Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version: 4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.