Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

通过交换测试对 PowerEdge 系统上的内存错误进行故障处理

Summary: 交换内存 DIMM,以对 Dell Technologies PowerEdge 服务器上的内存错误进行故障处理。

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

提醒:本文不适用于配备至强可扩展处理器的较新系统。对于较新的系统,请查看本文配备英特尔至强可扩展处理器的 Dell PowerEdge 服务器上什么是 DDR4 自我修复

通过交换测试对 PowerEdge 系统上的内存错误进行故障处理

在一个或多个内存 DIMM 位置上报告单位错误 (SBE) 和/或多位错误 (MBE) 时,原因可能不在于 DIMM 本身,因此必须执行一些简单的故障处理以确定故障的确切位置。有关 R715 上的 iDRAC 界面中出现的内存错误的示例,请参阅 图 1

iDRAC 6 日志
图 1:iDRAC 6 日志中显示的内存错误 (仅限英文)

隔离内存问题意味着将内存 DIMM 交换到不同的内存插槽、通道、插槽和控制器。有几种方法可以交换 DIMM 以缩小故障范围。您可能需要使用这些方法中的多种方法来查明故障的 DIMM 或插槽。下面,您可以找到这些方法的表示形式。为了简单明了解释,我们假设故障 DIMM 是 A1 或图像中用蓝色标记的一组之一。

提醒:您可以在我们的内存文章中详细了解系统内存。


成组(按通道或条)而不是单独交换 DIMM 是识别故障 DIMM 的最佳方法。
一旦确定一组 DIMM 包含故障 DIMM,则可以使用移动单个 DIMM 来识别发生故障的 DIMM。


方法 1:

将 DIMM A1(用蓝色标记)与 DIMM A9(用红色标记)进行交换,以便在不同内存通道和内存组中尝试 DIMM

DIMM A1 到 A9
图 2:将 DIMM A1 与 DIMM A9 进行交换
 

方法 2:

将 DIMM A1(用蓝色标记)与 DIMM B1(用红色标记)交换会将 DIMM 置于完全不同的内存控制器 (CPU) 上。

DIMM A1 到 B1
图 3:将 DIMM A1 与 DIMM B1 进行交换
 

方法 3:

将整个 DIMM 条(A1、A2、A3 — 标记为蓝色)与另一个条(B1、B2、B3 — 标记为红色)交换,在新的内存控制器上的新条中测试整个 DIMM 条。

DIMMA 123 到 B123
图 4:将 DIMM A1、A2、A3 与 DIMM B1、B2、B3 进行交换
 

方法 4

将整个 DIMM 通道(A1、A4、A7 — 标记为蓝色)与另一个通道(B1、B2、B3 — 标记为红色)交换,在新通道和新内存控制器上检测整个 DIMM 通道。

DIMM A147 到 B147
图 5:将 DIMM A1、A4、A7 与 DIMM B1、B4、B7 进行交换
 

解释 DIMM 交换后的结果

通常,DIMM 错误往往发生在错误中标识的 DIMM。例如,对于 DIMM A1 上的 SBE 报告,将此 DIMM 与不同的 DIMM 交换会导致以下情况之一:

  1. 不再报告错误消息,并且问题已解决
  •   这表示重新拔插内存已解决该问题
  1. 错误消息跟随着 DIMM 转移(DIMM A1 与 DIMM B1 交换,现在针对 DIMM B1 报告错误消息)
  • 这表示该 DIMM 很可能出现故障,需要更换。
  1. 错误消息跟随着 DIMM 插槽转移(DIMM A1 与 DIMM B1 交换,但现在仍针对 DIMM A1 报告错误消息)
  • 这表示系统主板或 CPU 很可能出现故障
  • 交换 CPU 可确认需要更换哪个组件
  • 如果问题跟随 CPU(交换 CPU 后错误消息会移动),请更换 CPU
  • 如果 DIMM 插槽仍然存在问题,请更换系统主板
  1. 错误消息不跟随 DIMM 或插槽转移(交换后针对不同的 DIMM 报告错误)
  • 这表示一个或多个不同的 DIMM 很可能损坏
 
提醒:我们建议您同时保持固件级别为最新版本,因为这可以降低接收内存错误的风险并延长 DIMM 的使用寿命。
有关更多信息,请参阅戴尔知识库文章 Dell Repository Manager (DRM)。

Cause

不适用

Resolution

不适用

Article Properties


Affected Product

PowerEdge

Last Published Date

15 Apr 2024

Version

8

Article Type

Solution