Omitir para ir al contenido principal
  • Hacer pedidos rápida y fácilmente
  • Ver pedidos y realizar seguimiento al estado del envío
  • Cree y acceda a una lista de sus productos
  • Administre sus sitios, productos y contactos de nivel de producto de Dell EMC con Administración de la empresa.

Поиск и устранение ошибок памяти в системах PowerEdge путем тестовой замены

Resumen: Замена модулей памяти DIMM для устранения ошибок памяти на серверах Dell Technologies PowerEdge.

Es posible que este artículo se traduzca automáticamente. Si tiene comentarios sobre su calidad, háganoslo saber mediante el formulario en la parte inferior de esta página.

Contenido del artículo


Síntomas

ПРИМЕЧАНИЕ. Эта статья не применима к более новым системам с масштабируемыми процессорами Xeon. Для более новых систем см. эту статью Что такое самовосстановление DDR4 на серверах Dell PowerEdge с масштабируемыми процессорами Intel Xeon?

Поиск и устранение ошибок памяти в системах PowerEdge путем тестовой замены

Если в одной или нескольких ячейках памяти DIMM отображается одноразрядная ошибка (SBE) и/или многоразрядная ошибка (MBE), причина может заключаться не в самом модуле DIMM, поэтому необходимо выполнить простую процедуру поиска и устранения неисправностей, чтобы определить, где именно находится неисправность. Пример ошибок памяти, появляющихся в интерфейсе iDRAC на компьютере R715, приведен на рис. 1 .

Журналы iDRAC 6
Рисунок 1: Ошибки памяти, отображаемые в журналах iDRAC 6 (Только на английском языке)

Локализация проблем с памятью означает перемещение модулей памяти DIMM по разным разъемам памяти, каналам, банкам и контроллерам. Существует несколько способов замены модулей DIMM, чтобы определить положение неисправности. Для обнаружения неисправного модуля DIMM или разъема может потребоваться применить несколько из этих способов. Ниже приведено представление этих способов. Чтобы объяснить это просто, мы предположим, что неисправный модуль DIMM — A1 или один из наборов, отмеченных синим цветом на изображениях.

ПРИМЕЧАНИЕ. Дополнительную информацию о памяти для систем можно найти в наших статьях о памяти.


Наилучший способ определения неисправных модулей DIMM или модулей DIMM — это лучший способ определения неисправных модулей DIMM (по каналу или банку).
После того как в группе модулей DIMM обнаружены неисправные модули DIMM или модули DIMM, можно использовать перемещение отдельных модулей DIMM, чтобы определить, какие модули DIMM неисправны.


Способ 1.

Замена DIMM A1 (помеченного синим цветом) модулем DIMM A9 (помеченным красным цветом) для проверки модуля DIMM на другом банке и канале памяти

DIMM A1–A9
Рис. 2. Замена DIMM A1 модулем DIMM A9
 

Способ 2.

При замене модуля DIMM A1 (отмечен синим цветом) на модуль DIMM B1 (отмечен красным) модуль DIMM переходит на совершенно другой контроллер памяти (ЦП).

Модули DIMM A1–B1
Рисунок 3: Замена DIMM A1 модулем DIMM B1
 

Способ 3.

При замене всего банка модулей DIMM (A1, A2, A3 - синий) на другой банк (B1, B2, B3 - красный) выполняется проверка всего банка DIMM в новом банке на новом контроллере памяти.

DIMMA 123 — B123
Рисунок 4. Замена модулей DIMM A1, A2, A3 модулями DIMM B1, B2, B3
 

Способ 4

Заменив весь канал модулей DIMM (A1, A4, A7 - отмечен синим цветом) на другой канал (B1, B2, B3 - отмечен красным), проверьте весь канал модулей DIMM в новом канале и на новом контроллере памяти.

DIMM A147–B147
Рисунок 5. Замена модулей DIMM A1, A4, A7 модулями DIMM B1, B4, B7
 

Интерпретация результатов после замены модулей DIMM

Как правило, ошибки DIMM следуют за модулями DIMM, указанными в ошибках. Например, если модуль памяти DIMM A1 сообщает об ошибке SBE, то при замене этого модуля DIMM на другой произойдет одно из следующих событий.

  1. Сообщение об ошибке больше не отображается, проблема устранена.
  •   Это означает, что переустановка памяти устранила проблему.
  1. Сообщение об ошибке следует за модулем DIMM (модуль DIMM A1 заменен на модуль DIMM B1, и теперь возникает ошибка модуля DIMM B1).
  • Это означает, что, скорее всего, модуль DIMM неисправен и его нужно заменить.
  1. Сообщение об ошибке следует за разъемом DIMM (модуль DIMM A1 заменен на модуль DIMM B1, по прежнему возникает ошибка модуля DIMM A1).
  • Это указывает, что, скорее всего, неисправны системная плата или процессор.
  • Замена ЦП позволяет определить, какой компонент требует замены
  • Если проблема связана с ЦП (сообщение об ошибке перемещается после замены ЦП), замените ЦП.
  • Если проблема сохраняется в разъеме DIMM, замените системную плату.
  1. Сообщение об ошибке не следует за модулем DIMM или процессором (после замены появляется ошибка другого модуля DIMM).
  • Это указывает, что, скорее всего, неисправны другие модули DIMM.
 
ПРИМЕЧАНИЕ. Рекомендуется также поддерживать актуальность версий микропрограммы, так как это может снизить риск получения ошибок памяти и продлить срок службы модулей DIMM.
Подробнее см. в статье базы знаний Dell Dell Repository Manager (DRM).

Causa

Неприменимо

Resolución

Неприменимо

Propiedades del artículo


Producto comprometido

PowerEdge

Fecha de la última publicación

15 abr. 2024

Versión

8

Tipo de artículo

Solution