Passer au contenu principal
  • Passer des commandes rapidement et facilement
  • Afficher les commandes et suivre l’état de votre expédition
  • Profitez de récompenses et de remises réservées aux membres
  • Créez et accédez à une liste de vos produits
  • Gérer vos sites, vos produits et vos contacts au niveau des produits Dell EMC à l’aide de la rubrique Gestion des informations de l’entreprise.

Поиск и устранение ошибок памяти в системах PowerEdge путем тестовой замены

Résumé: Замена модулей памяти DIMM для устранения ошибок памяти на серверах Dell Technologies PowerEdge.

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article


Symptômes

ПРИМЕЧАНИЕ. Эта статья не применима к более новым системам с масштабируемыми процессорами Xeon. Для более новых систем см. эту статью Что такое самовосстановление DDR4 на серверах Dell PowerEdge с масштабируемыми процессорами Intel Xeon?

Поиск и устранение ошибок памяти в системах PowerEdge путем тестовой замены

Если в одной или нескольких ячейках памяти DIMM отображается одноразрядная ошибка (SBE) и/или многоразрядная ошибка (MBE), причина может заключаться не в самом модуле DIMM, поэтому необходимо выполнить простую процедуру поиска и устранения неисправностей, чтобы определить, где именно находится неисправность. Пример ошибок памяти, появляющихся в интерфейсе iDRAC на компьютере R715, приведен на рис. 1 .

Журналы iDRAC 6
Рисунок 1: Ошибки памяти, отображаемые в журналах iDRAC 6 (Только на английском языке)

Локализация проблем с памятью означает перемещение модулей памяти DIMM по разным разъемам памяти, каналам, банкам и контроллерам. Существует несколько способов замены модулей DIMM, чтобы определить положение неисправности. Для обнаружения неисправного модуля DIMM или разъема может потребоваться применить несколько из этих способов. Ниже приведено представление этих способов. Чтобы объяснить это просто, мы предположим, что неисправный модуль DIMM — A1 или один из наборов, отмеченных синим цветом на изображениях.

Наилучший способ определения неисправных модулей DIMM или модулей DIMM — это лучший способ определения неисправных модулей DIMM (по каналу или банку).
После того как в группе модулей DIMM обнаружены неисправные модули DIMM или модули DIMM, можно использовать перемещение отдельных модулей DIMM, чтобы определить, какие модули DIMM неисправны.


Способ 1.

Замена DIMM A1 (помеченного синим цветом) модулем DIMM A9 (помеченным красным цветом) для проверки модуля DIMM на другом банке и канале памяти

DIMM A1–A9
Рис. 2. Замена DIMM A1 модулем DIMM A9
 

Способ 2.

При замене модуля DIMM A1 (отмечен синим цветом) на модуль DIMM B1 (отмечен красным) модуль DIMM переходит на совершенно другой контроллер памяти (ЦП).

Модули DIMM A1–B1
Рисунок 3: Замена DIMM A1 модулем DIMM B1
 

Способ 3.

При замене всего банка модулей DIMM (A1, A2, A3 - синий) на другой банк (B1, B2, B3 - красный) выполняется проверка всего банка DIMM в новом банке на новом контроллере памяти.

DIMMA 123 — B123
Рисунок 4. Замена модулей DIMM A1, A2, A3 модулями DIMM B1, B2, B3
 

Способ 4

Заменив весь канал модулей DIMM (A1, A4, A7 - отмечен синим цветом) на другой канал (B1, B2, B3 - отмечен красным), проверьте весь канал модулей DIMM в новом канале и на новом контроллере памяти.

DIMM A147–B147
Рисунок 5. Замена модулей DIMM A1, A4, A7 модулями DIMM B1, B4, B7
 

Интерпретация результатов после замены модулей DIMM

Как правило, ошибки DIMM следуют за модулями DIMM, указанными в ошибках. Например, если модуль памяти DIMM A1 сообщает об ошибке SBE, то при замене этого модуля DIMM на другой произойдет одно из следующих событий.

  1. Сообщение об ошибке больше не отображается, проблема устранена.
  •   Это означает, что переустановка памяти устранила проблему.
  1. Сообщение об ошибке следует за модулем DIMM (модуль DIMM A1 заменен на модуль DIMM B1, и теперь возникает ошибка модуля DIMM B1).
  • Это означает, что, скорее всего, модуль DIMM неисправен и его нужно заменить.
  1. Сообщение об ошибке следует за разъемом DIMM (модуль DIMM A1 заменен на модуль DIMM B1, по прежнему возникает ошибка модуля DIMM A1).
  • Это указывает, что, скорее всего, неисправны системная плата или процессор.
  • Замена ЦП позволяет определить, какой компонент требует замены
  • Если проблема связана с ЦП (сообщение об ошибке перемещается после замены ЦП), замените ЦП.
  • Если проблема сохраняется в разъеме DIMM, замените системную плату.
  1. Сообщение об ошибке не следует за модулем DIMM или процессором (после замены появляется ошибка другого модуля DIMM).
  • Это указывает, что, скорее всего, неисправны другие модули DIMM.
 
ПРИМЕЧАНИЕ. Рекомендуется также поддерживать актуальность версий микропрограммы, так как это может снизить риск получения ошибок памяти и продлить срок службы модулей DIMM.
Подробнее см. в статье базы знаний Dell Dell Repository Manager (DRM).

Cause

Неприменимо

Résolution

Неприменимо

Propriétés de l’article


Produit concerné

PowerEdge

Dernière date de publication

15 avr. 2024

Version

8

Type d’article

Solution