メイン コンテンツに進む
  • すばやく簡単にご注文が可能
  • 注文内容の表示、配送状況をトラック
  • 会員限定の特典や割引のご利用
  • 製品リストの作成とアクセスが可能
  • 「Company Administration(会社情報の管理)」では、お使いのDell EMCのサイトや製品、製品レベルでのコンタクト先に関する情報を管理できます。

Поиск и устранение ошибок памяти в системах PowerEdge путем тестовой замены

概要: Замена модулей памяти DIMM для устранения ошибок памяти на серверах Dell Technologies PowerEdge.

この記事は自動翻訳されたものである可能性があります。品質に関するフィードバックがある場合は、このページの下部にあるフォームを使用してお知らせください。

文書の内容


現象

ПРИМЕЧАНИЕ. Эта статья не применима к более новым системам с масштабируемыми процессорами Xeon. Для более новых систем см. эту статью Что такое самовосстановление DDR4 на серверах Dell PowerEdge с масштабируемыми процессорами Intel Xeon?

Поиск и устранение ошибок памяти в системах PowerEdge путем тестовой замены

Если в одной или нескольких ячейках памяти DIMM отображается одноразрядная ошибка (SBE) и/или многоразрядная ошибка (MBE), причина может заключаться не в самом модуле DIMM, поэтому необходимо выполнить простую процедуру поиска и устранения неисправностей, чтобы определить, где именно находится неисправность. Пример ошибок памяти, появляющихся в интерфейсе iDRAC на компьютере R715, приведен на рис. 1 .

Журналы iDRAC 6
Рисунок 1: Ошибки памяти, отображаемые в журналах iDRAC 6 (Только на английском языке)

Локализация проблем с памятью означает перемещение модулей памяти DIMM по разным разъемам памяти, каналам, банкам и контроллерам. Существует несколько способов замены модулей DIMM, чтобы определить положение неисправности. Для обнаружения неисправного модуля DIMM или разъема может потребоваться применить несколько из этих способов. Ниже приведено представление этих способов. Чтобы объяснить это просто, мы предположим, что неисправный модуль DIMM — A1 или один из наборов, отмеченных синим цветом на изображениях.

Наилучший способ определения неисправных модулей DIMM или модулей DIMM — это лучший способ определения неисправных модулей DIMM (по каналу или банку).
После того как в группе модулей DIMM обнаружены неисправные модули DIMM или модули DIMM, можно использовать перемещение отдельных модулей DIMM, чтобы определить, какие модули DIMM неисправны.


Способ 1.

Замена DIMM A1 (помеченного синим цветом) модулем DIMM A9 (помеченным красным цветом) для проверки модуля DIMM на другом банке и канале памяти

DIMM A1–A9
Рис. 2. Замена DIMM A1 модулем DIMM A9
 

Способ 2.

При замене модуля DIMM A1 (отмечен синим цветом) на модуль DIMM B1 (отмечен красным) модуль DIMM переходит на совершенно другой контроллер памяти (ЦП).

Модули DIMM A1–B1
Рисунок 3: Замена DIMM A1 модулем DIMM B1
 

Способ 3.

При замене всего банка модулей DIMM (A1, A2, A3 - синий) на другой банк (B1, B2, B3 - красный) выполняется проверка всего банка DIMM в новом банке на новом контроллере памяти.

DIMMA 123 — B123
Рисунок 4. Замена модулей DIMM A1, A2, A3 модулями DIMM B1, B2, B3
 

Способ 4

Заменив весь канал модулей DIMM (A1, A4, A7 - отмечен синим цветом) на другой канал (B1, B2, B3 - отмечен красным), проверьте весь канал модулей DIMM в новом канале и на новом контроллере памяти.

DIMM A147–B147
Рисунок 5. Замена модулей DIMM A1, A4, A7 модулями DIMM B1, B4, B7
 

Интерпретация результатов после замены модулей DIMM

Как правило, ошибки DIMM следуют за модулями DIMM, указанными в ошибках. Например, если модуль памяти DIMM A1 сообщает об ошибке SBE, то при замене этого модуля DIMM на другой произойдет одно из следующих событий.

  1. Сообщение об ошибке больше не отображается, проблема устранена.
  •   Это означает, что переустановка памяти устранила проблему.
  1. Сообщение об ошибке следует за модулем DIMM (модуль DIMM A1 заменен на модуль DIMM B1, и теперь возникает ошибка модуля DIMM B1).
  • Это означает, что, скорее всего, модуль DIMM неисправен и его нужно заменить.
  1. Сообщение об ошибке следует за разъемом DIMM (модуль DIMM A1 заменен на модуль DIMM B1, по прежнему возникает ошибка модуля DIMM A1).
  • Это указывает, что, скорее всего, неисправны системная плата или процессор.
  • Замена ЦП позволяет определить, какой компонент требует замены
  • Если проблема связана с ЦП (сообщение об ошибке перемещается после замены ЦП), замените ЦП.
  • Если проблема сохраняется в разъеме DIMM, замените системную плату.
  1. Сообщение об ошибке не следует за модулем DIMM или процессором (после замены появляется ошибка другого модуля DIMM).
  • Это указывает, что, скорее всего, неисправны другие модули DIMM.
 
ПРИМЕЧАНИЕ. Рекомендуется также поддерживать актуальность версий микропрограммы, так как это может снизить риск получения ошибок памяти и продлить срок службы модулей DIMM.
Подробнее см. в статье базы знаний Dell Dell Repository Manager (DRM).

原因

Неприменимо

解決方法

Неприменимо

文書のプロパティ


影響を受ける製品

PowerEdge

最後に公開された日付

15 4月 2024

バージョン

8

文書の種類

Solution