メイン コンテンツに進む
  • すばやく簡単にご注文が可能
  • 注文内容の表示、配送状況をトラック
  • 会員限定の特典や割引のご利用
  • 製品リストの作成とアクセスが可能
  • 「Company Administration(会社情報の管理)」では、お使いのDell EMCのサイトや製品、製品レベルでのコンタクト先に関する情報を管理できます。

Risoluzione degli errori di memoria sui sistemi PowerEdge tramite test di sostituzione

概要: Scambio di DIMM di memoria per risolvere gli errori di memoria sui server Dell Technologies PowerEdge.

この記事は自動翻訳されたものである可能性があります。品質に関するフィードバックがある場合は、このページの下部にあるフォームを使用してお知らせください。

文書の内容


現象

NOTA: questo articolo non si applica ai sistemi più recenti con processore scalabile Xeon. Per i sistemi più recenti, consultare questo articolo Che cos è il self-healing della memoria DDR4 sui server Dell PowerEdge con processori scalabili Intel Xeon.

Risoluzione degli errori di memoria sui sistemi PowerEdge tramite test di sostituzione

Quando viene segnalato un errore a bit singolo (SBE) e/o multibit (MBE) in una o più posizioni di memoria DIMM, la causa potrebbe non essere il DIMM stesso, pertanto è necessario eseguire alcune semplici operazioni di risoluzione dei problemi per determinare esattamente dove si trova l'errore. Vedere la Figura 1 per un esempio di errori di memoria visualizzati nell'interfaccia iDRAC su un R715.

Registri iDRAC 6
Figura 1: Errori di memoria visualizzati nei registri iDRAC 6 (solo in inglese)

Per isolare i problemi di memoria si intende scambiare i DIMM di memoria in diversi socket, canali, banchi e controller di memoria. Esistono diversi modi per scambiare i DIMM per restringere il campo di errore. Potrebbe essere necessario utilizzare più di uno di questi metodi per individuare il connettore o il modulo DIMM difettoso. Di seguito è riportata una rappresentazione di questi metodi. Per semplificare la spiegazione, si presume che il modulo DIMM difettoso sia A1 o uno dei set contrassegnati in blu nelle immagini.

Scambiare i DIMM in gruppi (per canale o banca) piuttosto che singolarmente è il metodo migliore per identificare i DIMM guasti.
Una volta identificato un gruppo di DIMM che contiene i DIMM guasti, è possibile utilizzare i singoli DIMM in movimento per identificare i DIMM guasti.


Metodo 1.

Scambiare il MODULO DIMM A1 (contrassegnato in blu) con il modulo DIMM A9 (contrassegnato in rosso) per provare il modulo DIMM in un altro canale di memoria e nel banco


DIMM da A1 ad A9Figura 2: Sostituzione di DIMM A1 con DIMM A9
 

Metodo 2.

Sostituendo il modulo DIMM A1 (contrassegnato in blu) con il modulo DIMM B1 (contrassegnato in rosso), il modulo DIMM viene posizionato su un controller di memoria (CPU) completamente diverso.

DIMM da A1 a B1
Figura 3: Sostituzione di DIMM A1 con DIMM B1
 

Metodo 3.

Scambiando l'intero banco di DIMM (A1, A2, A3 contrassegnato in blu) con un altro banco (B1, B2, B3 contrassegnato in rosso) si testa l'intero banco di DIMM in un nuovo banco su un nuovo controller di memoria.

Da DIMMA 123 a B123
Figura 4: Sostituzione di DIMM A1, A2, A3 con DIMM B1, B2, B3
 

Metodo 4

Scambiando un intero canale di DIMM (A1, A4, A7 - contrassegnato in blu) con un altro canale (B1, B2, B3 - contrassegnato in rosso) testare l'intero canale dei DIMM in un nuovo canale e su un nuovo controller di memoria.

Da DIMM A147 a B147
Figura 5: Sostituzione di DIMM A1, A4, A7 con DIMM B1, B4, B7
 

Interpretazione dei risultati dopo lo swapping di DIMM

In genere, gli errori DIMM tendono a seguire i DIMM identificati negli errori. Ad esempio, con un report SBE su DIMM A1, scambiare questo DIMM con un altro DIMM determina una delle seguenti condizioni:

  1. Il messaggio di errore non viene più segnalato e il problema è stato risolto
  •   Ciò indica che il riposizionamento della memoria ha risolto il problema
  1. Il messaggio di errore segue il DIMM (DIMM A1 viene sostituito con DIMM B1 e i messaggi di errore sono ora segnalati rispetto a DIMM B1)
  • Ciò indica che il modulo DIMM è probabilmente guasto e richiede la sostituzione.
  1. Il messaggio di errore segue il socket DIMM (DIMM A1 viene sostituito con DIMM B1 e i messaggi di errore sono ancora segnalati rispetto a DIMM A1)
  • Ciò indica che la scheda di sistema o la CPU è probabilmente guasta
  • Lo swap delle CPU conferma quale componente richiede la sostituzione
  • Se il problema riguarda la CPU (il messaggio di errore si sposta dopo lo swapping delle CPU), sostituire la CPU
  • Se il problema persiste con il socket DIMM, sostituire la scheda di sistema
  1. Il messaggio di errore non segue il DIMM o il socket (l'errore viene segnalato rispetto a un altro DIMM dopo lo swapping)
  • Ciò indica che un altro modulo DIMM è molto probabilmente danneggiato
 
NOTA: Si consiglia inoltre di mantenere aggiornati i livelli del firmware in quanto ciò può ridurre il rischio di ricevere errori di memoria e prolungare la durata dei moduli DIMM.
Per ulteriori informazioni, consultare l'articolo della Knowledge Base di Dell Dell Repository Manager (DRM).

原因

Non applicabile

解決方法

Non applicabile

文書のプロパティ


影響を受ける製品

PowerEdge

最後に公開された日付

15 4月 2024

バージョン

8

文書の種類

Solution