Ga naar hoofdinhoud
  • Snel en eenvoudig bestellen
  • Bestellingen en de verzendstatus bekijken
  • Een lijst met producten maken en openen
  • Beheer uw Dell EMC locaties, producten en contactpersonen op productniveau met Company Administration.

Risoluzione degli errori di memoria sui sistemi PowerEdge tramite test di sostituzione

Samenvatting: Scambio di DIMM di memoria per risolvere gli errori di memoria sui server Dell Technologies PowerEdge.

Dit artikel is mogelijk automatisch vertaald. Als u feedback hebt over de kwaliteit, laat het ons dan weten via het formulier onderaan deze pagina.

Article content


Symptomen

NOTA: questo articolo non si applica ai sistemi più recenti con processore scalabile Xeon. Per i sistemi più recenti, consultare questo articolo Che cos è il self-healing della memoria DDR4 sui server Dell PowerEdge con processori scalabili Intel Xeon.

Risoluzione degli errori di memoria sui sistemi PowerEdge tramite test di sostituzione

Quando viene segnalato un errore a bit singolo (SBE) e/o multibit (MBE) in una o più posizioni di memoria DIMM, la causa potrebbe non essere il DIMM stesso, pertanto è necessario eseguire alcune semplici operazioni di risoluzione dei problemi per determinare esattamente dove si trova l'errore. Vedere la Figura 1 per un esempio di errori di memoria visualizzati nell'interfaccia iDRAC su un R715.

Registri iDRAC 6
Figura 1: Errori di memoria visualizzati nei registri iDRAC 6 (solo in inglese)

Per isolare i problemi di memoria si intende scambiare i DIMM di memoria in diversi socket, canali, banchi e controller di memoria. Esistono diversi modi per scambiare i DIMM per restringere il campo di errore. Potrebbe essere necessario utilizzare più di uno di questi metodi per individuare il connettore o il modulo DIMM difettoso. Di seguito è riportata una rappresentazione di questi metodi. Per semplificare la spiegazione, si presume che il modulo DIMM difettoso sia A1 o uno dei set contrassegnati in blu nelle immagini.

NOTA: È possibile leggere ulteriori informazioni sulla memoria per i sistemi in uso nei nostri articoli sulla memoria.


Scambiare i DIMM in gruppi (per canale o banca) piuttosto che singolarmente è il metodo migliore per identificare i DIMM guasti.
Una volta identificato un gruppo di DIMM che contiene i DIMM guasti, è possibile utilizzare i singoli DIMM in movimento per identificare i DIMM guasti.


Metodo 1.

Scambiare il MODULO DIMM A1 (contrassegnato in blu) con il modulo DIMM A9 (contrassegnato in rosso) per provare il modulo DIMM in un altro canale di memoria e nel banco


DIMM da A1 ad A9Figura 2: Sostituzione di DIMM A1 con DIMM A9
 

Metodo 2.

Sostituendo il modulo DIMM A1 (contrassegnato in blu) con il modulo DIMM B1 (contrassegnato in rosso), il modulo DIMM viene posizionato su un controller di memoria (CPU) completamente diverso.

DIMM da A1 a B1
Figura 3: Sostituzione di DIMM A1 con DIMM B1
 

Metodo 3.

Scambiando l'intero banco di DIMM (A1, A2, A3 contrassegnato in blu) con un altro banco (B1, B2, B3 contrassegnato in rosso) si testa l'intero banco di DIMM in un nuovo banco su un nuovo controller di memoria.

Da DIMMA 123 a B123
Figura 4: Sostituzione di DIMM A1, A2, A3 con DIMM B1, B2, B3
 

Metodo 4

Scambiando un intero canale di DIMM (A1, A4, A7 - contrassegnato in blu) con un altro canale (B1, B2, B3 - contrassegnato in rosso) testare l'intero canale dei DIMM in un nuovo canale e su un nuovo controller di memoria.

Da DIMM A147 a B147
Figura 5: Sostituzione di DIMM A1, A4, A7 con DIMM B1, B4, B7
 

Interpretazione dei risultati dopo lo swapping di DIMM

In genere, gli errori DIMM tendono a seguire i DIMM identificati negli errori. Ad esempio, con un report SBE su DIMM A1, scambiare questo DIMM con un altro DIMM determina una delle seguenti condizioni:

  1. Il messaggio di errore non viene più segnalato e il problema è stato risolto
  •   Ciò indica che il riposizionamento della memoria ha risolto il problema
  1. Il messaggio di errore segue il DIMM (DIMM A1 viene sostituito con DIMM B1 e i messaggi di errore sono ora segnalati rispetto a DIMM B1)
  • Ciò indica che il modulo DIMM è probabilmente guasto e richiede la sostituzione.
  1. Il messaggio di errore segue il socket DIMM (DIMM A1 viene sostituito con DIMM B1 e i messaggi di errore sono ancora segnalati rispetto a DIMM A1)
  • Ciò indica che la scheda di sistema o la CPU è probabilmente guasta
  • Lo swap delle CPU conferma quale componente richiede la sostituzione
  • Se il problema riguarda la CPU (il messaggio di errore si sposta dopo lo swapping delle CPU), sostituire la CPU
  • Se il problema persiste con il socket DIMM, sostituire la scheda di sistema
  1. Il messaggio di errore non segue il DIMM o il socket (l'errore viene segnalato rispetto a un altro DIMM dopo lo swapping)
  • Ciò indica che un altro modulo DIMM è molto probabilmente danneggiato
 
NOTA: Si consiglia inoltre di mantenere aggiornati i livelli del firmware in quanto ciò può ridurre il rischio di ricevere errori di memoria e prolungare la durata dei moduli DIMM.
Per ulteriori informazioni, consultare l'articolo della Knowledge Base di Dell Dell Repository Manager (DRM).

Oorzaak

Non applicabile

Oplossing

Non applicabile

Artikeleigenschappen


Getroffen product

PowerEdge

Datum laatst gepubliceerd

15 apr. 2024

Versie

8

Artikeltype

Solution