Omitir para ir al contenido principal
  • Hacer pedidos rápida y fácilmente
  • Ver pedidos y realizar seguimiento al estado del envío
  • Cree y acceda a una lista de sus productos
  • Administre sus sitios, productos y contactos de nivel de producto de Dell EMC con Administración de la empresa.

Solución de problemas de memoria en sistemas PowerEdge mediante pruebas de intercambio

Resumen: Intercambio de DIMM de memoria para solucionar errores de memoria en servidores Dell Technologies PowerEdge.

Es posible que este artículo se traduzca automáticamente. Si tiene comentarios sobre su calidad, háganoslo saber mediante el formulario en la parte inferior de esta página.

Contenido del artículo


Síntomas

NOTA: Este artículo no se aplica a los sistemas más recientes con procesadores escalables Xeon. En el caso de los sistemas más recientes, consulte este artículo ¿Qué es la autorreparación de DDR4 en los servidores Dell PowerEdge con procesadores escalables Intel Xeon?

Solución de problemas de errores de memoria en sistemas PowerEdge mediante pruebas de intercambio

Cuando se informa un error de un bit (SBE) o un error de varios bits (MBE) en una o más ubicaciones de DIMM de memoria, es posible que la causa no se deba al DIMM en sí, por lo que se debe realizar una solución de problemas simple para determinar dónde se encuentra exactamente la falla. Consulte la Figura 1 para ver un ejemplo de los errores de memoria que aparecen en la interfaz de iDRAC en un R715.

Registros de iDRAC 6
Figura 1: Errores de memoria como se muestra en los registros de iDRAC 6 (Solo en inglés)

Aislar problemas de memoria significa intercambiar módulos DIMM de memoria en diferentes conectores de memoria, canales, bancos y controladoras. Hay varias maneras de intercambiar los DIMM para reducir la falla. Es posible que deba utilizar más de uno de estos métodos para identificar el DIMM o el conector defectuosos. A continuación, encontrará una representación de estos métodos. Para que la explicación sea sencilla, asumimos que el DIMM defectuoso es A1 o uno de los conjuntos marcados en azul en las imágenes.

NOTA: Puede obtener más información sobre la memoria para sus sistemas en nuestros artículos sobre memorias.


Intercambiar los DIMM en grupos (por canal o banco) en lugar de individualmente es el mejor método para identificar el o los DIMM fallidos.
Una vez que se haya identificado que un grupo de DIMM contiene el DIMM o los DIMM fallidos, se puede utilizar la transferencia de DIMM individuales para identificar qué DIMM han fallado.


Método 1:

Intercambiar el DIMM A1 (marcado en azul) con el DIMM A9 (marcado en rojo) para probar el DIMM en un canal y un banco de memoria diferentes

DIMM A1 a A9
Figura 2: Intercambio del DIMM A1 con el DIMM A9
 

Método 2:

Intercambiar el DIMM A1 (marcado en azul) con el DIMM B1 (marcado en rojo) coloca el DIMM en una controladora de memoria (CPU) completamente diferente.

DIMM A1 a B1
Figura 3: Intercambio del DIMM A1 con el DIMM B1
 

Método 3:

El intercambio de todo el banco de DIMM (A1, A2, A3: marcado en azul) con otro banco (B1, B2, B3: marcado en rojo) prueba todo el banco de DIMM en un banco nuevo, en una nueva controladora de memoria.

DIMMA 123 a B123
Figura 4: Intercambio de los DIMM A1, A2 y A3 con los DIMM B1, B2 y B3
 

Método 4

Intercambie un canal completo de DIMM (A1, A4, A7: marcado en azul) con otro canal (B1, B2, B3: marcado en rojo) y pruebe todo el canal de DIMM en un canal nuevo y en una nueva controladora de memoria.

DIMM A147 a B147
Figura 5: Intercambio de los DIMM A1, A4 y A7 con los DIMM B1, B4 y B7
 

Interpretación de los resultados después de intercambiar los DIMM

Por lo general, los errores de DIMM tienden a seguir a los DIMM identificados en los errores. Por ejemplo, con un SBE que informa sobre el DIMM A1, el intercambio de este DIMM con otro DIMM da como resultado una de las siguientes opciones:

  1. El mensaje de error ya no se informa y el problema se resolvió
  •   Esto significa que volver a insertar la memoria resolvió el problema
  1. El mensaje de error sigue al DIMM (el DIMM A1 se intercambió con el DIMM B1 y los mensajes de error informados se relacionan con el DIMM B1)
  • Esto significa que es muy probable que el DIMM haya fallado y se deba reemplazar
  1. El mensaje de error sigue al conector de DIMM (el DIMM A1 se intercambió con el DIMM B1 y los mensajes de error informados se siguen relacionando con el DIMM A1)
  • Esto indica que es muy probable que la tarjeta madre o la CPU hayan fallado
  • El intercambio de CPU confirma qué componente requiere reemplazo
  • Si el problema sigue a la CPU (el mensaje de error se reproduce después de intercambiar las CPU), reemplace la CPU
  • Si el problema persiste en el conector de DIMM, reemplace la tarjeta madre
  1. El mensaje de error no sigue al DIMM ni al conector (el error se informa en un DIMM diferente después del intercambio)
  • Esto significa que es muy probable que uno o varios DIMM diferentes presenten fallas
 
NOTA: Le recomendamos que mantenga actualizados sus niveles de firmware, ya que esto puede reducir el riesgo de recibir errores de memoria y prolongar la vida útil de los DIMM.
Para obtener más información, consulte el artículo de la base de conocimientos de Dell Dell Repository Manager (DRM).

Causa

No corresponde

Resolución

No corresponde

Propiedades del artículo


Producto comprometido

PowerEdge

Fecha de la última publicación

04 mar 2024

Versión

7

Tipo de artículo

Solution