Los errores de la memoria de la solución de problemas de los sistemas PowerEdge mediante pruebas de intercambio

Los errores de la memoria de la solución de problemas de los sistemas PowerEdge mediante pruebas de intercambio


Cuando un solo bit (SBE) y/o error de varios bits (MBE) se informa en uno o más módulos de memoria DIMM ubicaciones, la causa, es posible que no se hacia abajo para el módulo DIMM por sí mismo, por lo que algunas simple solución habrá que llevar a cabo para determinar dónde culpa. Consulte la Figura 1 (sólo en inglés) para obtener un ejemplo de memoria errores que aparecen en la interfaz de iDRAC en un R715.


Figura 1: errores de memoria como se muestra en los registros del iDRAC 6

Aislar los problemas de memoria implica el intercambio de la memoria en los zócalos DIMM, diferentes canales de memoria, los bancos y las controladoras. Hay varias maneras en que se pueden intercambiar los módulos DIMM alrededor para restringir la falla. Es posible que deba utilizar más de uno de estos métodos para localizar con exactitud el módulo DIMM defectuoso o zócalo. A continuación, encontrará una representación de estos métodos. Para hacer que las explicaciones muy sencillo, vamos a suponer el módulo DIMM está defectuosa A1 o uno de los conjunto marcado en azul en las ilustraciones.

Nota: Usted puede leer más acerca de la memoria para los sistemas en nuestra memoria artículos


El cambio de los módulos DIMM en grupos (por canal o banco) en lugar de cada uno de ellos es el mejor método para identificar el módulo DIMM o módulos DIMM que ha fallado
Una vez se ha identificado un grupo de módulos DIMM que contenga el DIMM o módulos DIMM que ha fallado y, a continuación, mover los módulos DIMM simples se pueden utilizar para identificar qué módulo DIMM(s) ha fallado

Nota: El archivo de video Memoriacontiene vídeos que muestran cómo retirar e instalar la memoria en diferentes servidores.


Método 1:

Intercambio DIMM A1 (marcado en azul) con DIMM A9 (marcados en rojo) para probar el módulo DIMM en otro canal de memoria y el banco


Figura 2: módulo DIMM Intercambio A1 con DIMM A9
 

Método 2:

Intercambio DIMM A1(marcado en azul) con DIMM B1(marcados en rojo) que pondrá el módulo DIMM en una controladora de memoria totalmente diferente (CPU).


Figura 3: módulo DIMM Intercambio A1 con DIMM B1
 

Método 3:

El cambio de los enteros banco de DIMM (A1, A2, A3 , marcado en azul) con otro banco (B1, B2, B3 - marcado rojo) todo el banco de DIMM en un nuevo banco, en una nueva controladora de memoria.


Figura 4: El cambio de los módulos DIMM A1, A2, A3 con módulos DIMM B1, B2, B3
 

Método 4

Intercambio de todo canal de módulos DIMM (A1, A4, A7 - marca azul) y otro canal (B1, B2, B3 - marcado rojo) todo el canal de módulos DIMM en un nuevo canal, y en una nueva controladora de memoria.


Figura 5: El cambio de los módulos DIMM A1, A4, A7 con módulos DIMM B1, B4, B7
 

Cómo interpretar los resultados tras el cambio de los módulos DIMM

Como regla general, los errores de DIMM tienden a seguir los módulos DIMM identificada en los errores.  Por ejemplo, con un SBE informes para el módulo DIMM A1, intercambio este DIMM con otro módulo DIMM tendrá como resultado que en uno de los siguientes:

  1. El mensaje de error ya no es informar y el problema se solucionó
  •   Esto indica que la memoria la reinstalación resolvieron el problema
  1. El mensaje de error ocurre en el módulo DIMM (DIMM A1 se cambia con DIMM B1, y los mensajes de error se ha convertido ahora contra DIMM B1)
  • Esto indica que el módulo DIMM es más probable que se ha producido un error y debe sustituirse.
  1. El mensaje de error ocurre en el zócalo DIMM (DIMM A1 se cambia con DIMM B1, y los mensajes de error se sigue informando contra DIMM A1)
  • Esto indica que la placa base o la CPU es más probable que se ha producido un error
  • CPU El cambio se confirmará cuál es el componente requiere reemplazo
  • Si el problema ocurre en la CPU (mensaje de error tras el cambio se mueve CPU), vuelva a colocar la CPU
  • Si el problema permanece con zócalo DIMM, reemplace la tarjeta madre del sistema
  1. El mensaje de error no sigue el módulo DIMM o el zócalo (error se notifica contra un módulo DIMM completamente distinto tras el cambio)
  • Esto indica que un módulo DIMM diferente o módulos DIMM es más probable que está dañado.
 
Tenemos que el asesoramiento que también de mantener los niveles de firmware actualizado ya que esto puede reducir el riesgo de recibir errores de memoria, así como prolongar la duración de los módulos DIMM


Need more help?
Find additional PowerEdge and PowerVault articles

Visit and ask for support in our Communities

Create an online support Request




ID del artículo: SLN289424

Última fecha de modificación: 22/06/2017 09:25


Valorar este artículo

Acertado
Útil
Fácil de entender
¿Le ha resultado útil este artículo?
No
Envíenos sus comentarios
Los comentarios no pueden contener caracteres especiales: <>()\
Lo sentimos. El sistema de envío de comentarios no está operativo en estos momentos. Vuelva a intentarlo más tarde.

Gracias por sus comentarios