Base de conhecimento

Diagnosticando erros de memória em sistemas PowerEdge através do teste de inversão de memórias


Quando um "Single-bit error" (SBE) e/ou "Multi-bits error" (MBE) são reportados em um ou mais memórias DIMM locais, a causa pode não ser a DIMM em si. Um simples diagnsótico será necessário para determinar onde exatamente ocorre a falha. Consulte a Figura 1 (apenas em inglês) como um exemplo de erro de memória sendo exibido na interface iDRAC em um R715.


Figura 1: Registro de erros de memória exibido na iDRAC 6

Isolar um problema de memória, necessita de inversão das memórias DIMMs entre os slots, canais, "banks" e controladores. Há várias opções para você trocar as memórias e restringir a falha. Pode ser necessário usar mais de um destes métodos para identificar a memória com falha ou no slot. Abaixo, você encontrará uma representação desses métodos. Para tornar as explicações fáceis, vamos assumir que a memória com defeito é a DIMM A1 ou um desses marcados em azul conforme as ilustrações.

Nota: Você pode ler mais sobre a memória para os seus sistemas em nossa memória artigos


Trocar os DIMMs em grupos (por canal ou Banco) ao invés de individualmente, pois é o melhor método para identificar o DIMM ou DIMMs com falha
Depois que um grupo de DIMMs foi identificado para conter o DIMM ou DIMM com falha e, em seguida. Então podemos usar a movimentação de uma única memória da fileira para identificar qual das DIMM(s) falhou.

Nota: o vídeo da memória Arquivocontém vídeos mostrando como remover e instalar a memória em diferentes servidores.


Método 1:

Trocar a DIMM A1 (marcada em azul) com a DIMM A9 (marcada de vermelho) para testar a memória em um diferente channel e o bank


Figura 2: Trocando DIMM A1 com DIMM A9

Método 2:

Trocar a DIMM A1(marcada em azul) com DIMM B1(marcada em vermelho) colocando a memória em um controlador de memória (CPU) completamente diferente.


Figura 3: Trocando DIMM A1 com DIMM B1

Método 3:

Trocando todo o bank de DIMMs (A1, A2, A3 - marcadas em azul) com o outro bank (B1, B2, B3 - marcadas em vermelho) testará todo bank de DIMMs em um novo bank e em um novo controlador de memória (CPU).


Figura 4: Troca os DIMMs A1, A2, A3 com DIMMs B1, B2, B3

Método 4

Trocando todo um channel de DIMMs (A1, A4, A7 - marcadas em azul) com o outro channel (B1, B2, B3 - marcadass em vermelho) testará todo um novo channel de DIMMs e em um novo controlador de memória (CPU).


Figura 5: Troca os DIMMs A1, A4, A7 com DIMMs B1, B4, B7

Interpretando os resultados após troca os DIMMs

Como regra geral, erros de DIMM tendem a seguir os DIMMs identificada nos erros. Por exemplo, com um SBE relatórios em DIMM A1, trocando o DIMM com um DIMM diferente resultará em um dos seguintes:

  1. A mensagem de erro não é mais informado e o problema está resolvido
  • Isso indica que ao recolocar a memórua resolveu o problema
  1. A mensagem de erro acompanha a DIMM (DIMM A1 é trocado por DIMM B1, e as mensagens de erro é agora na DIMM B1)
  • Isso indica que o DIMM provavelmente falhou e precisa ser substituída.
  1. A mensagem de erro acompanha o slot da DIMM (DIMM A1 é trocada pela DIMM B1, e a mensagen de erro ainda acompanha a DIMM A1)
  • Isso indica que é mais provável que tenha uma falha na motherboard ou da CPU.
  • Invertendo as CPUs irá confirmar qual componente requer a substituição
  • Se o problema ocorre no CPU (mensagem de erro move-se depois da troca CPUs), substitua CPU
  • Se o problema permanece no soquete do DIMM, substitua a motherboard
  1. A mensagem de erro não segue o DIMM ou o soquete (erro é relatado em um DIMM completamente diferente após a troca)
  • Isso indica que um módulo DIMM diferente ou DIMMs provavelmente estão com defeito
Gostaríamos que também para manter o seu dos níveis de firmware atualizado , pois isso pode reduzir o risco de receber erros de memória, bem como prolongar a vida útil do DIMMs


Precisa de mais ajuda?
Localizar mais recursos do produto

Visite e solicite suporte em nossa Comunidade

Crie uma solicitação de suporte on-line




ID do artigo: SLN289424

Data da última modificação: 28/03/2018 13:17


Classifique este artigo

Preciso
Úteis
Fácil de entender
Este artigo foi útil?
Sim Não
Envie seus comentários
Os comentários não podem conter estes caracteres especiais: <>()\
Infelizmente, o nosso sistema de feedback está atualmente desativado. Tente novamente mais tarde.

Agradecemos o feedback.