Diagnosticando erros de memória em sistemas PowerEdge através do teste de inversão de memórias

Diagnosticando erros de memória em sistemas PowerEdge através do teste de inversão de memórias


Quando um "Single-bit error" (SBE) e/ou "Multi-bits error" (MBE) são reportados em um ou mais memórias DIMM locais, a causa pode não ser a DIMM em si. Um simples diagnsótico será necessário para determinar onde exatamente ocorre a falha. Consulte a Figura 1 (apenas em inglês) como um exemplo de erro de memória sendo exibido na interface iDRAC em um R715.


Figura 1: Registro de erros de memória exibido na iDRAC 6

Isolar um problema de memória, necessita de inversão das memórias DIMMs entre os slots, canais, "banks" e controladores. Há várias opções para você trocar as memórias e restringir a falha. Pode ser necessário usar mais de um destes métodos para identificar a memória com falha ou no slot. Abaixo, você encontrará uma representação desses métodos. Para tornar as explicações fáceis, vamos assumir que a memória com defeito é a DIMM A1 ou um desses marcados em azul conforme as ilustrações.

Nota: Você pode ler mais sobre a memória para os seus sistemas em nossa memória artigos


Trocar os DIMMs em grupos (por canal ou Banco) ao invés de individualmente, pois é o melhor método para identificar o DIMM ou DIMMs com falha
Depois que um grupo de DIMMs foi identificado para conter o DIMM ou DIMM com falha e, em seguida. Então podemos usar a movimentação de uma única memória da fileira para identificar qual das DIMM(s) falhou.

Nota: o vídeo da memória Arquivocontém vídeos mostrando como remover e instalar a memória em diferentes servidores.


Método 1:

Trocar a DIMM A1 (marcada em azul) com a DIMM A9 (marcada de vermelho) para testar a memória em um diferente channel e o bank


Figura 2: Trocando DIMM A1 com DIMM A9

Método 2:

Trocar a DIMM A1(marcada em azul) com DIMM B1(marcada em vermelho) colocando a memória em um controlador de memória (CPU) completamente diferente.


Figura 3: Trocando DIMM A1 com DIMM B1

Método 3:

Trocando todo o bank de DIMMs (A1, A2, A3 - marcadas em azul) com o outro bank (B1, B2, B3 - marcadas em vermelho) testará todo bank de DIMMs em um novo bank e em um novo controlador de memória (CPU).


Figura 4: Troca os DIMMs A1, A2, A3 com DIMMs B1, B2, B3

Método 4

Trocando todo um channel de DIMMs (A1, A4, A7 - marcadas em azul) com o outro channel (B1, B2, B3 - marcadass em vermelho) testará todo um novo channel de DIMMs e em um novo controlador de memória (CPU).


Figura 5: Troca os DIMMs A1, A4, A7 com DIMMs B1, B4, B7

Interpretando os resultados após troca os DIMMs

Como regra geral, erros de DIMM tendem a seguir os DIMMs identificada nos erros. Por exemplo, com um SBE relatórios em DIMM A1, trocando o DIMM com um DIMM diferente resultará em um dos seguintes:

  1. A mensagem de erro não é mais informado e o problema está resolvido
  • Isso indica que ao recolocar a memórua resolveu o problema
  1. A mensagem de erro acompanha a DIMM (DIMM A1 é trocado por DIMM B1, e as mensagens de erro é agora na DIMM B1)
  • Isso indica que o DIMM provavelmente falhou e precisa ser substituída.
  1. A mensagem de erro acompanha o slot da DIMM (DIMM A1 é trocada pela DIMM B1, e a mensagen de erro ainda acompanha a DIMM A1)
  • Isso indica que é mais provável que tenha uma falha na motherboard ou da CPU.
  • Invertendo as CPUs irá confirmar qual componente requer a substituição
  • Se o problema ocorre no CPU (mensagem de erro move-se depois da troca CPUs), substitua CPU
  • Se o problema permanece no soquete do DIMM, substitua a motherboard
  1. A mensagem de erro não segue o DIMM ou o soquete (erro é relatado em um DIMM completamente diferente após a troca)
  • Isso indica que um módulo DIMM diferente ou DIMMs provavelmente estão com defeito
Gostaríamos que também para manter o seu dos níveis de firmware atualizado , pois isso pode reduzir o risco de receber erros de memória, bem como prolongar a vida útil do DIMMs


Precisa de mais ajuda?
Localizar mais recursos do produto

Visite e solicite suporte em nossa Comunidade

Crie uma solicitação de suporte on-line




ID do artigo: SLN289424

Data da última modificação: 28/03/2018 13:17


Classifique este artigo

Preciso
Úteis
Fácil de entender
Este artigo foi útil?
Sim Não
Envie seus comentários
Os comentários não podem conter estes caracteres especiais: <>()\
Infelizmente, o nosso sistema de feedback está atualmente desativado. Tente novamente mais tarde.

Agradecemos o feedback.