Avamar: Hardware Gen4T: Erros relacionados à memória

Resumo: Este artigo analisa os erros de memória relatados pelos nós do Avamar Gen4T.

Este artigo aplica-se a Este artigo não se aplica a Este artigo não está vinculado a nenhum produto específico. Nem todas as versões do produto estão identificadas neste artigo.

Sintomas

A suspeita de problemas de memória pode ser confirmada pelo seguinte:

 

O log do sistema (/var/log/messages) relata os seguintes erros de memória: 

grep -i "mcelog.*error:" /var/log/messages
[log-messages:109]  ERROR: <0001> kernel error: Jan 17 13:27:08 test-ava-03 mcelog: Running trigger `socket-memory-error-trigger'
[log-messages:109]  ERROR: <0001> kernel error: Jan 17 13:27:40 test-ava-03 mcelog: Running trigger `page-error-trigger'
[log-messages:109]  ERROR: <0001> kernel error: Jan 17 13:31:53 test-ava-03 mcelog: SOCKET Fallback Socket memory error count 6474 exceeded threshold: 776460088 in 24h
...
[log-messages:109]  ERROR: <0001> kernel error: Jan 18 00:05:03 test-ava-03 mcelog: Corrected memory errors on page 6f58f8000 exceed threshold 10 in 24h: 10 in 24h
[log-messages:109]  <0007> kernel info: Jan 18 00:05:04 test-ava-03 kernel: [7199506.363919] mce_notify_irq: 6232 callbacks suppressed
[log-messages:109]  ERROR: <0001> kernel error: Jan 18 00:05:04 test-ava-03 kernel: [7199506.363925] [Hardware Error]: Machine check events logged
 

O comando ipmitool não relata nenhum erro nos bancos DIMM (quatro DIMMs como dois bancos):

ipmitool sdr entity 32 
DIMM_Bank0       | 30h | ok  | 32.0 | 23 degrees C
DIMM_Bank1       | 31h | ok  | 32.1 | 24 degrees C
DIMM_Bank2       | 32h | ns  | 32.2 | No Reading
DIMM_Bank3       | 33h | ns  | 32.3 | No Reading
 

O comando dmesg A saída mostra sinais de corrupção de memória:

dmesg |grep -i "memory corruption" 
[7689715.473298] mce_notify_irq: 7109 callbacks suppressed
[7689715.473303] [Hardware Error]: Machine check events logged
[7689715.481284] [Hardware Error]: Machine check events logged
[7689723.508392] soft_offline: 0x812b4f: unknown non LRU page type 20000000000100
[7689723.514500] get_any_page: 0x4360d9: unknown zero refcount page type 20000000000000
[7689728.554720] MCE: Killing sudo:18667 due to hardware memory corruption fault at 7f732745a750
[7689728.559849] MCE: Killing sudo:18676 due to hardware memory corruption fault at 7feabc119750
[7689728.564050] MCE: Killing sudo:18678 due to hardware memory corruption fault at 7fe3f0b37750 
 

Todos os módulos de memória estão on-line:

cat /sys/devices/system/memory/*/state |grep -v online
Nota: Esse comando não deve retornar nenhum resultado.
 
 

Consultar mcelog Nos dias subsequentes mostra um número crescente de erros de memória corrigidos:<

Dia 1:

mcelog --client
Memory errors
SOCKET 0 CHANNEL any DIMM any
corrected memory errors:
        9 total
        9 in 24h
uncorrected memory errors:
        0 total
        0 in 24h 

Dia 2:

mcelog --client
Memory errors
SOCKET 0 CHANNEL any DIMM any
corrected memory errors:
        30 total
        21 in 24h
uncorrected memory errors:
        0 total
        0 in 24h 
 

Consultando o controlador usando o arcconf O comando pode relatar um erro de barramento:

arcconf getconfig 1 
Bus error 

Causa

Isso indica uma falha preditiva de um DIMM.
 

Resolução

Entre em contato com o suporte do Avamar da DELL Technologies para investigar esse problema por meio da criação de um chamado. Mencione esta KB no SR
 

Produtos afetados

Avamar

Produtos

Avamar, Avamar Data Store Gen4T, Avamar Server
Propriedades do artigo
Número do artigo: 000063609
Tipo de artigo: Solution
Último modificado: 01 mai. 2025
Versão:  5
Encontre as respostas de outros usuários da Dell para suas perguntas.
Serviços de suporte
Verifique se o dispositivo está coberto pelos serviços de suporte.