Avamar : Matériel Gen4T : Erreurs de mémoire
Summary: Cet article examine les erreurs de mémoire signalées par les nœuds Avamar Gen4T.
Symptoms
Les problèmes de mémoire suspectés peuvent être confirmés par les éléments suivants :
Le journal système (/var/log/messages) signale les erreurs de mémoire suivantes :
grep -i "mcelog.*error:" /var/log/messages
[log-messages:109] ERROR: <0001> kernel error: Jan 17 13:27:08 test-ava-03 mcelog: Running trigger `socket-memory-error-trigger'
[log-messages:109] ERROR: <0001> kernel error: Jan 17 13:27:40 test-ava-03 mcelog: Running trigger `page-error-trigger'
[log-messages:109] ERROR: <0001> kernel error: Jan 17 13:31:53 test-ava-03 mcelog: SOCKET Fallback Socket memory error count 6474 exceeded threshold: 776460088 in 24h
...
[log-messages:109] ERROR: <0001> kernel error: Jan 18 00:05:03 test-ava-03 mcelog: Corrected memory errors on page 6f58f8000 exceed threshold 10 in 24h: 10 in 24h
[log-messages:109] <0007> kernel info: Jan 18 00:05:04 test-ava-03 kernel: [7199506.363919] mce_notify_irq: 6232 callbacks suppressed
[log-messages:109] ERROR: <0001> kernel error: Jan 18 00:05:04 test-ava-03 kernel: [7199506.363925] [Hardware Error]: Machine check events logged
Le ipmitool ne signale aucune erreur sur les banques de barrettes DIMM (quatre barrettes DIMM comme deux banques) :
ipmitool sdr entity 32
DIMM_Bank0 | 30h | ok | 32.0 | 23 degrees C
DIMM_Bank1 | 31h | ok | 32.1 | 24 degrees C
DIMM_Bank2 | 32h | ns | 32.2 | No Reading
DIMM_Bank3 | 33h | ns | 32.3 | No Reading
Le dmesg La sortie montre des signes de corruption de la mémoire :
dmesg |grep -i "memory corruption"
[7689715.473298] mce_notify_irq: 7109 callbacks suppressed
[7689715.473303] [Hardware Error]: Machine check events logged
[7689715.481284] [Hardware Error]: Machine check events logged
[7689723.508392] soft_offline: 0x812b4f: unknown non LRU page type 20000000000100
[7689723.514500] get_any_page: 0x4360d9: unknown zero refcount page type 20000000000000
[7689728.554720] MCE: Killing sudo:18667 due to hardware memory corruption fault at 7f732745a750
[7689728.559849] MCE: Killing sudo:18676 due to hardware memory corruption fault at 7feabc119750
[7689728.564050] MCE: Killing sudo:18678 due to hardware memory corruption fault at 7fe3f0b37750
Tous les modules de mémoire sont en ligne :
cat /sys/devices/system/memory/*/state |grep -v online
Interrogation mcelog Les jours suivants affiche un nombre croissant d’erreurs de mémoire corrigées :<
Jour 1 :
mcelog --client
Memory errors
SOCKET 0 CHANNEL any DIMM any
corrected memory errors:
9 total
9 in 24h
uncorrected memory errors:
0 total
0 in 24h
Jour 2 :
mcelog --client
Memory errors
SOCKET 0 CHANNEL any DIMM any
corrected memory errors:
30 total
21 in 24h
uncorrected memory errors:
0 total
0 in 24h
Interrogation du contrôleur à l’aide de la commande arcconf La commande peut signaler une erreur de bus :
arcconf getconfig 1
Bus error Cause
Cela indique une défaillance prédictive d’un module DIMM.
Resolution
Contactez le support DELL Technologies Avamar pour examiner ce problème plus en détail en créant une demande de service. Consultez cet article de la base de connaissances dans la demande de service