Avamar: Sprzęt Gen4T: Błędy pamięci
Summary: W tym artykule omówiono błędy pamięci zgłaszane przez węzły Avamar Gen4T.
Symptoms
Podejrzenie problemów z modułami pamięci można potwierdzić w następujący sposób:
Dziennik systemowy (/var/log/messages) zgłasza następujące błędy pamięci:
grep -i "mcelog.*error:" /var/log/messages
[log-messages:109] ERROR: <0001> kernel error: Jan 17 13:27:08 test-ava-03 mcelog: Running trigger `socket-memory-error-trigger'
[log-messages:109] ERROR: <0001> kernel error: Jan 17 13:27:40 test-ava-03 mcelog: Running trigger `page-error-trigger'
[log-messages:109] ERROR: <0001> kernel error: Jan 17 13:31:53 test-ava-03 mcelog: SOCKET Fallback Socket memory error count 6474 exceeded threshold: 776460088 in 24h
...
[log-messages:109] ERROR: <0001> kernel error: Jan 18 00:05:03 test-ava-03 mcelog: Corrected memory errors on page 6f58f8000 exceed threshold 10 in 24h: 10 in 24h
[log-messages:109] <0007> kernel info: Jan 18 00:05:04 test-ava-03 kernel: [7199506.363919] mce_notify_irq: 6232 callbacks suppressed
[log-messages:109] ERROR: <0001> kernel error: Jan 18 00:05:04 test-ava-03 kernel: [7199506.363925] [Hardware Error]: Machine check events logged
Plik ipmitool polecenie nie zgłasza żadnych błędów w bankach DIMM (cztery moduły DIMM jako dwa banki):
ipmitool sdr entity 32
DIMM_Bank0 | 30h | ok | 32.0 | 23 degrees C
DIMM_Bank1 | 31h | ok | 32.1 | 24 degrees C
DIMM_Bank2 | 32h | ns | 32.2 | No Reading
DIMM_Bank3 | 33h | ns | 32.3 | No Reading
Plik dmesg Dane wyjściowe wykazują oznaki uszkodzenia pamięci:
dmesg |grep -i "memory corruption"
[7689715.473298] mce_notify_irq: 7109 callbacks suppressed
[7689715.473303] [Hardware Error]: Machine check events logged
[7689715.481284] [Hardware Error]: Machine check events logged
[7689723.508392] soft_offline: 0x812b4f: unknown non LRU page type 20000000000100
[7689723.514500] get_any_page: 0x4360d9: unknown zero refcount page type 20000000000000
[7689728.554720] MCE: Killing sudo:18667 due to hardware memory corruption fault at 7f732745a750
[7689728.559849] MCE: Killing sudo:18676 due to hardware memory corruption fault at 7feabc119750
[7689728.564050] MCE: Killing sudo:18678 due to hardware memory corruption fault at 7fe3f0b37750
Wszystkie moduły pamięci są w trybie online:
cat /sys/devices/system/memory/*/state |grep -v online
Badanie mcelog w kolejnych dniach pokazuje coraz większą liczbę poprawionych błędów pamięci:<
Dzień 1:
mcelog --client
Memory errors
SOCKET 0 CHANNEL any DIMM any
corrected memory errors:
9 total
9 in 24h
uncorrected memory errors:
0 total
0 in 24h
Dzień 2:
mcelog --client
Memory errors
SOCKET 0 CHANNEL any DIMM any
corrected memory errors:
30 total
21 in 24h
uncorrected memory errors:
0 total
0 in 24h
Odpytywanie kontrolera za pomocą arcconf Polecenie może zgłosić błąd magistrali:
arcconf getconfig 1
Bus error Cause
Jest to przewidywana awaria modułu DIMM.
Resolution
Skontaktuj się z działem pomocy technicznej DELL Technologies Avamar , aby dokładniej zbadać ten problem, tworząc zgłoszenie serwisowe. Zapoznaj się z tym artykułem bazy wiedzy w zgłoszeniu serwisowym