Avamar. Оборудование Gen4T: Ошибки памяти
Summary: В этой статье рассматриваются ошибки памяти, о которых сообщают узлы Avamar Gen4T.
Symptoms
Предполагаемые проблемы с памятью можно подтвердить следующими признаками:
Системный журнал (/var/log/messages) сообщает о следующих ошибках памяти:
grep -i "mcelog.*error:" /var/log/messages
[log-messages:109] ERROR: <0001> kernel error: Jan 17 13:27:08 test-ava-03 mcelog: Running trigger `socket-memory-error-trigger'
[log-messages:109] ERROR: <0001> kernel error: Jan 17 13:27:40 test-ava-03 mcelog: Running trigger `page-error-trigger'
[log-messages:109] ERROR: <0001> kernel error: Jan 17 13:31:53 test-ava-03 mcelog: SOCKET Fallback Socket memory error count 6474 exceeded threshold: 776460088 in 24h
...
[log-messages:109] ERROR: <0001> kernel error: Jan 18 00:05:03 test-ava-03 mcelog: Corrected memory errors on page 6f58f8000 exceed threshold 10 in 24h: 10 in 24h
[log-messages:109] <0007> kernel info: Jan 18 00:05:04 test-ava-03 kernel: [7199506.363919] mce_notify_irq: 6232 callbacks suppressed
[log-messages:109] ERROR: <0001> kernel error: Jan 18 00:05:04 test-ava-03 kernel: [7199506.363925] [Hardware Error]: Machine check events logged
Переменная ipmitool не сообщает об ошибках для банков DIMM (четыре модуля DIMM как два банка):
ipmitool sdr entity 32
DIMM_Bank0 | 30h | ok | 32.0 | 23 degrees C
DIMM_Bank1 | 31h | ok | 32.1 | 24 degrees C
DIMM_Bank2 | 32h | ns | 32.2 | No Reading
DIMM_Bank3 | 33h | ns | 32.3 | No Reading
Переменная dmesg В выходных данных отображаются признаки повреждения памяти:
dmesg |grep -i "memory corruption"
[7689715.473298] mce_notify_irq: 7109 callbacks suppressed
[7689715.473303] [Hardware Error]: Machine check events logged
[7689715.481284] [Hardware Error]: Machine check events logged
[7689723.508392] soft_offline: 0x812b4f: unknown non LRU page type 20000000000100
[7689723.514500] get_any_page: 0x4360d9: unknown zero refcount page type 20000000000000
[7689728.554720] MCE: Killing sudo:18667 due to hardware memory corruption fault at 7f732745a750
[7689728.559849] MCE: Killing sudo:18676 due to hardware memory corruption fault at 7feabc119750
[7689728.564050] MCE: Killing sudo:18678 due to hardware memory corruption fault at 7fe3f0b37750
Все модули памяти находятся в режиме онлайн:
cat /sys/devices/system/memory/*/state |grep -v online
Запрос mcelog В последующие дни отображается все большее количество исправленных ошибок памяти:<
День 1:
mcelog --client
Memory errors
SOCKET 0 CHANNEL any DIMM any
corrected memory errors:
9 total
9 in 24h
uncorrected memory errors:
0 total
0 in 24h
День 2:
mcelog --client
Memory errors
SOCKET 0 CHANNEL any DIMM any
corrected memory errors:
30 total
21 in 24h
uncorrected memory errors:
0 total
0 in 24h
Запрос контроллера с помощью команды arcconf может сообщить об ошибке шины:
arcconf getconfig 1
Bus error Cause
Это указывает на прогнозируемый сбой модуля DIMM.
Resolution
Обратитесь в службу поддержки DELL Technologies Avamar для дальнейшего изучения этой проблемы путем создания сервисной заявки. Укажите ссылку на эту статью базы знаний в SR