Avamar: Gen4T 하드웨어: 메모리 오류

Summary: 이 문서에서는 Avamar Gen4T 노드에서 보고된 메모리 오류를 검토합니다.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

의심되는 메모리 문제는 다음을 통해 확인할 수 있습니다.

 

시스템 로그(/var/log/messages)는 다음과 같은 메모리 오류를 보고합니다. 

grep -i "mcelog.*error:" /var/log/messages
[log-messages:109]  ERROR: <0001> kernel error: Jan 17 13:27:08 test-ava-03 mcelog: Running trigger `socket-memory-error-trigger'
[log-messages:109]  ERROR: <0001> kernel error: Jan 17 13:27:40 test-ava-03 mcelog: Running trigger `page-error-trigger'
[log-messages:109]  ERROR: <0001> kernel error: Jan 17 13:31:53 test-ava-03 mcelog: SOCKET Fallback Socket memory error count 6474 exceeded threshold: 776460088 in 24h
...
[log-messages:109]  ERROR: <0001> kernel error: Jan 18 00:05:03 test-ava-03 mcelog: Corrected memory errors on page 6f58f8000 exceed threshold 10 in 24h: 10 in 24h
[log-messages:109]  <0007> kernel info: Jan 18 00:05:04 test-ava-03 kernel: [7199506.363919] mce_notify_irq: 6232 callbacks suppressed
[log-messages:109]  ERROR: <0001> kernel error: Jan 18 00:05:04 test-ava-03 kernel: [7199506.363925] [Hardware Error]: Machine check events logged
 

이 ipmitool 명령이 DIMM 뱅크(4개의 DIMM을 2개의 뱅크)에 대한 오류를 보고하지 않습니다.

ipmitool sdr entity 32 
DIMM_Bank0       | 30h | ok  | 32.0 | 23 degrees C
DIMM_Bank1       | 31h | ok  | 32.1 | 24 degrees C
DIMM_Bank2       | 32h | ns  | 32.2 | No Reading
DIMM_Bank3       | 33h | ns  | 32.3 | No Reading
 

dmesg 출력에 메모리 손상의 징후가 표시됨:

dmesg |grep -i "memory corruption" 
[7689715.473298] mce_notify_irq: 7109 callbacks suppressed
[7689715.473303] [Hardware Error]: Machine check events logged
[7689715.481284] [Hardware Error]: Machine check events logged
[7689723.508392] soft_offline: 0x812b4f: unknown non LRU page type 20000000000100
[7689723.514500] get_any_page: 0x4360d9: unknown zero refcount page type 20000000000000
[7689728.554720] MCE: Killing sudo:18667 due to hardware memory corruption fault at 7f732745a750
[7689728.559849] MCE: Killing sudo:18676 due to hardware memory corruption fault at 7feabc119750
[7689728.564050] MCE: Killing sudo:18678 due to hardware memory corruption fault at 7fe3f0b37750 
 

모든 메모리 모듈이 온라인 상태입니다.

cat /sys/devices/system/memory/*/state |grep -v online
참고: 이 명령은 출력을 반환하지 않아야 합니다.
 
 

쿼리 mcelog 다음 날에는 수정된 메모리 오류의 수가 증가합니다.<

1일차:

mcelog --client
Memory errors
SOCKET 0 CHANNEL any DIMM any
corrected memory errors:
        9 total
        9 in 24h
uncorrected memory errors:
        0 total
        0 in 24h 

2일차:

mcelog --client
Memory errors
SOCKET 0 CHANNEL any DIMM any
corrected memory errors:
        30 total
        21 in 24h
uncorrected memory errors:
        0 total
        0 in 24h 
 

를 사용하여 컨트롤러 쿼리 arcconf 명령에서 버스 오류를 보고할 수 있습니다.

arcconf getconfig 1 
Bus error 

Cause

이는 DIMM의 예상 오류를 나타냅니다.
 

Resolution

서비스 요청을 작성하여 이 문제를 자세히 조사하려면 Dell Technologies Avamar 지원 팀에 문의하십시오. SR에서 이 KB를 참조하십시오.
 

Affected Products

Avamar

Products

Avamar, Avamar Data Store Gen4T, Avamar Server
Article Properties
Article Number: 000063609
Article Type: Solution
Last Modified: 01 May 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.