Avamar: Gen4Tハードウェア: メモリー エラー(英語)」
Summary: この記事では、Avamar Gen4Tノードで報告されたメモリー エラーについて説明します。
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
メモリーの問題が疑われる場合は、次の方法で確認できます。
システム ログ(/var/log/messages)に、次のメモリー エラーが報告されます。
grep -i "mcelog.*error:" /var/log/messages
[log-messages:109] ERROR: <0001> kernel error: Jan 17 13:27:08 test-ava-03 mcelog: Running trigger `socket-memory-error-trigger'
[log-messages:109] ERROR: <0001> kernel error: Jan 17 13:27:40 test-ava-03 mcelog: Running trigger `page-error-trigger'
[log-messages:109] ERROR: <0001> kernel error: Jan 17 13:31:53 test-ava-03 mcelog: SOCKET Fallback Socket memory error count 6474 exceeded threshold: 776460088 in 24h
...
[log-messages:109] ERROR: <0001> kernel error: Jan 18 00:05:03 test-ava-03 mcelog: Corrected memory errors on page 6f58f8000 exceed threshold 10 in 24h: 10 in 24h
[log-messages:109] <0007> kernel info: Jan 18 00:05:04 test-ava-03 kernel: [7199506.363919] mce_notify_irq: 6232 callbacks suppressed
[log-messages:109] ERROR: <0001> kernel error: Jan 18 00:05:04 test-ava-03 kernel: [7199506.363925] [Hardware Error]: Machine check events logged
「 ipmitool コマンドでは、DIMMバンクのエラーが報告されません(4枚のDIMMが2個のバンク)。
ipmitool sdr entity 32
DIMM_Bank0 | 30h | ok | 32.0 | 23 degrees C
DIMM_Bank1 | 31h | ok | 32.1 | 24 degrees C
DIMM_Bank2 | 32h | ns | 32.2 | No Reading
DIMM_Bank3 | 33h | ns | 32.3 | No Reading
「 dmesg 出力にメモリー破損の兆候が表示されます。
dmesg |grep -i "memory corruption"
[7689715.473298] mce_notify_irq: 7109 callbacks suppressed
[7689715.473303] [Hardware Error]: Machine check events logged
[7689715.481284] [Hardware Error]: Machine check events logged
[7689723.508392] soft_offline: 0x812b4f: unknown non LRU page type 20000000000100
[7689723.514500] get_any_page: 0x4360d9: unknown zero refcount page type 20000000000000
[7689728.554720] MCE: Killing sudo:18667 due to hardware memory corruption fault at 7f732745a750
[7689728.559849] MCE: Killing sudo:18676 due to hardware memory corruption fault at 7feabc119750
[7689728.564050] MCE: Killing sudo:18678 due to hardware memory corruption fault at 7fe3f0b37750
すべてのメモリー モジュールがオンラインです。
cat /sys/devices/system/memory/*/state |grep -v online
注:このコマンドは出力を返しません。
クエリ mcelog その後の日には、修正されたメモリエラーの数が増えています。<
1日目:
mcelog --client
Memory errors
SOCKET 0 CHANNEL any DIMM any
corrected memory errors:
9 total
9 in 24h
uncorrected memory errors:
0 total
0 in 24h
2日目:
mcelog --client
Memory errors
SOCKET 0 CHANNEL any DIMM any
corrected memory errors:
30 total
21 in 24h
uncorrected memory errors:
0 total
0 in 24h
を使用したコントローラーへのクエリー arcconf コマンドでバス エラーが報告される場合があります。
arcconf getconfig 1
Bus error Cause
これは、DIMMの障害の予測を示します。
Resolution
デル・テクノロジーズのAvamarサポートに連絡し 、サービス リクエストを作成してこの問題をさらに詳しく調査してください。SRでこのKBを参照してください
Affected Products
AvamarProducts
Avamar, Avamar Data Store Gen4T, Avamar ServerArticle Properties
Article Number: 000063609
Article Type: Solution
Last Modified: 01 May 2025
Version: 5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.