「PowerEdge:インテル Xeon スケーラブル・プロセッサーによるDDR4自己修復とは

Summary: DDR4搭載PowerEdgeサーバーでの修正可能および修正不可能なメモリー エラー、およびトラブルシューティング手順の変更について説明します。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

インテルXeonスケーラブル プロセッサー(第1または第2世代)搭載Dell PowerEdgeサーバーの、BIOS 2.1.x以降のバージョンでのDDR4「自己修復機能」とは何ですか?

BIOSの拡張機能であるDDR4「自己修復」機能により、サーバーでメモリー エラーが発生した場合のお客様とテクニカル サポートへの推奨されるアクションはどのように変わりますか?

新しいBIOSバージョンに含まれる「自動修復」機能拡張とは何ですか?

Cause

Dell PowerEdge BIOSでは、メモリー イベントのメッセージング、エラー処理、およびサーバーの再起動時に行われる「自己修復」を改善するために、継続的な改善と機能拡張が行われています。これにより、エラー イベントが記録されたDDR4メモリーDIMMを交換するために、スケジュールされたメンテナンス ウィンドウやオンサイトでの作業が不要になります。

Resolution

BIOSバージョン2.1.x以降を実行している、DDR4を搭載したPowerEdgeサーバーには、重要な2つのメモリー関連「自己修復」BIOS拡張機能が実装されています。これらの拡張機能により、メモリー イベントが発生してLifeCycleログに記録された場合に実行する推奨手順/アクションが変更になります。

注:
  • BIOS 2.0以前のDDR4でメモリー エラーが発生している場合は、BIOSを最新のリビジョンにアップデートしてください。このリビジョンには、多くのメモリー自己修復機能と継続的な機能強化が含まれています。最新の自動修復機能拡張を活用できるように、利用可能な最新のBIOSリリース(およびiDRACファームウェア)にアップデートすることを常にお勧めします。
  • 以前のメモリーのトラブルシューティング手順では、障害が発生したDIMMを別のスロットに移動して、エラーがDIMMにあるか、DIMMスロットにあるかを確認していました。BIOS 2.1.x以降のバージョンでは、推奨される最初のステップは再開です(DIMMを別スロットに移動する必要はありません)。これにより、BIOSの新しい拡張機能を実行できるようになり、DIMMの交換をスケジュール設定することなく、DIMMエラーを解決(自己修復)できる可能性があります。
  1. メモリーの再トレーニングの機能拡張

起動中に発生するメモリーの再トレーニング(「メモリーの構成」の初期段階)は、各DIMM/スロットの信号のタイミングおよびマージンを最適化して、最適なアクセスを実現します。DIMMのメモリー信号のタイミングおよびマージン特性は、以下のいくつかの理由で時間の経過とともに変化する可能性があります。

  • サーバー メモリー構成の変更
  • BIOSの変更(メモリー リファレンス コード - MRC)
  • サーバーまたはDIMMの動作温度の違い
  • DIMMの一般的な使用年数

これまでは、BIOSのアップデートやメモリー構成の変更が検出されると、次回の起動時にメモリーの再トレーニングが発生していました。BIOS 2.1.x以降では、再トレーニングをスケジュール設定するための、修正可能および修正不能メモリー エラー「トリガー」が追加されました。

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

これらのエラーがSELログまたはLifecycleログに記録されると、次回の再起動(ウォームまたはコールド)時にメモリーの再トレーニングがスケジュールされます。何が起動されたかに関わりなく、BIOSは自動的に強制コールド再起動を実行します。

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."

 

このマルチビット エラーは、オペレーティング システムがそのエラーを処理できない場合、致命的なエラーが原因でサーバーが再起動する場合があります。メモリーの再トレーニングは、起動中に自動的に実行されます。オペレーティング システムが処理できる重要でないメモリーの場所でマルチビット エラーが発生した場合は、再起動をスケジュールする必要があります。

POST中のメモリーの再トレーニングでは、信号のタイミングとマージンを最適化することで、障害が発生したDIMMおよび関連スロットを「自己修復」できます。起動中のメモリーの再トレーニングが失敗するか(UEFI0106)、同じエラーが継続する場合を除き、これらのエラーに対してDIMMを交換する必要ありません
 

  1. ポスト パッケージ リペア(PPR)

PPRは、2つ目の「自己修復」メモリー拡張機能で、ハードウェア層でその場所/アドレスを無効にすることにより、DIMM上の障害が発生したメモリー位置を修復し、スペア メモリー行を代わりに使用できるようにします。使用可能なスペア メモリー行の正確な数は、DRAMデバイスとDIMMサイズによって異なります。

これまでは、この機能は製造プロセス限定でした。前述のメモリー再トレーニング拡張機能と同様に、修正可能なメモリー エラーには、次回の再起動(ウォームまたはコールド)時に特定のDIMMスロットでPPRがスケジュール設定されるものがあります。何が起動されたかに関わりなく、BIOSは自動的に強制コールド再起動を実行します。PPRオペレーションは特定のDIMMスロットにスケジュール設定されるため、PPR操作が実行されるまで、DIMMスロットの場所を変更しないでください。エラーの例は次のとおりです。

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

これらのエラーのいずれかがログに記録されると、メモリーの構成の初期段階に、PPRが次回の再起動(ウォームまたはコールド)時にスケジュール設定されます。

注:同じDIMMの場所に対応するMEM0005/MEM0701/MEM0702がない場合に、メッセージID MEM8000(修正可能なメモリー エラー ログがDIMM_XXでメモリー デバイスに対して無効になっている)が記録されても、次回の再起動時にPPRはスケジュールされません。

MEM8000イベントに関する変更およびアップデートされたバージョン1.1以降のホワイト ペーパーについては、2020年7月10日のアップデートを参照してください。

再起動後に、PPRオペレーションが完了していることを確認してください。通常のPPRオペレーションは、次の例のようになります。

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."


PPRオペレーションが失敗していない限り、これらの修正可能メモリー エラーでDIMMの交換は必要ありません。失敗した場合の重要なPPRメッセージの例は、次のとおりです。

UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."

 

Dell PowerEdgeサーバーのメモリー関連の信頼性、可用性、保守性(RAS)機能について説明した新しいホワイト ペーパー(バージョン1.0)が公開されました。このホワイト ペーパーでは、PowerEdgeサーバーで使用できるさまざまなRAS機能について説明しています - 『Memory Errors and Dell PowerEdge YX4X Server Memory RAS Features』。

 

2020年4月24日更新

デル・テクノロジーズでは、継続的に「自動修復」機能の強化と拡張を行っています。次のセクションでは、さまざまなBIOSバージョンに関連するアップデートと機能拡張のリストを示します。

BIOS 2.1.x - BIOS 2.1.6以降で使用可能な「自動修復」機能について、最初の記事で公開(エラー メッセージの例や推奨されるアクションを含む)。

BIOS 2.4.x以降の変更(2019年12月)

  • MEM0702(修正可能なエラー率超過...) - メッセージが重要から警告にアップデートされました。推奨されるアクションがアップデートされ、サーバーが再起動され、「自己修復」が実行されます(例:ポスト パッケージ リペア)。
    • アップデートされたメッセージを取得するには、2019年12月以降のiDRACもインストールする必要があります
    • 推奨される処置:サーバーを再起動してPPRの実行を許可する
  • MEM9060 - メッセージの説明が「自動修復」が正常に完了したことを示すように更新されました

BIOS 2.5.x以降の変更(2020年2月)

  • [Correctable Error Logging]BIOSオプションが追加され、お客様が修正可能なエラーに関連するすべてのLifecycleログまたはSELログを無効化できるようになりました。すべての「自動修復」機能は引き続き機能します。たとえば、PPRとメモリーの再トレーニングは、次回の再起動時(メモリーの構成プロセスの早い段階)でもスケジュール設定され、実行されます。
  • 既存のエラー メッセージとアクションを置き換えるRDIMMおよびLRDIMMに対するMEM08xxエラーの追加。「自動修復」機能をサポートしていないプラットフォームでは、既存のエラー メッセージが引き続き使用されます。
    • 新しいメッセージをログに記録するには、2020年2月以降のiDRACが必要です。
注:アップデートされたiDRACがないと、SELログまたはLifecycleログに新しいBIOSメッセージが「不明」として記録されます。
  • MEM0802 - MEM0702を置き換え - 修正可能なエラー率超過
    • 推奨される処置:PPRの実行を許可するには、サーバーを再起動します。PPRが成功したことを確認します(MEM0802)
  • MEM0804 - PPRが成功したことを示すMEM9060を置き換え。PPRを実行したDIMMスロットの位置が含まれるようになりました
    • 推奨される処置:なし。このイベントは、「自動修復」が発生したことを示し、DIMMの交換は必要ありません。
  • MEM0805 - PPRが失敗したことを示すUEFI0278を置き換え
    • 推奨される処置:障害が発生したDIMMを交換する

2020年7月10日更新

BIOS 2.7.x以降の変更(2020年7月ブロックBIOS - 7月中旬のWeb投稿が対象)

  • MEM8000(修正可能なエラー ログが無効) - BIOS 2.0.x以前、Dellエンジニアリングは、パフォーマンスに影響を与える可能性がある修正可能なエラー検出の速度を向上させるためにBIOSを変更しました。この変更により、MEM8000イベントが増加し、DIMM障害分析の結果によって実証されませんでした。BIOS 2.7.x以降、MEM8000に関連する2つの変更があります。1つ目は、MEM8000イベントの信号が変更されたことです。2つ目は、BIOSが次回の再起動時に自動修復(PPR)をスケジュールすることです。iDRACメッセージは、新しいアクションを反映するためにまだアップデートされていません。
    • 推奨される処置:サーバーを再起動して、自動修復/PPRを実行できるようにします。PPRが成功したことを確認します(MEM0804)。
  • MEM0001(修正不能エラー) - 次回の再起動時に自動修復(PPR)がスケジュールされます。iDRACメッセージはまだ新しいアクションを反映してアップデートされていません。
    • 推奨される処置:MEM0001が、オペレーティング システムが回復できない重要なページに関連付けられている場合は、必要ありません - これは依然として致命的なエラーであり、再起動が行われます。MEM0001が、オペレーション システムが回復できる重要でないページに関連付けられている場合は、すべての自動修復(PRR)が実行されるように再起動がスケジュール設定される必要があります。PPRが成功したことを確認します(MEM0804)。

2021年1月13日に更新

BIOS 2.8.2以降の変更(2020年9月ブロックBIOS)

  • MEM9072(メモリー巡回スクラブ プロセスによって識別された修正不能なエラー - ページは消費または使用されていません) - 次回の再起動時に自動修復(PPR)がスケジュールされます。iDRACメッセージはまだ新しいアクションを反映してアップデートされていません。
    • 推奨される処置:すぐに再起動をスケジュールします。再起動を遅延すると、ページが消費され、MEM0001エラーが発生し、再起動が発生する可能性があります。その再起動中にメモリー自動修復(PPR)が実行されます。PPRが成功したことを確認します(MEM0804)。
注:エンジニアリング ホワイト ペーパーの最新バージョン(バージョン1.3 - 発行日2020年11月20日)は、次の場所にあります。  https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdf
インテルXeon EおよびAMD EPYCのコンテンツについては、次の場所にあるオリジナルのエンジニアリング ホワイト ペーパー(バージョン1.0)を引き続き参照してください。『PowerEdge YX4X Server Memory RAS Whitepaper v1.0 (dell.com)』

将来のBIOSアップデートに含めるため、追加のRAS機能拡張の評価中です。

 
メモ: 特定のエラー コード メッセージの詳細な説明と推奨される処置については、次のリンクを参照してください。検索(dell.com)エラー コード(MEM0001など)は複数の世代のサーバーとプラットフォームに適用されるため、特定のBIOSバージョンで推奨される処置が最新ではない場合があります。追加された新しいエラー コード(MEM0802、MEM0804、MEM0805など)は、インテルXeonスケーラブル プロセッサー(第1世代または第2世代)を搭載したサーバーにのみ適用されます。

 

この記事は、新しい情報が利用可能になり次第アップデートされます。


ドライバーおよびダウンロード:ドライバおよびダウンロード

Affected Products

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R240, OEMR R250 , OEMR XE R250, OEMR R260, OEMR XE R260, OEMR R340, OEMR R350, OEMR XE R350, OEMR R360, OEMR XE R360, OEMR R440, PowerEdge XR2, OEMR R450, OEMR R540, OEMR R550, OEMR R5500, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R660, OEMR XL R660, OEMR R660xs, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R760, OEMR R760xa, OEMR R760XD2, OEMR XL R760, OEMR R760xs, OEMR R840, OEMR R860, OEMR R940, OEMR R940xa, OEMR R960, OEMR T140, OEMR T150, OEMR T340, OEMR T350, OEMR T360, OEMR T440, OEMR T550, OEMR T560, OEMR T640, OEMR XL T640, OEMR XL R240, OEMR XL R340, OEMR XL R660xs, OEMR XR11, OEMR XR12, OEMR XR4000r, OEMR XR4000w, OEMR XR4510c, OEMR XR4520c, OEMR XR5610, OEMR XR7620, OEMR XR8610t, OEMR XR8620t, Poweredge C4140, PowerEdge C6420, PowerEdge C6520, PowerEdge C6525, PowerEdge C6615, PowerEdge C6620, PowerEdge FC640, PowerEdge HS5610, PowerEdge HS5620, PowerEdge M640, PowerEdge MX740C, PowerEdge MX750c, PowerEdge MX760c, PowerEdge MX840C, PowerEdge R240, PowerEdge R250, PowerEdge R260, PowerEdge R340, PowerEdge R350, PowerEdge R360, PowerEdge R440, PowerEdge R450, PowerEdge R540, PowerEdge R550, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R660, PowerEdge R660xs, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R760, PowerEdge R760XA, PowerEdge R760xd2, PowerEdge R760xs, PowerEdge R840, PowerEdge R860, PowerEdge R940, PowerEdge R940xa, PowerEdge R960, PowerEdge T140, PowerEdge T150, PowerEdge T160, PowerEdge T340, PowerEdge T350, PowerEdge T360, PowerEdge T440, PowerEdge T550, PowerEdge T560, PowerEdge T640, PowerEdge XE2420, PowerEdge XE7100, PowerEdge XE7420, PowerEdge XE7440, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680, PowerEdge XE9680L, PowerEdge XR11, PowerEdge XR12, PowerEdge XR4000r, PowerEdge XR4000w, PowerEdge XR4510c, PowerEdge XR4520c, PowerEdge XR5610, PowerEdge XR7620, PowerEdge XR8610t, PowerEdge XR8620t, PowerFlex appliance R650, PowerFlex appliance R660, Powerflex appliance R750, PowerFlex appliance R760, PowerFlex custom node R650, PowerFlex custom node R660, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R860, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN C6420 Ready Node, Dell EMC vSAN MX740c Ready Node, Dell EMC vSAN MX750c Ready Node, Dell vSAN Ready Node MX760c, Dell EMC vSAN R440 Ready Node, Dell EMC vSAN R640 Ready Node, Dell EMC vSAN R650 Ready Node, vSAN Ready Node R660, Dell EMC vSAN R740 Ready Node, Dell EMC vSAN R740xd Ready Node, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R760 Ready Node, Dell EMC vSAN R840 Ready Node, Dell EMC vSAN T350 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...

Products

PowerFlex rack, VxFlex Ready Nodes, PowerFlex Appliance, PowerFlex custom node, ScaleIO, PowerFlex appliance Intelligent Catalog Software, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex custom node, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R660, PowerFlex custom node R6625, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R7625, PowerFlex rack connectivity, PowerFlex rack HW, PowerFlex rack RCM Software, PowerFlex Software, VxFlex Ready Node, VxFlex Ready Node R640, VxFlex Ready Node R740xd, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...
Article Properties
Article Number: 000053203
Article Type: Solution
Last Modified: 25 Nov 2025
Version:  26
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.