「PowerEdge:インテル Xeon スケーラブル・プロセッサーによるDDR4自己修復とは
Summary: DDR4搭載PowerEdgeサーバーでの修正可能および修正不可能なメモリー エラー、およびトラブルシューティング手順の変更について説明します。
Symptoms
BIOSの拡張機能であるDDR4「自己修復」機能により、サーバーでメモリー エラーが発生した場合のお客様とテクニカル サポートへの推奨されるアクションはどのように変わりますか?
新しいBIOSバージョンに含まれる「自動修復」機能拡張とは何ですか?
Cause
Dell PowerEdge BIOSでは、メモリー イベントのメッセージング、エラー処理、およびサーバーの再起動時に行われる「自己修復」を改善するために、継続的な改善と機能拡張が行われています。これにより、エラー イベントが記録されたDDR4メモリーDIMMを交換するために、スケジュールされたメンテナンス ウィンドウやオンサイトでの作業が不要になります。
Resolution
BIOSバージョン2.1.x以降を実行している、DDR4を搭載したPowerEdgeサーバーには、重要な2つのメモリー関連「自己修復」BIOS拡張機能が実装されています。これらの拡張機能により、メモリー イベントが発生してLifeCycleログに記録された場合に実行する推奨手順/アクションが変更になります。
- BIOS 2.0以前のDDR4でメモリー エラーが発生している場合は、BIOSを最新のリビジョンにアップデートしてください。このリビジョンには、多くのメモリー自己修復機能と継続的な機能強化が含まれています。最新の自動修復機能拡張を活用できるように、利用可能な最新のBIOSリリース(およびiDRACファームウェア)にアップデートすることを常にお勧めします。
- 以前のメモリーのトラブルシューティング手順では、障害が発生したDIMMを別のスロットに移動して、エラーがDIMMにあるか、DIMMスロットにあるかを確認していました。BIOS 2.1.x以降のバージョンでは、推奨される最初のステップは再開です(DIMMを別スロットに移動する必要はありません)。これにより、BIOSの新しい拡張機能を実行できるようになり、DIMMの交換をスケジュール設定することなく、DIMMエラーを解決(自己修復)できる可能性があります。
- メモリーの再トレーニングの機能拡張
起動中に発生するメモリーの再トレーニング(「メモリーの構成」の初期段階)は、各DIMM/スロットの信号のタイミングおよびマージンを最適化して、最適なアクセスを実現します。DIMMのメモリー信号のタイミングおよびマージン特性は、以下のいくつかの理由で時間の経過とともに変化する可能性があります。
- サーバー メモリー構成の変更
- BIOSの変更(メモリー リファレンス コード - MRC)
- サーバーまたはDIMMの動作温度の違い
- DIMMの一般的な使用年数
これまでは、BIOSのアップデートやメモリー構成の変更が検出されると、次回の起動時にメモリーの再トレーニングが発生していました。BIOS 2.1.x以降では、再トレーニングをスケジュール設定するための、修正可能および修正不能メモリー エラー「トリガー」が追加されました。
Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
これらのエラーがSELログまたはLifecycleログに記録されると、次回の再起動(ウォームまたはコールド)時にメモリーの再トレーニングがスケジュールされます。何が起動されたかに関わりなく、BIOSは自動的に強制コールド再起動を実行します。
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
このマルチビット エラーは、オペレーティング システムがそのエラーを処理できない場合、致命的なエラーが原因でサーバーが再起動する場合があります。メモリーの再トレーニングは、起動中に自動的に実行されます。オペレーティング システムが処理できる重要でないメモリーの場所でマルチビット エラーが発生した場合は、再起動をスケジュールする必要があります。
POST中のメモリーの再トレーニングでは、信号のタイミングとマージンを最適化することで、障害が発生したDIMMおよび関連スロットを「自己修復」できます。起動中のメモリーの再トレーニングが失敗するか(UEFI0106)、同じエラーが継続する場合を除き、これらのエラーに対してDIMMを交換する必要ありません。
- ポスト パッケージ リペア(PPR)
PPRは、2つ目の「自己修復」メモリー拡張機能で、ハードウェア層でその場所/アドレスを無効にすることにより、DIMM上の障害が発生したメモリー位置を修復し、スペア メモリー行を代わりに使用できるようにします。使用可能なスペア メモリー行の正確な数は、DRAMデバイスとDIMMサイズによって異なります。
これまでは、この機能は製造プロセス限定でした。前述のメモリー再トレーニング拡張機能と同様に、修正可能なメモリー エラーには、次回の再起動(ウォームまたはコールド)時に特定のDIMMスロットでPPRがスケジュール設定されるものがあります。何が起動されたかに関わりなく、BIOSは自動的に強制コールド再起動を実行します。PPRオペレーションは特定のDIMMスロットにスケジュール設定されるため、PPR操作が実行されるまで、DIMMスロットの場所を変更しないでください。エラーの例は次のとおりです。
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
これらのエラーのいずれかがログに記録されると、メモリーの構成の初期段階に、PPRが次回の再起動(ウォームまたはコールド)時にスケジュール設定されます。
MEM8000イベントに関する変更およびアップデートされたバージョン1.1以降のホワイト ペーパーについては、2020年7月10日のアップデートを参照してください。
再起動後に、PPRオペレーションが完了していることを確認してください。通常のPPRオペレーションは、次の例のようになります。
MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
PPRオペレーションが失敗していない限り、これらの修正可能メモリー エラーでDIMMの交換は必要ありません。失敗した場合の重要なPPRメッセージの例は、次のとおりです。
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
Dell PowerEdgeサーバーのメモリー関連の信頼性、可用性、保守性(RAS)機能について説明した新しいホワイト ペーパー(バージョン1.0)が公開されました。このホワイト ペーパーでは、PowerEdgeサーバーで使用できるさまざまなRAS機能について説明しています - 『Memory Errors and Dell PowerEdge YX4X Server Memory RAS Features』。
2020年4月24日更新
デル・テクノロジーズでは、継続的に「自動修復」機能の強化と拡張を行っています。次のセクションでは、さまざまなBIOSバージョンに関連するアップデートと機能拡張のリストを示します。
BIOS 2.1.x - BIOS 2.1.6以降で使用可能な「自動修復」機能について、最初の記事で公開(エラー メッセージの例や推奨されるアクションを含む)。
BIOS 2.4.x以降の変更(2019年12月)
- MEM0702(修正可能なエラー率超過...) - メッセージが重要から警告にアップデートされました。推奨されるアクションがアップデートされ、サーバーが再起動され、「自己修復」が実行されます(例:ポスト パッケージ リペア)。
- アップデートされたメッセージを取得するには、2019年12月以降のiDRACもインストールする必要があります
- 推奨される処置:サーバーを再起動してPPRの実行を許可する
- MEM9060 - メッセージの説明が「自動修復」が正常に完了したことを示すように更新されました
BIOS 2.5.x以降の変更(2020年2月)
- [Correctable Error Logging]BIOSオプションが追加され、お客様が修正可能なエラーに関連するすべてのLifecycleログまたはSELログを無効化できるようになりました。すべての「自動修復」機能は引き続き機能します。たとえば、PPRとメモリーの再トレーニングは、次回の再起動時(メモリーの構成プロセスの早い段階)でもスケジュール設定され、実行されます。
- 既存のエラー メッセージとアクションを置き換えるRDIMMおよびLRDIMMに対するMEM08xxエラーの追加。「自動修復」機能をサポートしていないプラットフォームでは、既存のエラー メッセージが引き続き使用されます。
- 新しいメッセージをログに記録するには、2020年2月以降のiDRACが必要です。
- MEM0802 - MEM0702を置き換え - 修正可能なエラー率超過
- 推奨される処置:PPRの実行を許可するには、サーバーを再起動します。PPRが成功したことを確認します(MEM0802)
- MEM0804 - PPRが成功したことを示すMEM9060を置き換え。PPRを実行したDIMMスロットの位置が含まれるようになりました
- 推奨される処置:なし。このイベントは、「自動修復」が発生したことを示し、DIMMの交換は必要ありません。
- MEM0805 - PPRが失敗したことを示すUEFI0278を置き換え
- 推奨される処置:障害が発生したDIMMを交換する
2020年7月10日更新
BIOS 2.7.x以降の変更(2020年7月ブロックBIOS - 7月中旬のWeb投稿が対象)
- MEM8000(修正可能なエラー ログが無効) - BIOS 2.0.x以前、Dellエンジニアリングは、パフォーマンスに影響を与える可能性がある修正可能なエラー検出の速度を向上させるためにBIOSを変更しました。この変更により、MEM8000イベントが増加し、DIMM障害分析の結果によって実証されませんでした。BIOS 2.7.x以降、MEM8000に関連する2つの変更があります。1つ目は、MEM8000イベントの信号が変更されたことです。2つ目は、BIOSが次回の再起動時に自動修復(PPR)をスケジュールすることです。iDRACメッセージは、新しいアクションを反映するためにまだアップデートされていません。
- 推奨される処置:サーバーを再起動して、自動修復/PPRを実行できるようにします。PPRが成功したことを確認します(MEM0804)。
- MEM0001(修正不能エラー) - 次回の再起動時に自動修復(PPR)がスケジュールされます。iDRACメッセージはまだ新しいアクションを反映してアップデートされていません。
- 推奨される処置:MEM0001が、オペレーティング システムが回復できない重要なページに関連付けられている場合は、必要ありません - これは依然として致命的なエラーであり、再起動が行われます。MEM0001が、オペレーション システムが回復できる重要でないページに関連付けられている場合は、すべての自動修復(PRR)が実行されるように再起動がスケジュール設定される必要があります。PPRが成功したことを確認します(MEM0804)。
2021年1月13日に更新
BIOS 2.8.2以降の変更(2020年9月ブロックBIOS)
- MEM9072(メモリー巡回スクラブ プロセスによって識別された修正不能なエラー - ページは消費または使用されていません) - 次回の再起動時に自動修復(PPR)がスケジュールされます。iDRACメッセージはまだ新しいアクションを反映してアップデートされていません。
- 推奨される処置:すぐに再起動をスケジュールします。再起動を遅延すると、ページが消費され、MEM0001エラーが発生し、再起動が発生する可能性があります。その再起動中にメモリー自動修復(PPR)が実行されます。PPRが成功したことを確認します(MEM0804)。
インテルXeon EおよびAMD EPYCのコンテンツについては、次の場所にあるオリジナルのエンジニアリング ホワイト ペーパー(バージョン1.0)を引き続き参照してください。『PowerEdge YX4X Server Memory RAS Whitepaper v1.0 (dell.com)』
将来のBIOSアップデートに含めるため、追加のRAS機能拡張の評価中です。
この記事は、新しい情報が利用可能になり次第アップデートされます。
ドライバーおよびダウンロード:ドライバおよびダウンロード