PowerEdge:AMD RomeおよびMilanプロセッサーを搭載したDell PowerEdgeサーバーでのDDR4自己修復
概要: DDR4メモリー搭載AMD PowerEdgeサーバーでの修正可能なメモリー エラーの説明とトラブルシューティング手順の変更
現象
AMD RomeおよびMilanプロセッサー ベースのPowerEdgeサーバー(R65xx、R75xx、C65xx)の DDR4 「自己修復」とは何ですか
AMD EPYCプロセッサーを搭載した旧世代のAMDベースのPowerEdgeサーバー(R64xxおよびR74xx)は、これらの同じ「自動修復」機能をサポートしています
これらのDDR4の「自動修復」機能(BIOS拡張機能)は、サーバーでメモリー エラーが発生した場合に推奨されるお客様およびテクニカル サポートのアクションをどのように変えますか?
原因
デル・テクノロジーズのPowerEdge BIOSは、メモリー エラー イベントのメッセージ、エラー処理、およびサーバーの再起動時の「自己修復」を改善および強化し続けています。これにより、スケジュールされたメンテナンス ウィンドウや、エラー イベントを記録していたDDR4メモリーDIMMを交換するためのオンサイトの存在が不要になります。
解決方法
製品の発売時に利用可能なDDR4メモリー搭載AMDプロセッサー ベースのPowerEdgeサーバー(65xxおよび75xx)には、メモリー関連の2つの主要な「自己修復」BIOS拡張機能が含まれています。これらの機能拡張により、メモリー エラーが発生してLifecycleログに記録された場合に実行する推奨手順とアクションが変更されます。
AMD RomeおよびMilanベースのPowerEdgeサーバーでは、推奨される最初のステップは 再起動または再起動 です(DIMMを別のスロットに移動する必要はありません)。BIOSの新しい拡張機能を実行できるようにし、DIMMを交換することなく、DIMMエラーを解決(自己修復)できる可能性があります
最新の自動修復機能拡張を活用できるように、利用可能な最新のBIOSリリース(およびiDRACファームウェア)にアップデートすることを常にお勧めします。
1.メモリーの再トレーニング の機能拡張 - 起動中に実行されるメモリーの再トレーニングにより、各DIMMとスロットの信号タイミングまたはマージンが最適化され、最適なアクセスが実現します。DIMMのタイミング特性が変わる理由は、いくつかあります。
- サーバー メモリー構成の変更
- BIOSの変更
- サーバーまたはDIMMの動作温度の違い
- DIMMの一般的な使用年数
現在のAMD RomeおよびMilanベースのPowerEdgeサーバー(65xxおよび75xx)は、起動の たびに メモリーの再トレーニングを実行します。これは、現在のインテル ベースのPowerEdgeサーバーの実装とは異なります。
次のエラーのいずれかがSELログまたはLifecycleログに記録されている場合、デル・テクノロジーズのエンジニアリングは、サーバーを再起動してメモリーの再トレーニングを実行できるようにすることを推奨します。
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location(s) DIMM_XX.
これらの修正可能または修正不能(マルチビット)メモリー エラーが発生した場合、再起動または再起動時にメモリーの再トレーニングが実行され、各DIMMとスロットの信号タイミングとマージンを最適化することで、障害が発生したDIMMが「自己修復」される場合があります。起動中にメモリーの再トレーニングが失敗(UEFI0106)するか、同じエラーが引き続き発生する場合を除き、これらのエラーに対するDIMMの交換は必要ありません 。
2.ポスト パッケージ リペア (PPR) - 2つ目の「自己修復」メモリー拡張機能では、ハードウェア レイヤーでその場所またはアドレスを無効にして、代わりにスペア メモリー行を使用できるようにすることで、DIMM上の障害が発生したメモリーの場所を修復します。使用可能なスペア メモリー行の正確な数は、DRAMデバイスとDIMMサイズによって異なります。
これまでは、この機能は製造プロセス限定でした。前述のメモリー再トレーニング拡張機能と同様に、修正可能および修正不能な特定のメモリー エラーがあり、次回の再起動(ウォームまたはコールド)時に特定のDIMMスロットでPPRがスケジュール設定されます。何が起動されたかに関わりなく、BIOSは自動的に強制コールド再起動を実行します。PPRオペレーションは特定のDIMMスロットにスケジュール設定されるため、PPR操作が実行されるまで、DIMMスロットの場所を変更しないでください。エラーの例は次のとおりです。
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."
Critical - MEM9072 - "The system memory has faced an uncorrectable multi-bit memory errors in the non-execution path of a memory device at the location arg1."
これらのエラーのいずれかがSEL/Lifecycleログに記録されると、次回の再起動(ウォームまたはコールド)時にPPRがスケジュール設定されます。
成功したPPR操作の例は、次のようになります。
-
Message ID MEM9060 - "The PostPackage Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
再起動後にPPRオペレーションが失敗していない限り、これらの修正可能メモリー エラーに対するDIMMの交換は必要ありません。失敗した場合のPPRメッセージの例は、次のとおりです。
-
Critical - Message ID UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
更新日:2020年4月24日
デル・テクノロジーズは、「自己修復」機能の強化と拡張を続けています。次のセクションでは、アップデート/機能拡張と、変更が実装されたBIOSバージョンについて説明します
BIOS 1.0.x - BIOS 1.0.x 以降で使用可能な「自動修復」機能に関する最初の記事での公開(エラー メッセージの例や推奨される処置を含む)。
BIOS 1.1.x以降の変更(2019年12月)
- MEM0702 (修正可能なエラー率を超えました [...]) - メッセージが重要から警告イベントにアップデートされ、サーバーを再起動して「自己修復」(ポスト パッケージ修復(PPR))が実行されるように推奨されるアクションが更新されました。
- 必要 2019年12月以降のiDRACにもインストールされ、アップデートされたメッセージが表示されます
- 「Recommended Action: サーバーを再起動してPPRの実行を許可する
- MEM9060 - メッセージの説明が「自動修復」が正常に完了したことを示すように更新されました
BIOS 1.2.x以降の変更(2020年2月)
- [Correctable Error Logging]BIOSオプションが追加され、お客様が修正可能なエラーに関連するすべてのライフサイクルおよびSELログを無効にできるようになりました。すべての「自動修復」(PPR)機能は引き続き機能し、メモリーの再トレーニングはスケジュール設定され、次回の再起動時に実行されます。
- 既存のエラー メッセージとアクションを置き換えるRDIMMおよびLRDIMMに対するMEM08xxエラーの追加。「自動修復」機能をサポートしていないプラットフォームでは、既存のエラー メッセージが引き続き使用されます。
- 必要 2020年2月以降のiDRAC(ログに記録されるメッセージの場合)
- MEM0802 - MEM0702を置き換え - 修正可能なエラー率超過
- 「Recommended Action: サーバーを再起動してPPRの実行を許可する
- MEM0804 - PPRが成功したことを示すMEM9060を置き換え。PPRを実行したDIMMスロットの位置が含まれるようになりました
- 「Recommended Action: なし。「自己修復」が発生したことを示し、DIMMの交換は必要ありません。
- MEM0805 - PPRが失敗したことを示すUEFI0278を置き換え
- 「Recommended Action: 障害が発生したDIMMの交換
更新日:2021年1月25日
BIOS 1.7.x以降の変更(2020年12月)
- MEM8000(修正可能なエラー ログの無効化):BIOSの初期に、デル・テクノロジーズのエンジニアリングは、パフォーマンスに影響を与える可能性のある修正可能なエラーの検出率を高めるためにBIOSを変更しました。この変更により、MEM8000イベントが増加し、メモリー コンポーネント障害分析の結果によって実証されませんでした。BIOS1.7.x以降では、MEM8000に関連する2つの変更があります。1つ目は、MEM8000イベントの信号が変更されたことです。次に、BIOSは次回の再起動時に自動修復(PPR)をスケジュールします。iDRACメッセージは、新しいアクションを反映するためにまだアップデートされていません
- 推奨される処置:サーバーを再起動して、自動修復/PPRを実行できるようにします。PPRが成功したことを確認します(MEM0804)。
今後のBIOSアップデートに含めるために、追加のRAS機能拡張の評価が行われています。
Dell Technologies PowerEdgeサーバー(AMD RomeおよびMilanベースのプロセッサー)のメモリー関連の信頼性、可用性、保守性(RAS)機能について説明するホワイト ペーパーを予定しています
この記事は、新しい情報が利用可能になると更新されます。