サーバーの再起動時に発生するメモリー イベント メッセージング、エラー処理、および「自己修復」を改善するために、Dell PowerEdge BIOSに継続的な改善と機能拡張が提供されています。これにより、エラー イベントをログに記録していたDDR4メモリーDIMMを交換するために、スケジュールされたメンテナンス ウィンドウやオンサイトの存在が不要になります。
BIOSバージョン2.1.x以降を実行している、DDR4を搭載したPowerEdgeサーバーには、重要な2つのメモリー関連「自己修復」BIOS拡張機能が実装されています。これらの機能拡張により、メモリー イベントが発生してLifeCycleログに記録された場合に実行する推奨手順またはアクションが変更されます。
起動中に発生するメモリーの再トレーニング(「メモリーの構成」ステップの早い段階)は、各DIMM/スロットの信号タイミングとマージンを最適化して、最適なアクセスを実現します。DIMMのメモリー信号のタイミングとマージニング特性は、いくつかの理由で時間の経過とともに変化する可能性があります。
これまでは、BIOSのアップデートやメモリー構成の変更が検出されると、次回の起動時にメモリーの再トレーニングが発生していました。BIOS 2.1.x以降では、再トレーニングをスケジュール設定するための、修正可能および修正不能メモリー エラー「トリガー」が追加されました。
Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
これらのエラーがSEL/LifeCycleログに記録されると、メモリーの再トレーニングが次回の再起動(ウォームまたはコールド)時にスケジュール設定されます。何が起動されたかに関わりなく、BIOSは自動的に強制コールド再起動を実行します。
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
このマルチビット エラーは、オペレーティング システムがそのエラーを処理できない場合、致命的なエラーが原因でサーバーが再起動する場合があります。メモリーの再トレーニングは、起動中に自動的に実行されます。オペレーティング システムが処理できる重要でないメモリーの場所でマルチビット エラーが発生した場合は、再起動をスケジュールする必要があります。
POST中のメモリーの再トレーニングは、信号のタイミングとマージンを最適化することで、障害が発生したDIMMおよび関連スロットを「自己修復」します。起動中のメモリーの再トレーニングが失敗するか(UEFI0106)、同じエラーが継続する場合を除き、これらのエラーに対してDIMMを交換する必要ありません。
2つ目の「自己修復」記憶強化はPPRです。PPRは、ハードウェア層でその場所またはアドレスを無効にすることによって、障害が発生したメモリー位置を修復し、代わりにスペア メモリー行を使用できるようにします。使用可能なスペア メモリー行の正確な数は、DRAMデバイスとDIMMサイズによって異なります。
これまでは、この機能は製造プロセス限定でした。前述のメモリー再トレーニング拡張機能と同様に、次回の再起動(ウォームまたはコールド)時に特定のDIMMスロットでPPRがスケジュール設定される、修正可能なメモリー エラーがあります。何が起動されたかに関わりなく、BIOSは自動的に強制コールド再起動を実行します。PPRオペレーションは特定のDIMMスロットにスケジュール設定されるため、PPR操作が実行されるまで、DIMMスロットの場所を変更しないでください。エラーの例は次のとおりです。
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
これらのイベントのいずれかがログに記録されると、メモリー構成フェーズの早い段階で、次回の再起動(ウォームまたはコールド)時にPPRがスケジュール設定されます。
再起動後に、PPRオペレーションが完了していることを確認してください。通常のPPRオペレーションは、次の例のようになります。
MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
Dell PowerEdgeサーバーのメモリー関連の信頼性、可用性、保守性(RAS)機能について説明するホワイトペーパー(バージョン1.0)が新たに公開されました。このホワイトペーパーでは、PowerEdgeサーバーで使用可能なさまざまなRAS機能( メモリー エラーおよびDell EMC PowerEdge YX4Xサーバー メモリーRAS機能)について説明しています。
修正可能なエラーしきい値イベントの詳細については、「 14Gおよび15Gインテル/AMD PowerEdgeサーバー: DDR4メモリー:修正可能なエラーしきい値イベントの管理」を参照してください。2020年4月24日更新
Dellは「自己修復」機能を継続的に強化しています。次のセクションでは、さまざまなBIOSバージョンに関連するアップデートと機能拡張のリストを示します。
BIOS 2.1.x - BIOS 2.1.6以降で使用可能な「自動修復」機能について、最初の記事で公開(エラー メッセージの例や推奨されるアクションを含む)。
BIOS 2.4.x以降の変更(2019年12月)
BIOS 2.5.x以降の変更(2020年2月)
2020年7月10日更新
BIOS 2.7.x以降の変更(2020年7月ブロックBIOS - 7月中旬のWeb投稿が対象)
2021年1月13日に更新
BIOS 2.8.2以降の変更(2020年9月ブロックBIOS)
将来のBIOSアップデートに含めるため、追加のRAS機能拡張の評価中です。
この記事は、新しい情報が公開されたときに更新されます。
関連項目: スワップ テストによるメモリーのトラブルシューティングに関するガイダンス - スワップ テスト
によるPowerEdgeシステムのメモリー エラーのトラブルシューティングダウンロードおよびドライバー: ドライバおよびダウンロード |Dell US