PowerEdge 14Gインテルおよび15Gサーバー: 修正可能なエラーしきい値イベントの管理
摘要: この記事では、インテル ベースの14Gおよび15G PowerEdgeサーバー、およびAMDベースの15G PowerEdgeサーバーに取り付けられているDDR4 RDIMMまたはLRDIMMで、修正可能なエラーしきい値イベント(MEM0802またはMEM5104)を管理するための最新の推奨事項について説明します。
症状
エンタープライズクラスのメモリー全体にわたる信頼性、アクセス性、保守性(RAS)機能の進化を通じて、Dellはお客様に透明性を提供する上で保守的なアプローチを採用してきました。この進化が続くにつれて、Dellのエラー報告に対するアプローチも変化し、主に情報提供を目的とした通知と比較して、より緊急の対応を必要とする通知に重点を置くことができます
DRAMベースのメモリー ジオメトリーが縮小し続け、お客様が求めるパフォーマンスの向上が進むにつれて、均一なスケーリングの一環として、修正可能なエラーの数が自然に増加することが予想されます。
原因
解决方案
再起動して自己修復することなく、修正可能なエラーを報告しているシステムの運用を継続しても、修正不能なエラーが発生するリスクが高まり、予期しないダウンタイムが発生するリスクが高まりません。業界の他の企業は、メモリ処理が修正可能なエラーを報告しないことを公にしています
14GインテルPowerEdge BIOSバージョン2.5.4以降では、「Correctable Error Logging」と呼ばれるBIOS設定が追加され、お客様が選択した場合は、修正可能なエラーの報告を無効にするオプションが用意されています(多くのお客様がそうしています)。ログを記録しなくても、BIOSは修正可能なしきい値イベントの自動再インストールをスケジュールし続けます。このスケジュールされた自動再インストールは、その後のシステムの再起動時に自動的に実行されます
業界とお客様からの継続的なフィードバックを踏まえるために、2022年3月以降、Dell PowerEdge BIOSアップデートでは、[Correctable Error Logging]BIOS設定がデフォルトで無効に変更されます。修正可能なメモリーしきい値イベントを引き続き確認したいお客様の場合は、このBIOSオプションを再度有効にすることができます。このBIOS設定の変更が含まれるBIOSバージョンは次のとおりです。
- 14Gインテル プラットフォーム - BIOSバージョン2.13.3以降
- 15G AMDプラットフォーム - BIOSバージョン2.6.5以降
- 15Gインテル プラットフォーム - BIOSバージョン1.5.5以降
システムの再起動によるDDR4 DIMM自己修復のメリット:
- システムから取り外さずにDDR4 DIMMを修復できます。Dell製のすべてのDDR4 DIMMは、メモリー自己修復機能をサポートしています。
- DRAMに組み込まれた使用可能なスペア行を使用し、電気的フュージングによって不良行を正常な行に永続的に置き換えます。
- その後のメモリーの再トレーニングでは、センター ポイントを再調整することで「データ アイ」を最適化し、メモリー バスが最高レベルのシグナル インテグリティで動作することを保証します。
[Correctable Error Logging]BIOS 設定が有効になっている場合の修正可能なしきい値イベントの場合、メモリーしきい値イベントが発生した場合、デル・テクノロジーズでは、スケジュールされたメモリーの自動再インストールまたは自己修正を実行できるように、お客様の定期的なメンテナンス スケジュールで再起動することを推奨します。再起動後、関連づけられているDIMMの自動再インストールの成功または失敗イベントがログに記録されます。
[Correctable Error Logging]BIOS設定を無効にした場合は、お客様の定期メンテナンス スケジュールに従って再起動することをお勧めします。再起動すると、スケジュール済みの自動再インストール操作が自動的に実行されます。自動再インストールまたは自己修正操作が失敗した場合、システムはイベント(MEM0805またはMEM7114タイプのイベント)をログに記録し、影響を受けたDIMMを物理的に交換することをお勧めします
推奨事項:
Dellメモリー エンジニアリングでは、古いBIOSバージョン(2022年3月ブロック リリースの前)を使用しているPowerEdgeサーバーのお客様に、[Correctable Error Logging]BIOS設定を [Disabled]に変更することをお勧めします。これにより、サーバー インフラストラクチャ全体で散発的な修正可能なメモリーしきい値イベント(MEM0802やMEM5104タイプのイベントなど)が排除され、サーバーの再起動を推奨することで、自動再インストールや自己修正の実行が推奨されます。前述したように、スケジュールされた自動再インストールまたは自己修正操作は、サーバーの再起動時に自動的に実行され、障害が報告されます
[Correctable Error Logging]BIOS設定は、サーバーをF2設定で再起動するか、 iDRAC WebUIを使用して変更できます
F2システム設定からBIOS設定を変更するには、次の手順を実行します。
-
F2設定で停止しているサーバーを再起動します。
-
[BIOS Settings]>[Memory Settings]で、[Correctable Error Logging]を[Disabled]に変更します。
-
BIOS設定を保存し、F2設定を終了します
iDRAC WebUIを使用してBIOS設定を変更するには、次の手順を実行します。
- iDRAC WebUIへのログイン
- [Configuration>BIOS Settings]で、[Memory Settings]セクションを展開します
- [Correctable Error Logging]設定を[Disabled]に変更します
- [ Apply ]ボタンをクリックして、[Memory Settings]を保存します
- [Apply and Reboot]ボタン(すぐに再起動する場合)または[At Next Reboot]ボタンを選択して BIOSの変更を適用することを忘れないでください。
メモリー関連の既存の記事およびホワイトペーパーは、この推奨される変更を反映するように更新されます。
Managing Correctable Error Notices Dec 2021 v1.pdf」の出力です。
この記事は、新しい情報が利用可能になると更新されます。