Cisco Cシリーズ サーバーでDIMMエラーを確認してトラブルシューティングする方法の手順
Summary: Cisco Cシリーズ サーバーでDIMMエラーを確認してトラブルシューティングする方法の手順
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Instructions
VxBlock UCS Cシリーズ サーバーでDIMMエラーをクリアする方法
事実
- Cisco Cシリーズ ラック マウント型サーバ(UCSMによって管理される場合と管理されない場合があります)
現象
- 次のようなアラートがCIMCまたはUCSMに表示されます。
F0184
、F0185
、F0137
、F1236
、F1237
- PSOD – パープル スクリーン(KVMまたはホストのコンソール上)
ソリューション
ログ収集
トラブルシューティングを行う前に、影響を受けるサーバーからログを収集します。トラブルシューティング手順が成功したかどうかを判断するためのベースラインが必要です。
Cシリーズ ラック サーバーは、スタンドアロンにすることも、UCSMによって管理されることもできます。 ログを収集して確認する手順は、ログによって若干異なります。
- スタンドアロン。
- UCSMによる管理:[Options]フィールドで[chassis]または[ucsm]ではなく [Rack Mount] を選択します
- CIMC ログのみがある場合は、ファイル名に CIMCXXX が含まれるため、UCSM 管理対象サーバからのログであることがわかります。 また、ログ ファイルは、メインの圧縮ディレクトリーに直接格納するのではなく、サーバーXXという圧縮ディレクトリーに保存されます。 これが表示されると、UCSMログも必要になります。
ログ分析
ログの主な違いは、
- 追加情報は、UCSM管理対象サーバのUCSM sam_techsupportファイルで入手できます
- ディレクトリの場所。(「ログ収集」の「メモ」を参照)
UCSM_X_TechSupport.tar\sam_techsupportinfo
- 「show server inventory expand」(サーバーのシリアル番号を確認し、PIDを特定)。Example:
サーバー1:
モデル:UCSC-C220-M4S
確認済みシリアル(SN): FCHXXXXXXXXXXさん
承認済み製品名: Cisco UCS C220 M4S
確認済みPID: UCSC-C220-M4S
- 「show fault detail」(関連する障害の特定) - 例:
Severity: 主要 コード:F0844 最終移行時間: 2017-05-23T12:40: 40.774 説明:サーバー 24 の DIMM DIMM_B2 operaState: disabled
- 「show server memory detail」(影響を受けるDIMM PIDを特定)-例:
[Location]:DIMM_A1 製品名: 16GB DDR4-2400-MHz RDIMM/PC4-19200/シングル ランク/x4/1.2v Pid:UCS-MR-xxxxxxxx-A注:この情報のほとんどは、UCSMで管理されているサーバーの
sam_techsupportで入手できます [ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
- シャーシ情報領域
====================[ シャーシ情報領域 ]======================
シャーシパーツ番号: [74-xxxxx-02]
シャーシ シリアル番号: [FCHXXXXXXXXX]
- ボードエリア
========================[ ボードエリア ]=========================
ボード製品名: 【UCSC-C240-Mxxxx】
ボードシリアル番号: [FCHXXXXXXXX]
- SMBIOSテーブル ダンプBEGIN
注:これはCisco PIDではない可能性がありますが、関連付けて見つけることができます
メモリー デバイス
ロケーター:DIMM_A1
パーツ番号: 36ASxxxxxx-2G3B1 [Querying All IPMI Sensors]セクション:
修正可能なエラーと修正不可能なエラー: センサー名 |読書 |ユニット |ステータス |LNRの |LCの |LNCの |UNCの |UCの |UNRの DDR4_P2_E1_ECC |63250.000 |エラー |UNRの |ナ |ナ |ナ |ナ |ナ |60250.000 DDR4_P2_E2_ECC |63750.000 |エラー |UNRの |ナ |ナ |ナ |ナ |ナ |60250.000 DDR4_P2_E3_ECC |63250.000 |エラー |UNRの |ナ |ナ |ナ |ナ |ナ |60250.000
[ServerXX_TechSupport.tar]\var\log\sel\log
- 修正可能および修正不能なECCエラーがないかログを確認します。
メモリDDR4_P2_E2_ECC #0xb0 |読み取り CPU2 DIMM E2 の 512 修正可能な ECC エラー |アサート
- ログにCATERR_Nがないか確認します...アサート済み |アサートされたエントリの例は次のとおりです。
2017年03月06日 20:02:12 |CIMCの |プロセッサCATERR_N #0x70 |予測エラーがアサートされました |アサート注:CATERR_Nがディアサートされるのを見るのは予想される動作です|起動時にログでアサート[ ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
- 影響を受けるDIMM(複数可)の修正可能/修正不能なエラー数を検索し、関連するフィールドをコピーします。例は次のとおりです。
================== DIMMエラーの概要=================== ------- DIMM E2 ---------- 現在のスロット エラー数: 前回のサーバー起動以降に修正可能なECCエラー: 0 修正可能な累積 ECC エラー数: 2560 前回のサーバー起動以降の修正不可能なECCエラー: 0 修正不能な累積 ECC エラー数: 3 以前のスロット エラー数: 修正可能 ECC エラー数: 0 修正不能 ECC エラー数: 0
[ServerXX_TechSupport.tar]\var\sel_decode.txt
- selエントリーとフォールトのプレイ・バイ・プレイ
eventLogMaxEntries: 1445 eventLogList: --- Id:1440 重大 度:重要 Datetime:2017-03-10 00:57:17 dateTimeOrder: 00005 説明:「システム ソフトウェア イベント: ポスト センサー、DIMMソケット3、チャネルE、プロセッサー ソケット2。同じチャネルで他のメモリーに障害が発生したため無効になりました。[0xE542]が主張された」
スタンドアロン サーバーの場合:
- tmp\tech_support.frupids
====== IPMI FRUレコードのダンプ====== 製品名: UCSC-C220-xxx 製品パーツ番号: 74 - XXXXの- 01 製品バージョン: A 製品シリアル: FCHxxxxxxxN – サーバーのシリアル番号 インベントリー カタログPID============ダンプ DIMMList: Name: DIMM_A1Description: 8GB DDR3-1333-MHz RDIMM/PC3-10600/デュアル ランク/1.35v Pid:UCS-MR-1X082RX-A:DIMM PID
事後分析
分析を実行した後、影響を受けるサーバーの正しいシリアル番号でサービス リクエストがアップデートされていることを確認します。また、調査中のブレードに関連付けられている以前のRMAをデータベースで検索します。 障害を示しているDIMMを最近交換した場合は、マザーボードに問題がある可能性があります。
分析をサービス リクエストに追加します。
論理的なトラブルシューティング
エラーが特定されたら、それらをすべてクリアし、UCSMのカウンターと障害タブを監視して、それらが持続するかどうかを確認します。
サーバーのコマンド ラインにログインします。
メモリー エラー カウンターをクリアします
サーバー#のスコープ シャーシ サーバ/シャーシ # reset-ecc以下のコマンドを実行して、システム イベント ログをクリアします。
Server# スコープ sel Server /sel # クリア この操作により、sel全体がクリアされます。 続行。[y|N]y
次のコマンドを使用して CIMC ログをリセットします。
サーバー#のスコープcimc Server /cimc # スコープ ログ サーバ/cimc/log # クリア
環境を48時間監視します。
エラーが解決しない場合は、UCSログとシャーシ ログの新しいセットを取得し、分析を確認し、証拠に基づいてアクション プランを策定して、次のセクションに進みます。
原因
- DIMMエラーは通常、DIMMの障害、またはマザーボードの不良が原因で発生することがあります
注
- なし
Additional Information
次のビデオをご覧ください。
Affected Products
Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems SeriesArticle Properties
Article Number: 000194450
Article Type: How To
Last Modified: 07 Jan 2025
Version: 4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.