メイン コンテンツに進む
  • すばやく簡単にご注文が可能
  • 注文内容の表示、配送状況をトラック
  • 会員限定の特典や割引のご利用
  • 製品リストの作成とアクセスが可能
  • 「Company Administration(会社情報の管理)」では、お使いのDell EMCのサイトや製品、製品レベルでのコンタクト先に関する情報を管理できます。

Cisco Cシリーズ サーバーでDIMMエラーを確認してトラブルシューティングする方法の手順

概要: Cisco Cシリーズ サーバーでDIMMエラーを確認してトラブルシューティングする方法の手順

この記事は自動翻訳されたものである可能性があります。品質に関するフィードバックがある場合は、このページの下部にあるフォームを使用してお知らせください。

文書の内容


手順

VxBlock UCS Cシリーズ サーバーでDIMMエラーをクリアする方法

事実

  • Cisco Cシリーズ ラック マウント型サーバ(UCSMによって管理される場合と管理されない場合があります)

現象
  •  次のようなアラートがCIMCまたはUCSMに表示されます。

F0184
、F0185
、F0137
、F1236
、F1237

  • PSOD – パープル スクリーン(KVMまたはホストのコンソール上)

ソリューション

ログ収集
 
トラブルシューティングを行う前に、影響を受けるサーバーからログを収集します。トラブルシューティング手順が成功したかどうかを判断するためのベースラインが必要です。

Cシリーズ ラック サーバーは、スタンドアロンにすることも、UCSMによって管理されることもできます。  ログを収集して確認する手順は、ログによって若干異なります。
  • スタンドアロン。
  • UCSMによる管理:[Options]フィールドで[chassis]または[ucsm]ではなく [Rack Mount] を選択します
  • CIMC ログのみがある場合は、ファイル名に CIMCXXX が含まれるため、UCSM 管理対象サーバからのログであることがわかります。  また、ログ ファイルは、メインの圧縮ディレクトリーに直接格納するのではなく、サーバーXXという圧縮ディレクトリーに保存されます。  これが表示されると、UCSMログも必要になります。
サーバーでPSODが発生した場合は、PSODのスクリーンショットを撮り、vSphere/ホスト ログを収集します。

ログ分析

ログの主な違いは、
  • 追加情報は、UCSM管理対象サーバのUCSM sam_techsupportファイルで入手できます
  • ディレクトリの場所。(「ログ収集」の「メモ」を参照)
UCSMおよびCIMCログの役立つログの場所:

UCSM_X_TechSupport.tar\sam_techsupportinfo
  • 「show server inventory expand」(サーバーのシリアル番号を確認し、PIDを特定)。Example:
サーバー1: 
     モデル:UCSC-C220-M4S
     確認済みシリアル(SN): FCHXXXXXXXXXXさん
     承認済み製品名: Cisco UCS C220 M4S
     確認済みPID: UCSC-C220-M4S
  • 「show fault detail」(関連する障害の特定) - 例:
Severity: 主要
コード:F0844
最終移行時間: 2017-05-23T12:40: 40.774
説明:サーバー 24 の DIMM DIMM_B2 operaState: disabled
  • 「show server memory detail」(影響を受けるDIMM PIDを特定)-例:
[Location]:DIMM_A1
製品名: 16GB DDR4-2400-MHz RDIMM/PC4-19200/シングル ランク/x4/1.2v
Pid:UCS-MR-xxxxxxxx-A
注:この情報のほとんどは、UCSMで管理されているサーバーの

sam_techsupportで入手できます [ServerXX_TechSupport.tar]\tmp\ ServerXX_TechSupport.txt
  • シャーシ情報領域
「シャーシのシリアル番号」としてリストされているサーバーのシリアル番号を検索します。次に例を示します。 
====================[ シャーシ情報領域 ]======================
            シャーシパーツ番号: [74-xxxxx-02]
            シャーシ シリアル番号: [FCHXXXXXXXXX]
 
  • ボードエリア
マザーボードのPIDとシリアル番号を検索します。次に例を示します。 
========================[ ボードエリア ]=========================
            ボード製品名: 【UCSC-C240-Mxxxx】
            ボードシリアル番号: [FCHXXXXXXXX]
 
  • SMBIOSテーブル ダンプBEGIN    
                Memory Device\Part LocatorでDIMMパーツ ナンバーを検索します。次に例を示します。 
                注:これはCisco PIDではない可能性がありますが、関連付けて見つけることができます
メモリー デバイス
           ロケーター:DIMM_A1
           パーツ番号: 36ASxxxxxx-2G3B1
  [Querying All IPMI Sensors]セクション:
修正可能なエラーと修正不可能なエラー: 
センサー名 |読書 |ユニット |ステータス |LNRの |LCの |LNCの |UNCの |UCの |UNRの   
DDR4_P2_E1_ECC |63250.000 |エラー |UNRの |ナ |ナ |ナ |ナ |ナ |60250.000 DDR4_P2_E2_ECC |63750.000 |エラー |UNRの |ナ |ナ |ナ |ナ |ナ |60250.000
DDR4_P2_E3_ECC |63250.000 |エラー |UNRの |ナ |ナ |ナ |ナ |ナ |60250.000


[ServerXX_TechSupport.tar]\var\log\sel\log
  • 修正可能および修正不能なECCエラーがないかログを確認します。
メモリDDR4_P2_E2_ECC #0xb0 |読み取り CPU2 DIMM E2 の 512 修正可能な ECC エラー |アサート
  • ログにCATERR_Nがないか確認します...アサート済み |アサートされたエントリの例は次のとおりです。
2017年03月06日 20:02:12 |CIMCの |プロセッサCATERR_N #0x70 |予測エラーがアサートされました |アサート
  注:CATERR_Nがディアサートされるのを見るのは予想される動作です|起動時にログでアサート[ ServerXX_TechSupport.tar]\var\DIMM-BL_Status.txt
  • 影響を受けるDIMM(複数可)の修正可能/修正不能なエラー数を検索し、関連するフィールドをコピーします。例は次のとおりです。
================== DIMMエラーの概要===================
------- DIMM E2 ----------
  現在のスロット エラー数: 
      前回のサーバー起動以降に修正可能なECCエラー: 0
      修正可能な累積 ECC エラー数: 2560
      前回のサーバー起動以降の修正不可能なECCエラー: 0
      修正不能な累積 ECC エラー数: 3
   以前のスロット エラー数: 
      修正可能 ECC エラー数: 0
      修正不能 ECC エラー数: 0

[ServerXX_TechSupport.tar]\var\sel_decode.txt
  • selエントリーとフォールトのプレイ・バイ・プレイ
eventLogMaxEntries: 1445
eventLogList:  
---
Id:1440
重大 度:重要
Datetime:2017-03-10 00:57:17
dateTimeOrder: 00005
説明:「システム ソフトウェア イベント: ポスト センサー、DIMMソケット3、チャネルE、プロセッサー ソケット2。同じチャネルで他のメモリーに障害が発生したため無効になりました。[0xE542]が主張された」

スタンドアロン サーバーの場合:
  • tmp\tech_support.frupids
====== IPMI FRUレコードのダンプ======
製品名: UCSC-C220-xxx
製品パーツ番号: 74 - XXXXの- 01
製品バージョン: A
 製品シリアル: FCHxxxxxxxN – サーバーのシリアル番号

インベントリー カタログPID============ダンプ
DIMMList:  
Name: DIMM_A1Description: 8GB DDR3-1333-MHz RDIMM/PC3-10600/デュアル ランク/1.35v
Pid:UCS-MR-1X082RX-A:DIMM PID


事後分析
分析を実行した後、影響を受けるサーバーの正しいシリアル番号でサービス リクエストがアップデートされていることを確認します。また、調査中のブレードに関連付けられている以前のRMAをデータベースで検索します。  障害を示しているDIMMを最近交換した場合は、マザーボードに問題がある可能性があります。

分析をサービス リクエストに追加します。

論理的なトラブルシューティング
 
エラーが特定されたら、それらをすべてクリアし、UCSMのカウンターと障害タブを監視して、それらが持続するかどうかを確認します。
サーバーのコマンド ラインにログインします。

メモリー エラー カウンターをクリアします
サーバー#のスコープ シャーシ
サーバ/シャーシ # reset-ecc
以下のコマンドを実行して、システム イベント ログをクリアします。
Server# スコープ sel
Server /sel # クリア
この操作により、sel全体がクリアされます。
続行。[y|N]y

 次のコマンドを使用して CIMC ログをリセットします。
サーバー#のスコープcimc
Server /cimc # スコープ ログ
サーバ/cimc/log # クリア

環境を48時間監視します。
エラーが解決しない場合は、UCSログとシャーシ ログの新しいセットを取得し、分析を確認し、証拠に基づいてアクション プランを策定して、次のセクションに進みます。

原因
  • DIMMエラーは通常、DIMMの障害、またはマザーボードの不良が原因で発生することがあります

  • なし

その他の情報

次のビデオをご覧ください。

文書のプロパティ


影響を受ける製品

Converged Infrastructure, Converged Systems, VxBlock and Vblock Systems, VxBlock and vBlock Systems Series

最後に公開された日付

19 4月 2022

バージョン

3

文書の種類

How To