PowerEdge:NVIDIA DataCenter GPU Manager (DCGM)のインストールと診断の実行方法

Summary: Linux(RHEL/Ubuntu)にNVIDIAのDCGM(データセンターGPUマネージャー)ツールをインストールする方法と、診断アプリケーションを実行して理解する方法の概要。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

LinuxにDCGMをインストールする方法:

https://developer.nvidia.com/dcgm#Downloadsこのハイパーリンクをクリックすると、デル・テクノロジーズ以外のWebサイトにアクセスします。
https://github.com/NVIDIA/DCGMこのハイパーリンクをクリックすると、デル・テクノロジーズ以外のWebサイトにアクセスします。
DCGM 3.3ユーザーおよびインストール ガイドこのハイパーリンクをクリックすると、デル・テクノロジーズ以外のWebサイトにアクセスします。

 

最新のDCGMのインストール
ソフトウェアをダウンロードして使用することにより、NVIDIA DCGM Licenseこのハイパーリンクをクリックすると、デル・テクノロジーズ以外のWebサイトにアクセスします。.
の契約条件に完全に準拠していることに同意するものとしますNVIDIAドライバーのダウンロード ページからダウンロードできる最新のR450+ NVIDIAデータセンター ドライバーを使用することをお勧めしますこのハイパーリンクをクリックすると、デル・テクノロジーズ以外のWebサイトにアクセスします。.
推奨される方法としては、CUDAネットワーク リポジトリーからDCGMを直接インストールします。古いDCGMリリースもリポジトリから入手できます。

 

DCGMの機能:

  • GPU挙動モニタリング
  • GPU構成管理
  • GPUポリシーの監視
  • GPUの正常性と診断
  • GPUアカウンティングとプロセス統計
  • NVSwitchの構成とモニタリング

 

クイックスタート手順:

Ubuntu LTS
CUDAネットワーク リポジトリー メタデータ、GPGキーを設定する 次の例は、x86_64上のUbuntu 20.04を対象としています。

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb
$ sudo dpkg -i cuda-keyring_1.0-1_all.deb
$ sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /“

 

DCGMをインストールします。

$ sudo apt-get update
&& sudo apt-get install -y datacenter-gpu-manager

 

Red Hat
CUDAネットワーク リポジトリー メタデータ、GPGキーを設定する 次の例は、x86_64上のRHEL 8を対象としています。

*Pro-Tip for RHEL 9 repo simply replace the 8 below with 9 in the URL string*
$ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo

 

DCGMをインストールします。

$ sudo dnf clean expire-cache \
&& sudo dnf install -y datacenter-gpu-manager
Set up the DCGM service
$ sudo systemctl --now enable nvidia-dcgm.

 

DCGMの実行方法:

Datacenter GPU Manager(DCGM)は、お客様がOS内からGPUをテストするためのより迅速な方法です。テストには4つのレベルがあります。最も詳細な結果を得るには、レベル4のテストを実行してください。通常は約1時間30分かかりますが、これはGPUのタイプと数量によって異なる場合があります。このツールには、テストを自動的に実行するようにお客様が設定し、お客様に警告する機能があります。詳細については、このリンクを参照してくださいこのハイパーリンクをクリックすると、デル・テクノロジーズ以外のWebサイトにアクセスします。。常に最新バージョンを使用することをお勧めします。バージョン3.3が最新のビルドです。

 

 

例#1:

コマンド: dcgmi diag -r 1
コマンド:dcgmi diag -r 1の例

 

 

例#2:

コマンド: dcgmi diag -r 2
コマンド:dcgmi diag -r 2の例

例#3:

コマンド: dcgm diag -r 3
コマンド:dcgm diag -r 3の例

 

例#4:

コマンド: dcgm diag -r 4
コマンド:dcgm diag -r 4の例

 

診断では、ニッチな性質、ワークロードの特異性、またはエラーを検出するために長い実行時間が必要であるため、一部のエラーを見逃す可能性があります
エラーを見つけた場合は、その性質を完全に理解するために調査してください
まず、 nvidia-bug-report.sh コマンド (Linux OS のみにネイティブで、Windows には対応していません) を開き、出力ファイルをレビューします。

 

メモリー アラート エラーの例は次のとおりです
次の例では、DCGM Health Monitorを有効にして起動し、サーバーに設置されているすべてのGPUについて後続のチェックを行います。GPU3が、SBE(シングル ビット エラー)に関する警告を生成し、ドライバーが影響を受けたメモリー アドレスを破棄しようとしていることがわかります
命令: dcgmi health -s a (これにより、医療サービスが開始され、「A」はすべてを監視するように指示されます)
命令: dcgmi health -c (検出されたすべてのGPUがチェックされ、それらについてレポートされます)
dcgmiコマンドの例

 

別の場所では、以下の出力からメモリー障害を確認することができます。メモリー関連の項目のみを表示するように編集すると、GPUで3,081個のSBEが検出され、ライフタイムの総計数が6,161個であることが分かります。また、GPUには以前のSBE廃棄ページが1つあり、さらに保留中のページのブラックリストがあることも確認できます。
別の場所では、メモリー障害が何であるかを確認できます

 

GPUでメモリー障害が発生した場合は、デバイス自体をリセットする必要があります。これは、システム全体を再起動するか、デバイスに対してnvidia-smi GPUリセットを発行することで実現されます
ドライバーがアンロードされると、マークされたブラックリスト メモリ アドレスがマップアウトされます。ドライバーがリロードされると、GPUは、インテルCPUのPPRと同様に、影響を受けるアドレスがブロックされた新しいアドレス テーブルを取得します。
GPU のリセットに失敗すると、多くの場合、揮発性と集計カウンターが増加します。これは、GPUが影響を受けたアドレスを使用できるため、ヒットするたびにカウンターが増分されるためです。

 

それでも1つまたは複数のGPUに障害が疑われる場合は、NVIDIA Fieldiags(629診断)を実行して、対象のGPUでより詳細なテストを行います。

 

**インストールされているGPUに対して最新で正しいフィールドを使用していることを確認してください。これは非常に重要です**。

Affected Products

C Series, Rack Servers, Tower Servers, XE Servers, PowerEdge XE8545, PowerEdge XE8640

Products

PowerEdge XE8545
Article Properties
Article Number: 000219485
Article Type: How To
Last Modified: 27 May 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.