PowerEdge：NVIDIA DataCenter GPU Manager (DCGM)のインストールと診断の実行方法

Summary: Linux(RHEL/Ubuntu)にNVIDIAのDCGM(データセンターGPUマネージャー)ツールをインストールする方法と、診断アプリケーションを実行して理解する方法の概要。

Affected Products

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

LinuxにDCGMをインストールする方法:

https://developer.nvidia.com/dcgm#Downloads
https://github.com/NVIDIA/DCGM
DCGM 3.3ユーザーおよびインストールガイド

最新のDCGMのインストール
ソフトウェアをダウンロードして使用することにより、NVIDIA DCGM License.
の契約条件に完全に準拠していることに同意するものとしますNVIDIAドライバーのダウンロードページからダウンロードできる最新のR450+ NVIDIAデータセンタードライバーを使用することをお勧めします.
推奨される方法としては、CUDAネットワークリポジトリーからDCGMを直接インストールします。古いDCGMリリースもリポジトリから入手できます。

DCGMの機能:

GPU挙動モニタリング
GPU構成管理
GPUポリシーの監視
GPUの正常性と診断
GPUアカウンティングとプロセス統計
NVSwitchの構成とモニタリング

クイックスタート手順:

Ubuntu LTS
CUDAネットワークリポジトリーメタデータ、GPGキーを設定する次の例は、x86_64上のUbuntu 20.04を対象としています。

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb
$ sudo dpkg -i cuda-keyring_1.0-1_all.deb
$ sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /“

DCGMをインストールします。

$ sudo apt-get update
&& sudo apt-get install -y datacenter-gpu-manager

Red Hat
CUDAネットワークリポジトリーメタデータ、GPGキーを設定する次の例は、x86_64上のRHEL 8を対象としています。

*Pro-Tip for RHEL 9 repo simply replace the 8 below with 9 in the URL string*
$ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo

DCGMをインストールします。

$ sudo dnf clean expire-cache \
&& sudo dnf install -y datacenter-gpu-manager
Set up the DCGM service
$ sudo systemctl --now enable nvidia-dcgm.

DCGMの実行方法:

Datacenter GPU Manager(DCGM)は、お客様がOS内からGPUをテストするためのより迅速な方法です。テストには4つのレベルがあります。最も詳細な結果を得るには、レベル4のテストを実行してください。通常は約1時間30分かかりますが、これはGPUのタイプと数量によって異なる場合があります。このツールには、テストを自動的に実行するようにお客様が設定し、お客様に警告する機能があります。詳細については、このリンクを参照してください。常に最新バージョンを使用することをお勧めします。バージョン3.3が最新のビルドです。

例#1：

コマンド： dcgmi diag -r 1
コマンド:dcgmi diag -r 1の例

例#2：

コマンド： dcgmi diag -r 2
コマンド:dcgmi diag -r 2の例

例#3：

コマンド： dcgm diag -r 3
コマンド:dcgm diag -r 3の例

例#4：

コマンド： dcgm diag -r 4
コマンド:dcgm diag -r 4の例

診断では、ニッチな性質、ワークロードの特異性、またはエラーを検出するために長い実行時間が必要であるため、一部のエラーを見逃す可能性があります
エラーを見つけた場合は、その性質を完全に理解するために調査してください
まず、 nvidia-bug-report.sh コマンド (Linux OS のみにネイティブで、Windows には対応していません) を開き、出力ファイルをレビューします。

メモリーアラートエラーの例は次のとおりです
次の例では、DCGM Health Monitorを有効にして起動し、サーバーに設置されているすべてのGPUについて後続のチェックを行います。GPU3が、SBE(シングルビットエラー)に関する警告を生成し、ドライバーが影響を受けたメモリーアドレスを破棄しようとしていることがわかります
命令： dcgmi health -s a (これにより、医療サービスが開始され、「A」はすべてを監視するように指示されます)
命令： dcgmi health -c (検出されたすべてのGPUがチェックされ、それらについてレポートされます)
dcgmiコマンドの例

別の場所では、以下の出力からメモリー障害を確認することができます。メモリー関連の項目のみを表示するように編集すると、GPUで3,081個のSBEが検出され、ライフタイムの総計数が6,161個であることが分かります。また、GPUには以前のSBE廃棄ページが1つあり、さらに保留中のページのブラックリストがあることも確認できます。
別の場所では、メモリー障害が何であるかを確認できます

GPUでメモリー障害が発生した場合は、デバイス自体をリセットする必要があります。これは、システム全体を再起動するか、デバイスに対してnvidia-smi GPUリセットを発行することで実現されます
ドライバーがアンロードされると、マークされたブラックリストメモリアドレスがマップアウトされます。ドライバーがリロードされると、GPUは、インテルCPUのPPRと同様に、影響を受けるアドレスがブロックされた新しいアドレステーブルを取得します。
GPU のリセットに失敗すると、多くの場合、揮発性と集計カウンターが増加します。これは、GPUが影響を受けたアドレスを使用できるため、ヒットするたびにカウンターが増分されるためです。

それでも1つまたは複数のGPUに障害が疑われる場合は、NVIDIA Fieldiags(629診断)を実行して、対象のGPUでより詳細なテストを行います。

**インストールされているGPUに対して最新で正しいフィールドを使用していることを確認してください。これは非常に重要です**。

Affected Products

C Series, Rack Servers, Tower Servers, XE Servers, PowerEdge XE8545, PowerEdge XE8640

Products

PowerEdge XE8545

Article Number: 000219485

Article Type: How To

Last Modified: 27 May 2025

Version: 5

Check if your device is covered by Support Services.

PowerEdge：NVIDIA DataCenter GPU Manager (DCGM)のインストールと診断の実行方法

Summary: Linux(RHEL/Ubuntu)にNVIDIAのDCGM(データセンターGPUマネージャー)ツールをインストールする方法と、診断アプリケーションを実行して理解する方法の概要。

Instructions

Affected Products

Instructions

LinuxにDCGMをインストールする方法:

DCGMの機能:

クイックスタート手順:

DCGMの実行方法:

例#1：

例#2：

例#3：

例#4：

Affected Products

Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

PowerEdge：NVIDIA DataCenter GPU Manager (DCGM)のインストールと診断の実行方法

Summary: Linux(RHEL/Ubuntu)にNVIDIAのDCGM(データセンターGPUマネージャー)ツールをインストールする方法と、診断アプリケーションを実行して理解する方法の概要。

Detailed Article

Instructions

Affected Products

Instructions

LinuxにDCGMをインストールする方法:

DCGMの機能:

クイックスタート手順:

DCGMの実行方法:

例#1：

例#2：

例#3：

例#4：

Affected Products

Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services