PowerEdge:NVIDIA DataCenter GPU Manager (DCGM)のインストールと診断の実行方法

Summary: Linux(RHEL/Ubuntu)にNVIDIAのDCGM(データセンターGPUマネージャー)ツールをインストールする方法と、診断アプリケーションを実行して理解する方法の概要。

Αυτό το άρθρο ισχύει για Αυτό το άρθρο δεν ισχύει για Αυτό το άρθρο δεν συνδέεται με κάποιο συγκεκριμένο προϊόν. Δεν προσδιορίζονται όλες οι εκδόσεις προϊόντων σε αυτό το άρθρο.

Instructions

LinuxにDCGMをインストールする方法:

https://developer.nvidia.com/dcgm#Downloadsこのハイパーリンクをクリックすると、デル・テクノロジーズ以外のWebサイトにアクセスします。
https://github.com/NVIDIA/DCGMこのハイパーリンクをクリックすると、デル・テクノロジーズ以外のWebサイトにアクセスします。
DCGM 3.3ユーザーおよびインストール ガイドこのハイパーリンクをクリックすると、デル・テクノロジーズ以外のWebサイトにアクセスします。

 

最新のDCGMのインストール
ソフトウェアをダウンロードして使用することにより、NVIDIA DCGM Licenseこのハイパーリンクをクリックすると、デル・テクノロジーズ以外のWebサイトにアクセスします。.
の契約条件に完全に準拠していることに同意するものとしますNVIDIAドライバーのダウンロード ページからダウンロードできる最新のR450+ NVIDIAデータセンター ドライバーを使用することをお勧めしますこのハイパーリンクをクリックすると、デル・テクノロジーズ以外のWebサイトにアクセスします。.
推奨される方法としては、CUDAネットワーク リポジトリーからDCGMを直接インストールします。古いDCGMリリースもリポジトリから入手できます。

 

DCGMの機能:

  • GPU挙動モニタリング
  • GPU構成管理
  • GPUポリシーの監視
  • GPUの正常性と診断
  • GPUアカウンティングとプロセス統計
  • NVSwitchの構成とモニタリング

 

クイックスタート手順:

Ubuntu LTS
CUDAネットワーク リポジトリー メタデータ、GPGキーを設定する 次の例は、x86_64上のUbuntu 20.04を対象としています。

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb
$ sudo dpkg -i cuda-keyring_1.0-1_all.deb
$ sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /“

 

DCGMをインストールします。

$ sudo apt-get update
&& sudo apt-get install -y datacenter-gpu-manager

 

Red Hat
CUDAネットワーク リポジトリー メタデータ、GPGキーを設定する 次の例は、x86_64上のRHEL 8を対象としています。

*Pro-Tip for RHEL 9 repo simply replace the 8 below with 9 in the URL string*
$ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo

 

DCGMをインストールします。

$ sudo dnf clean expire-cache \
&& sudo dnf install -y datacenter-gpu-manager
Set up the DCGM service
$ sudo systemctl --now enable nvidia-dcgm.

 

DCGMの実行方法:

Datacenter GPU Manager(DCGM)は、お客様がOS内からGPUをテストするためのより迅速な方法です。テストには4つのレベルがあります。最も詳細な結果を得るには、レベル4のテストを実行してください。通常は約1時間30分かかりますが、これはGPUのタイプと数量によって異なる場合があります。このツールには、テストを自動的に実行するようにお客様が設定し、お客様に警告する機能があります。詳細については、このリンクを参照してくださいこのハイパーリンクをクリックすると、デル・テクノロジーズ以外のWebサイトにアクセスします。。常に最新バージョンを使用することをお勧めします。バージョン3.3が最新のビルドです。

 

 

例#1:

コマンド: dcgmi diag -r 1
コマンド:dcgmi diag -r 1の例

 

 

例#2:

コマンド: dcgmi diag -r 2
コマンド:dcgmi diag -r 2の例

例#3:

コマンド: dcgm diag -r 3
コマンド:dcgm diag -r 3の例

 

例#4:

コマンド: dcgm diag -r 4
コマンド:dcgm diag -r 4の例

 

診断では、ニッチな性質、ワークロードの特異性、またはエラーを検出するために長い実行時間が必要であるため、一部のエラーを見逃す可能性があります
エラーを見つけた場合は、その性質を完全に理解するために調査してください
まず、 nvidia-bug-report.sh コマンド (Linux OS のみにネイティブで、Windows には対応していません) を開き、出力ファイルをレビューします。

 

メモリー アラート エラーの例は次のとおりです
次の例では、DCGM Health Monitorを有効にして起動し、サーバーに設置されているすべてのGPUについて後続のチェックを行います。GPU3が、SBE(シングル ビット エラー)に関する警告を生成し、ドライバーが影響を受けたメモリー アドレスを破棄しようとしていることがわかります
命令: dcgmi health -s a (これにより、医療サービスが開始され、「A」はすべてを監視するように指示されます)
命令: dcgmi health -c (検出されたすべてのGPUがチェックされ、それらについてレポートされます)
dcgmiコマンドの例

 

別の場所では、以下の出力からメモリー障害を確認することができます。メモリー関連の項目のみを表示するように編集すると、GPUで3,081個のSBEが検出され、ライフタイムの総計数が6,161個であることが分かります。また、GPUには以前のSBE廃棄ページが1つあり、さらに保留中のページのブラックリストがあることも確認できます。
別の場所では、メモリー障害が何であるかを確認できます

 

GPUでメモリー障害が発生した場合は、デバイス自体をリセットする必要があります。これは、システム全体を再起動するか、デバイスに対してnvidia-smi GPUリセットを発行することで実現されます
ドライバーがアンロードされると、マークされたブラックリスト メモリ アドレスがマップアウトされます。ドライバーがリロードされると、GPUは、インテルCPUのPPRと同様に、影響を受けるアドレスがブロックされた新しいアドレス テーブルを取得します。
GPU のリセットに失敗すると、多くの場合、揮発性と集計カウンターが増加します。これは、GPUが影響を受けたアドレスを使用できるため、ヒットするたびにカウンターが増分されるためです。

 

それでも1つまたは複数のGPUに障害が疑われる場合は、NVIDIA Fieldiags(629診断)を実行して、対象のGPUでより詳細なテストを行います。

 

**インストールされているGPUに対して最新で正しいフィールドを使用していることを確認してください。これは非常に重要です**。

Επηρεαζόμενα προϊόντα

C Series, Rack Servers, Tower Servers, XE Servers, PowerEdge XE8545, PowerEdge XE8640

Προϊόντα

PowerEdge XE8545
Ιδιότητες άρθρου
Article Number: 000219485
Article Type: How To
Τελευταία τροποποίηση: 27 Μαΐ 2025
Version:  5
Βρείτε απαντήσεις στις ερωτήσεις σας από άλλους χρήστες της Dell
Υπηρεσίες υποστήριξης
Ελέγξτε αν η συσκευή σας καλύπτεται από τις Υπηρεσίες υποστήριξης.