PowerEdge:NVIDIA DataCenter GPU Manager (DCGM)のインストールと診断の実行方法
Summary: Linux(RHEL/Ubuntu)にNVIDIAのDCGM(データセンターGPUマネージャー)ツールをインストールする方法と、診断アプリケーションを実行して理解する方法の概要。
Instructions
LinuxにDCGMをインストールする方法:
https://developer.nvidia.com/dcgm#Downloads
https://github.com/NVIDIA/DCGM
DCGM 3.3ユーザーおよびインストール ガイド
最新のDCGMのインストール
ソフトウェアをダウンロードして使用することにより、NVIDIA DCGM License.
の契約条件に完全に準拠していることに同意するものとしますNVIDIAドライバーのダウンロード ページからダウンロードできる最新のR450+ NVIDIAデータセンター ドライバーを使用することをお勧めします.
推奨される方法としては、CUDAネットワーク リポジトリーからDCGMを直接インストールします。古いDCGMリリースもリポジトリから入手できます。
DCGMの機能:
- GPU挙動モニタリング
- GPU構成管理
- GPUポリシーの監視
- GPUの正常性と診断
- GPUアカウンティングとプロセス統計
- NVSwitchの構成とモニタリング
クイックスタート手順:
Ubuntu LTS
CUDAネットワーク リポジトリー メタデータ、GPGキーを設定する 次の例は、x86_64上のUbuntu 20.04を対象としています。
$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb $ sudo dpkg -i cuda-keyring_1.0-1_all.deb $ sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /“
DCGMをインストールします。
$ sudo apt-get update && sudo apt-get install -y datacenter-gpu-manager
Red Hat
CUDAネットワーク リポジトリー メタデータ、GPGキーを設定する 次の例は、x86_64上のRHEL 8を対象としています。
*Pro-Tip for RHEL 9 repo simply replace the 8 below with 9 in the URL string* $ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
DCGMをインストールします。
$ sudo dnf clean expire-cache \ && sudo dnf install -y datacenter-gpu-manager Set up the DCGM service $ sudo systemctl --now enable nvidia-dcgm.
DCGMの実行方法:
Datacenter GPU Manager(DCGM)は、お客様がOS内からGPUをテストするためのより迅速な方法です。テストには4つのレベルがあります。最も詳細な結果を得るには、レベル4のテストを実行してください。通常は約1時間30分かかりますが、これはGPUのタイプと数量によって異なる場合があります。このツールには、テストを自動的に実行するようにお客様が設定し、お客様に警告する機能があります。詳細については、このリンクを参照してください。常に最新バージョンを使用することをお勧めします。バージョン3.3が最新のビルドです。
例#1:
コマンド: dcgmi diag -r 1
例#2:
コマンド: dcgmi diag -r 2
例#3:
コマンド: dcgm diag -r 3
例#4:
コマンド: dcgm diag -r 4
診断では、ニッチな性質、ワークロードの特異性、またはエラーを検出するために長い実行時間が必要であるため、一部のエラーを見逃す可能性があります
エラーを見つけた場合は、その性質を完全に理解するために調査してください
まず、 nvidia-bug-report.sh コマンド (Linux OS のみにネイティブで、Windows には対応していません) を開き、出力ファイルをレビューします。
メモリー アラート エラーの例は次のとおりです
次の例では、DCGM Health Monitorを有効にして起動し、サーバーに設置されているすべてのGPUについて後続のチェックを行います。GPU3が、SBE(シングル ビット エラー)に関する警告を生成し、ドライバーが影響を受けたメモリー アドレスを破棄しようとしていることがわかります
命令: dcgmi health -s a (これにより、医療サービスが開始され、「A」はすべてを監視するように指示されます)
命令: dcgmi health -c (検出されたすべてのGPUがチェックされ、それらについてレポートされます)
別の場所では、以下の出力からメモリー障害を確認することができます。メモリー関連の項目のみを表示するように編集すると、GPUで3,081個のSBEが検出され、ライフタイムの総計数が6,161個であることが分かります。また、GPUには以前のSBE廃棄ページが1つあり、さらに保留中のページのブラックリストがあることも確認できます。
GPUでメモリー障害が発生した場合は、デバイス自体をリセットする必要があります。これは、システム全体を再起動するか、デバイスに対してnvidia-smi GPUリセットを発行することで実現されます
ドライバーがアンロードされると、マークされたブラックリスト メモリ アドレスがマップアウトされます。ドライバーがリロードされると、GPUは、インテルCPUのPPRと同様に、影響を受けるアドレスがブロックされた新しいアドレス テーブルを取得します。
GPU のリセットに失敗すると、多くの場合、揮発性と集計カウンターが増加します。これは、GPUが影響を受けたアドレスを使用できるため、ヒットするたびにカウンターが増分されるためです。
それでも1つまたは複数のGPUに障害が疑われる場合は、NVIDIA Fieldiags(629診断)を実行して、対象のGPUでより詳細なテストを行います。
**インストールされているGPUに対して最新で正しいフィールドを使用していることを確認してください。これは非常に重要です**。