XEシステム: DCGMIトラブルシューティング用のパッケージをインストールする方法。RHELロッキー

Podsumowanie: トラブルシューティングのためにDCGMIログを収集するために、Linux内にDCGM(NVIDIA Data Center GPU Manager)をインストールする方法。RHEl/Rocky

Ten artykuł dotyczy Ten artykuł nie dotyczy Ten artykuł nie jest powiązany z żadnym konkretnym produktem. Nie wszystkie wersje produktu zostały zidentyfikowane w tym artykule.

Instrukcje


前提条件 DCGMを実行するには、ターゲット システムに次のNVIDIAコンポーネントが含まれている必要があります。依存関係の順にリストされています。
- サポートされているNVIDIAデータセンター ドライバー
:HGX(Hyperscale Graphics Extension)システムでは、Fabric ManagerおよびNVSwitch Configuration and Query (NSCQ)パッケージ
- DCGMランタイムとSDK

Red HatまたはRockyリリースの場合:

メモ: スクリーンショットは参照用であり、観察された結果にはいくつかの違いがある場合があります。


リポジトリ メタデータとCUDA GPGキーをインストールします:
[必要に応じてx86_64 arm64の場合は「sbsa」と置き換え、ppc64leの場合は「ppc64le」に置き換えます。[引用符を削除]
ディストリビューションの特定:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


リポジトリー メタデータとCUDA GPGキーをインストールするための2つのコマンドのターミナルでのビジュアル出力

リポジトリー メタデータを更新します。

sudo dnf clean expire-cache

ターミナルが実行されており、コマンド「sudo dnf clean expire-cache」の出力

次に、DCGMをインストールします。

sudo dnf install -y datacenter-gpu-manager

コマンド「sudo dnf install -y datacenter-gpu-manager」と対応する出力を実行するターミナル。

HGXシステム(A100/A800およびH100/H800)でNVSwitchをポーリングする場合は、NVIDIAスイッチ構成をインストールする必要があります。DCGMのNSCQライブラリーをクエリーしてNVSwitchを列挙し、スイッチのテレメトリーを提供します。NSCQは、システムにインストールされているドライバー バージョン ブランチ(XXX)と一致する必要があります。以下のコマンドで、XXXを必要なドライバー ブランチに置き換えます。

sudo dnf module install nvidia-driver:XXX/fm

 

オペレーティング システムにドライバーのバージョンを問い合わせます。

nvidia-smi

「nvidia-smi」コマンドのターミナル出力。具体的には、ドライバーのバージョンが550.54.14であることに注意してください。

この例では、ドライバーのバージョンが550と表示されているため、次のコマンドを使用します。

sudo dnf module install nvidia-driver:550/fm

「sudo dnf module install nvidia-driver:550/fm」の実行のターミナル出力

DCGM systemdサービスを有効にし(再起動時)、今すぐ開始します。

sudo systemctl --now enable nvidia-dcgm

ターミナルで実行されている「sudo systemctl --now enable nvidia-dcgm」を視覚的に表現しています。

インストールを確認するには、dcgmiを使用してシステムにクエリーを実行します。システムで検出されたすべてのサポートされているGPU(およびNVSwitch)のリストが表示されます。(スイッチは小文字のL)
DCGMI検出-l 

dcgmi discovery -l 

[次の例にはNvSwitchはありませんが、存在するか検出された場合は、フィールドに詳細情報が入力されます。]
「dcgmi discovery -l」を実行した場合のターミナル出力

 

Produkty, których dotyczy problem

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
Właściwości artykułu
Numer artykułu: 000223375
Typ artykułu: How To
Ostatnia modyfikacja: 10 kwi 2025
Wersja:  3
Znajdź odpowiedzi na swoje pytania u innych użytkowników produktów Dell
Usługi pomocy technicznej
Sprawdź, czy Twoje urządzenie jest objęte usługą pomocy technicznej.