PowerEdge: Instalace nástroje NVIDIA DataCenter GPU Manager (DCGM) a způsob spuštění diagnostiky

Summary: Přehled instalace nástroje NVIDIA DCGM (Datacenter GPU Manager) v systému Linux (RHEL/Ubuntu) a jak spustit diagnostickou aplikaci a porozumět jí.

Affected Products

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

Jak nainstalovat DCGM v Linuxu:

https://developer.nvidia.com/dcgm#Downloads
https://github.com/NVIDIA/DCGMUživatelská a instalační příručka k nástroji DCGM 3.3

Instalace nejnovějšího nástroje DCGM
Stažením a používáním softwaru souhlasíte s tím, že budete plně dodržovat podmínky licence NVIDIA DCGM.
Doporučujeme používat nejnovější ovladač datového centra R450+ NVIDIA, který lze stáhnout ze stránky NVIDIA Driver Downloads.
Doporučenou metodou je nainstalovat nástroj DCGM přímo ze síťových úložišť CUDA. Starší verze DCGM jsou také k dispozici v úložištích.

Vlastnosti DCGM:

Monitorování chování grafického procesoru
Správa konfigurace grafického procesoru
Dohled nad zásadami GPU
Stav a diagnostika GPU
Statistika účetnictví a procesů GPU
Konfigurace a monitorování NVSwitch

Stručné pokyny:

Ubuntu LTS
Nastavení metadat síťového úložiště CUDA, klíč GPG Níže uvedený příklad je pro systém Ubuntu 20.04 na x86_64:

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb
$ sudo dpkg -i cuda-keyring_1.0-1_all.deb
$ sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /“

Nainstalujte DCGM.

$ sudo apt-get update
&& sudo apt-get install -y datacenter-gpu-manager

Red Hat
Nastavení metadat síťového úložiště CUDA, klíč GPG Níže uvedený příklad platí pro systém RHEL 8 na x86_64:

*Pro-Tip for RHEL 9 repo simply replace the 8 below with 9 in the URL string*
$ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo

Nainstalujte DCGM.

$ sudo dnf clean expire-cache \
&& sudo dnf install -y datacenter-gpu-manager
Set up the DCGM service
$ sudo systemctl --now enable nvidia-dcgm.

Jak spustit nástroj DCGM:

Nástroj Datacenter GPU Manager (DCGM) představuje rychlejší způsob, jak mohou zákazníci testovat grafické karty v rámci operačního systému. Existují čtyři úrovně testů. Proveďte test úrovně 4 a získejte nejpodrobnější výsledky. Obvykle to trvá přibližně 1 hodinu a 30 minut, ale to se může lišit podle typu a množství GPU. Tento nástroj umožňuje zákazníkovi nakonfigurovat testy tak, aby se spouštěly automaticky, a upozornit zákazníka. Více o tom najdete na tomto odkazu. Doporučujeme vždy používat nejnovější verzi, verze 3.3 je nejnovější sestavení.

Příklad 1:

Příkaz: dcgmi diag -r 1
Příklad: dcgmi diag -r 1

Příklad 2:

Příkaz: dcgmi diag -r 2
Příklad příkazu: dcgmi diag -r 2

Příklad 3:

Příkaz: dcgm diag -r 3
Příklad příkazu: dcgm diag -r 3

Příklad 4:

Příkaz: dcgm diag -r 4
Příklad příkazu: dcgm diag -r 4

Diagnostika může vynechat některé chyby kvůli jejich specializované povaze, specifičnosti úloh nebo potřebě prodloužené doby běhu k jejich detekci.
Pokud uvidíte chybu, prozkoumejte ji, abyste plně pochopili její podstatu.
Začněte tím, že vytáhnete nvidia-bug-report.sh (nativní pouze pro operační systém Linux, bez systému Windows) a zkontrolujte výstupní soubor.

Příklady selhání výstrahy paměti:
Níže uvedený příklad představuje povolení a spuštění nástroje DCGM Health Monitor s následnou kontrolou všech grafických karet nainstalovaných na serveru. Můžete vidět, že GPU 3 vyvolal varování o rese (jednobitové chyby) a ovladač, který chce vyřadit dotčenou adresu paměti.
Příkaz: dcgmi health -s a (Tím se spustí zdravotnictví a "A" mu řekne, aby sledoval všechno)
Příkaz: dcgmi health -c (zkontroluje všechny zjištěné grafické karty a podá o nich zprávy)
Příklad příkazu dcgmi

Další místo, kde můžete vidět, jaké jsou chyby paměti z výstupu níže. Upraveno tak, aby zobrazovalo pouze položky související s pamětí, vidíme, že GPU narazil na 3 081 SBE s agregovaným počtem 6 161 za dobu životnosti. Vidíme také, že GPU má jednu předchozí vyřazenou stránku SBE s další černou listinou čekající stránky.
Dalším místem, kde můžete zjistit, jaké jsou chyby paměti

V případě, že na grafických kartách dojde k selhání paměti, je nutné resetovat samotné zařízení. To lze provést restartováním celého systému nebo resetováním grafického procesoru nvidia-smi na zařízení.
Po uvolnění ovladače je zmapována označená adresa paměti blacklistu. Po opětovném načtení ovladače získá GPU novou tabulku adres se zablokovanými dotčenými adresami, podobně jako PPR na procesorech Intel.
Pokud se nepodaří resetovat grafickou kartu, často to vede k nárůstu volatilních a agregovaných čítačů. Důvodem je to, že grafická karta stále umožňuje používat dotčenou adresu, takže pokaždé, když je dosažena, se čítače zvýší.

Pokud máte stále podezření na chyby u jedné nebo více grafických karet, spusťte diagnostiku pole NVIDIA (629) a proveďte podrobnější test cílové grafické karty.

**UJISTĚTE SE, ŽE POUŽÍVÁTE NEJNOVĚJŠÍ A SPRÁVNÁ POLE PRO NAINSTALOVANÝ GRAFICKÝ PROCESOR, TO JE KRITICKÉ**.

Affected Products

C Series, Rack Servers, Tower Servers, XE Servers, PowerEdge XE8545, PowerEdge XE8640

Article Number: 000219485

Article Type: How To

Last Modified: 27 May 2025

Version: 5

Check if your device is covered by Support Services.

PowerEdge: Instalace nástroje NVIDIA DataCenter GPU Manager (DCGM) a způsob spuštění diagnostiky

Summary: Přehled instalace nástroje NVIDIA DCGM (Datacenter GPU Manager) v systému Linux (RHEL/Ubuntu) a jak spustit diagnostickou aplikaci a porozumět jí.

Instructions

Affected Products

Instructions

Jak nainstalovat DCGM v Linuxu:

Vlastnosti DCGM:

Stručné pokyny:

Jak spustit nástroj DCGM:

Příklad 1:

Příklad 2:

Příklad 3:

Příklad 4:

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

PowerEdge: Instalace nástroje NVIDIA DataCenter GPU Manager (DCGM) a způsob spuštění diagnostiky

Summary: Přehled instalace nástroje NVIDIA DCGM (Datacenter GPU Manager) v systému Linux (RHEL/Ubuntu) a jak spustit diagnostickou aplikaci a porozumět jí.

Detailed Article

Instructions

Affected Products

Instructions

Jak nainstalovat DCGM v Linuxu:

Vlastnosti DCGM:

Stručné pokyny:

Jak spustit nástroj DCGM:

Příklad 1:

Příklad 2:

Příklad 3:

Příklad 4:

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services