PowerEdge: Instalace nástroje NVIDIA DataCenter GPU Manager (DCGM) a způsob spuštění diagnostiky
Summary: Přehled instalace nástroje NVIDIA DCGM (Datacenter GPU Manager) v systému Linux (RHEL/Ubuntu) a jak spustit diagnostickou aplikaci a porozumět jí.
Instructions
Jak nainstalovat DCGM v Linuxu:
https://developer.nvidia.com/dcgm#Downloads
https://github.com/NVIDIA/DCGMUživatelská a instalační příručka k nástroji DCGM 3.3
Instalace nejnovějšího nástroje DCGM
Stažením a používáním softwaru souhlasíte s tím, že budete plně dodržovat podmínky licence NVIDIA DCGM.
Doporučujeme používat nejnovější ovladač datového centra R450+ NVIDIA, který lze stáhnout ze stránky NVIDIA Driver Downloads.
Doporučenou metodou je nainstalovat nástroj DCGM přímo ze síťových úložišť CUDA. Starší verze DCGM jsou také k dispozici v úložištích.
Vlastnosti DCGM:
- Monitorování chování grafického procesoru
- Správa konfigurace grafického procesoru
- Dohled nad zásadami GPU
- Stav a diagnostika GPU
- Statistika účetnictví a procesů GPU
- Konfigurace a monitorování NVSwitch
Stručné pokyny:
Ubuntu LTS
Nastavení metadat síťového úložiště CUDA, klíč GPG Níže uvedený příklad je pro systém Ubuntu 20.04 na x86_64:
$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb $ sudo dpkg -i cuda-keyring_1.0-1_all.deb $ sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /“
Nainstalujte DCGM.
$ sudo apt-get update && sudo apt-get install -y datacenter-gpu-manager
Red Hat
Nastavení metadat síťového úložiště CUDA, klíč GPG Níže uvedený příklad platí pro systém RHEL 8 na x86_64:
*Pro-Tip for RHEL 9 repo simply replace the 8 below with 9 in the URL string* $ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
Nainstalujte DCGM.
$ sudo dnf clean expire-cache \ && sudo dnf install -y datacenter-gpu-manager Set up the DCGM service $ sudo systemctl --now enable nvidia-dcgm.
Jak spustit nástroj DCGM:
Nástroj Datacenter GPU Manager (DCGM) představuje rychlejší způsob, jak mohou zákazníci testovat grafické karty v rámci operačního systému. Existují čtyři úrovně testů. Proveďte test úrovně 4 a získejte nejpodrobnější výsledky. Obvykle to trvá přibližně 1 hodinu a 30 minut, ale to se může lišit podle typu a množství GPU. Tento nástroj umožňuje zákazníkovi nakonfigurovat testy tak, aby se spouštěly automaticky, a upozornit zákazníka. Více o tom najdete na tomto odkazu. Doporučujeme vždy používat nejnovější verzi, verze 3.3 je nejnovější sestavení.
Příklad 1:
Příkaz: dcgmi diag -r 1
Příklad 2:
Příkaz: dcgmi diag -r 2
Příklad 3:
Příkaz: dcgm diag -r 3
Příklad 4:
Příkaz: dcgm diag -r 4
Diagnostika může vynechat některé chyby kvůli jejich specializované povaze, specifičnosti úloh nebo potřebě prodloužené doby běhu k jejich detekci.
Pokud uvidíte chybu, prozkoumejte ji, abyste plně pochopili její podstatu.
Začněte tím, že vytáhnete nvidia-bug-report.sh (nativní pouze pro operační systém Linux, bez systému Windows) a zkontrolujte výstupní soubor.
Příklady selhání výstrahy paměti:
Níže uvedený příklad představuje povolení a spuštění nástroje DCGM Health Monitor s následnou kontrolou všech grafických karet nainstalovaných na serveru. Můžete vidět, že GPU 3 vyvolal varování o rese (jednobitové chyby) a ovladač, který chce vyřadit dotčenou adresu paměti.
Příkaz: dcgmi health -s a (Tím se spustí zdravotnictví a "A" mu řekne, aby sledoval všechno)
Příkaz: dcgmi health -c (zkontroluje všechny zjištěné grafické karty a podá o nich zprávy)
Další místo, kde můžete vidět, jaké jsou chyby paměti z výstupu níže. Upraveno tak, aby zobrazovalo pouze položky související s pamětí, vidíme, že GPU narazil na 3 081 SBE s agregovaným počtem 6 161 za dobu životnosti. Vidíme také, že GPU má jednu předchozí vyřazenou stránku SBE s další černou listinou čekající stránky.
V případě, že na grafických kartách dojde k selhání paměti, je nutné resetovat samotné zařízení. To lze provést restartováním celého systému nebo resetováním grafického procesoru nvidia-smi na zařízení.
Po uvolnění ovladače je zmapována označená adresa paměti blacklistu. Po opětovném načtení ovladače získá GPU novou tabulku adres se zablokovanými dotčenými adresami, podobně jako PPR na procesorech Intel.
Pokud se nepodaří resetovat grafickou kartu, často to vede k nárůstu volatilních a agregovaných čítačů. Důvodem je to, že grafická karta stále umožňuje používat dotčenou adresu, takže pokaždé, když je dosažena, se čítače zvýší.
Pokud máte stále podezření na chyby u jedné nebo více grafických karet, spusťte diagnostiku pole NVIDIA (629) a proveďte podrobnější test cílové grafické karty.
**UJISTĚTE SE, ŽE POUŽÍVÁTE NEJNOVĚJŠÍ A SPRÁVNÁ POLE PRO NAINSTALOVANÝ GRAFICKÝ PROCESOR, TO JE KRITICKÉ**.