PowerEdge: NVIDIA DataCenter GPU Managerin (DCGM) asentaminen ja diagnostiikan suorittaminen

Summary: Yleiskatsaus NVIDIAn DCGM (datacenter GPU manager) -työkalun asentamiseen Linuxiin (RHEL/Ubuntu) sekä diagnostiikkasovelluksen suorittamiseen ja ymmärtämiseen.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Kuinka asentaa DCGM Linuxiin:

Tämä hyperlinkki johtaa Dell Technologiesin ulkopuoliseen sivustoon.
https://developer.nvidia.com/dcgm#DownloadsTämä hyperlinkki johtaa Dell Technologiesin ulkopuoliseen sivustoon.
https://github.com/NVIDIA/DCGMDCGM 3.3:n käyttö- ja asennusopasTämä hyperlinkki johtaa Dell Technologiesin ulkopuoliseen sivustoon.

 

Uusimman DCGM
:n asentaminen Lataamalla ohjelmiston ja käyttämällä sitä sitoudut noudattamaan NVIDIA DCGM -lisenssinTämä hyperlinkki johtaa Dell Technologiesin ulkopuoliseen sivustoon. ehtoja.
Suosittelemme, että käytät uusinta R450+ NVIDIA -konesaliajuria, jonka voi ladata NVIDIA-ohjainten lataussivultaTämä hyperlinkki johtaa Dell Technologiesin ulkopuoliseen sivustoon..
Suositeltuna tapana on asentaa DCGM suoraan CUDA-verkkosäilöistä. Säilöistä on saatavilla myös vanhempia DCGM-versioita.

 

DCGM:n ominaisuudet:

  • Grafiikkasuorittimen toiminnan valvonta
  • Grafiikkasuoritinkokoonpanon hallinta
  • Grafiikkasuoritinkäytännön valvonta
  • Grafiikkasuorittimen kunto ja diagnostiikka
  • GPU: n kirjanpito- ja prosessitilastot
  • NVSwitch-määritys ja valvonta

 

Pika-aloitusohjeet:

Ubuntu LTS
Määritä CUDA-verkkosäilön metatiedot, GPG-avain Alla oleva esimerkki koskee Ubuntu 20.04:ää x86_64:

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb
$ sudo dpkg -i cuda-keyring_1.0-1_all.deb
$ sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /“

 

Asenna DCGM.

$ sudo apt-get update
&& sudo apt-get install -y datacenter-gpu-manager

 

Punainen hattu
CUDA-verkkosäilön metatietojen määrittäminen, GPG-avain Alla oleva esimerkki koskee RHEL 8:aa x86_64:

*Pro-Tip for RHEL 9 repo simply replace the 8 below with 9 in the URL string*
$ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo

 

Asenna DCGM.

$ sudo dnf clean expire-cache \
&& sudo dnf install -y datacenter-gpu-manager
Set up the DCGM service
$ sudo systemctl --now enable nvidia-dcgm.

 

DCGM:n suorittaminen:

Datacenter GPU Manager (DCGM) on asiakkaille nopeampi tapa testata grafiikkasuorittimia käyttöjärjestelmässä. Testejä on neljä. Suorita tason 4 testi saadaksesi perusteellisimmat tulokset. Se kestää yleensä noin 1 h 30 minuuttia, mutta tämä voi vaihdella grafiikkasuorittimen tyypin ja määrän mukaan. Työkalu voi määrittää testit suoritettavaksi automaattisesti ja varoittamaan asiakasta. Löydät siitä lisää tästä linkistäTämä hyperlinkki johtaa Dell Technologiesin ulkopuoliseen sivustoon.. Suosittelemme käyttämään aina uusinta versiota, versio 3.3 on uusin koontiversio.

 

 

Esimerkki 1:

Komento: dcgmi diag -r 1
Komento: dcgmi diag -r 1 esimerkki

 

 

Esimerkki 2:

Komento: dcgmi diag -r 2
Komento: dcgmi diag -r 2 esimerkki

Esimerkki 3:

Komento: dcgm diag -r 3
Komento: dcgm diag -r 3 esimerkki

 

Esimerkki 4:

Komento: dcgm diag -r 4
Komento: dcgm diag -r 4 esimerkki

 

Diagnostiikka saattaa jättää huomiotta joitakin virheitä niiden kapean luonteen, kuormitusspesifisyyden tai niiden havaitsemisen vuoksi tarvitaan pitkiä käyttöaikoja.
Jos näet virheen, tutki sitä ymmärtääksesi täysin sen luonteen.
Aloita vetämällä nvidia-bug-report.sh -komento (vain Linux-käyttöjärjestelmän natiivikäyttöjärjestelmä, ei Windowsia) ja tarkista tulostiedosto.

 

Esimerkkejä muistihälytyksen epäonnistumisesta:
Alla olevassa esimerkissä DCGM Health Monitor otettiin käyttöön ja käynnistettiin tarkistamalla kaikki palvelimeen asennetut grafiikkasuorittimet. GPU3 varoitti SBE:istä (yhden bitin virheistä) ja ajurista, joka haluaa poistaa vaikutuksen alaisen muistiosoitteen.
Komento: dcgmi health -s a (tämä käynnistää terveyspalvelun ja " a" käskee sitä katsomaan kaiken)
Komento: dcgmi health -c (tämä tarkistaa kaikki löydetyt GPU: t ja raportoi niistä)
dcgmi-komennon esimerkki

 

Toinen paikka, jossa voit nähdä, mitä muistivirheet ovat alla olevasta lähdöstä. Muokattu näyttämään vain muistiin liittyvät kohteet, nähdään, että grafiikkasuorittimessa havaittiin 3 081 SBE: tä, ja koko elinkaaren kokonaismäärä oli 6 161. Näemme myös, että GPU: lla on yksi aiempi SBE: n eläkkeelle jäänyt sivu, jossa on ylimääräinen odottava sivu mustalla listalla.
Toinen paikka, josta näet, mitä muistivikoja on

 

Jos grafiikkasuorittimissa näkyy muistivirheitä, itse laite on nollattava. Tämä tehdään käynnistämällä koko järjestelmä uudelleen tai nollaamalla nvidia-smi GPU laitetta vastaan.
Kun ajuri on purettu, merkityt mustalla listalla olevat muistiosoitteet kartoitetaan. Kun ohjain latautuu uudelleen, GPU saa uuden osoitetaulukon, johon vaikutukset kohdistuvat, kuten PPR Intel-suorittimissa).
Jos grafiikkasuoritinta ei nollata, laskurit kasvavat usein haihtuvien laskurien ja koottujen laskureiden määrän kasvaessa. Tämä johtuu siitä, että grafiikkasuoritin sallii edelleen kyseisen osoitteen käytön, joten laskurit kasvavat joka kerta, kun se osuu.

 

Jos epäilet edelleen vikoja yhdessä tai useammassa grafiikkasuorittimessa, suorita NVIDIA fieldiags (629 diagnostics) perusteellisempi testi kohteena olevalle grafiikkasuorittimelle.

 

**VARMISTA, ETTÄ KÄYTÄT ASENNETUN GRAFIIKKASUORITTIMEN UUSIMPIA JA OIKEITA KENTTIÄ, TÄMÄ ON KRIITTISTÄ**.

Affected Products

C Series, Rack Servers, Tower Servers, XE Servers, PowerEdge XE8545, PowerEdge XE8640
Article Properties
Article Number: 000219485
Article Type: How To
Last Modified: 27 May 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.