PowerEdge: NVIDIA DataCenter GPU Managerin (DCGM) asentaminen ja diagnostiikan suorittaminen
Summary: Yleiskatsaus NVIDIAn DCGM (datacenter GPU manager) -työkalun asentamiseen Linuxiin (RHEL/Ubuntu) sekä diagnostiikkasovelluksen suorittamiseen ja ymmärtämiseen.
Instructions
Kuinka asentaa DCGM Linuxiin:
https://developer.nvidia.com/dcgm#Downloads
https://github.com/NVIDIA/DCGMDCGM 3.3:n käyttö- ja asennusopas
Uusimman DCGM
:n asentaminen Lataamalla ohjelmiston ja käyttämällä sitä sitoudut noudattamaan NVIDIA DCGM -lisenssin ehtoja.
Suosittelemme, että käytät uusinta R450+ NVIDIA -konesaliajuria, jonka voi ladata NVIDIA-ohjainten lataussivulta.
Suositeltuna tapana on asentaa DCGM suoraan CUDA-verkkosäilöistä. Säilöistä on saatavilla myös vanhempia DCGM-versioita.
DCGM:n ominaisuudet:
- Grafiikkasuorittimen toiminnan valvonta
- Grafiikkasuoritinkokoonpanon hallinta
- Grafiikkasuoritinkäytännön valvonta
- Grafiikkasuorittimen kunto ja diagnostiikka
- GPU: n kirjanpito- ja prosessitilastot
- NVSwitch-määritys ja valvonta
Pika-aloitusohjeet:
Ubuntu LTS
Määritä CUDA-verkkosäilön metatiedot, GPG-avain Alla oleva esimerkki koskee Ubuntu 20.04:ää x86_64:
$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb $ sudo dpkg -i cuda-keyring_1.0-1_all.deb $ sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /“
Asenna DCGM.
$ sudo apt-get update && sudo apt-get install -y datacenter-gpu-manager
Punainen hattu
CUDA-verkkosäilön metatietojen määrittäminen, GPG-avain Alla oleva esimerkki koskee RHEL 8:aa x86_64:
*Pro-Tip for RHEL 9 repo simply replace the 8 below with 9 in the URL string* $ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
Asenna DCGM.
$ sudo dnf clean expire-cache \ && sudo dnf install -y datacenter-gpu-manager Set up the DCGM service $ sudo systemctl --now enable nvidia-dcgm.
DCGM:n suorittaminen:
Datacenter GPU Manager (DCGM) on asiakkaille nopeampi tapa testata grafiikkasuorittimia käyttöjärjestelmässä. Testejä on neljä. Suorita tason 4 testi saadaksesi perusteellisimmat tulokset. Se kestää yleensä noin 1 h 30 minuuttia, mutta tämä voi vaihdella grafiikkasuorittimen tyypin ja määrän mukaan. Työkalu voi määrittää testit suoritettavaksi automaattisesti ja varoittamaan asiakasta. Löydät siitä lisää tästä linkistä. Suosittelemme käyttämään aina uusinta versiota, versio 3.3 on uusin koontiversio.
Esimerkki 1:
Komento: dcgmi diag -r 1
Esimerkki 2:
Komento: dcgmi diag -r 2
Esimerkki 3:
Komento: dcgm diag -r 3
Esimerkki 4:
Komento: dcgm diag -r 4
Diagnostiikka saattaa jättää huomiotta joitakin virheitä niiden kapean luonteen, kuormitusspesifisyyden tai niiden havaitsemisen vuoksi tarvitaan pitkiä käyttöaikoja.
Jos näet virheen, tutki sitä ymmärtääksesi täysin sen luonteen.
Aloita vetämällä nvidia-bug-report.sh -komento (vain Linux-käyttöjärjestelmän natiivikäyttöjärjestelmä, ei Windowsia) ja tarkista tulostiedosto.
Esimerkkejä muistihälytyksen epäonnistumisesta:
Alla olevassa esimerkissä DCGM Health Monitor otettiin käyttöön ja käynnistettiin tarkistamalla kaikki palvelimeen asennetut grafiikkasuorittimet. GPU3 varoitti SBE:istä (yhden bitin virheistä) ja ajurista, joka haluaa poistaa vaikutuksen alaisen muistiosoitteen.
Komento: dcgmi health -s a (tämä käynnistää terveyspalvelun ja " a" käskee sitä katsomaan kaiken)
Komento: dcgmi health -c (tämä tarkistaa kaikki löydetyt GPU: t ja raportoi niistä)
Toinen paikka, jossa voit nähdä, mitä muistivirheet ovat alla olevasta lähdöstä. Muokattu näyttämään vain muistiin liittyvät kohteet, nähdään, että grafiikkasuorittimessa havaittiin 3 081 SBE: tä, ja koko elinkaaren kokonaismäärä oli 6 161. Näemme myös, että GPU: lla on yksi aiempi SBE: n eläkkeelle jäänyt sivu, jossa on ylimääräinen odottava sivu mustalla listalla.
Jos grafiikkasuorittimissa näkyy muistivirheitä, itse laite on nollattava. Tämä tehdään käynnistämällä koko järjestelmä uudelleen tai nollaamalla nvidia-smi GPU laitetta vastaan.
Kun ajuri on purettu, merkityt mustalla listalla olevat muistiosoitteet kartoitetaan. Kun ohjain latautuu uudelleen, GPU saa uuden osoitetaulukon, johon vaikutukset kohdistuvat, kuten PPR Intel-suorittimissa).
Jos grafiikkasuoritinta ei nollata, laskurit kasvavat usein haihtuvien laskurien ja koottujen laskureiden määrän kasvaessa. Tämä johtuu siitä, että grafiikkasuoritin sallii edelleen kyseisen osoitteen käytön, joten laskurit kasvavat joka kerta, kun se osuu.
Jos epäilet edelleen vikoja yhdessä tai useammassa grafiikkasuorittimessa, suorita NVIDIA fieldiags (629 diagnostics) perusteellisempi testi kohteena olevalle grafiikkasuorittimelle.
**VARMISTA, ETTÄ KÄYTÄT ASENNETUN GRAFIIKKASUORITTIMEN UUSIMPIA JA OIKEITA KENTTIÄ, TÄMÄ ON KRIITTISTÄ**.