PowerEdge: Installation af NVIDIA DataCenter GPU Manager (DCGM), og hvordan diagnosticering køres
Summary: Oversigt over, hvordan du installerer NVIDIAs DCGM-værktøj (datacenter GPU manager) i Linux (RHEL/Ubuntu), og hvordan du kører og forstår diagnosticeringsprogrammet.
Instructions
Sådan installeres DCGM i Linux:
https://developer.nvidia.com/dcgm#Downloads
https://github.com/NVIDIA/DCGMDCGM 3.3 – Bruger- og installationsvejledning
Installation af den nyeste DCGM
Ved at downloade og bruge softwaren accepterer du fuldt ud at overholde vilkårene og betingelserne i NVIDIA DCGM-licensen.
Det anbefales at bruge den nyeste R450+ NVIDIA-datacenterdriverdriver, der kan downloades fra siden Download af NVIDIA-drivere.
Som den anbefalede metode skal du installere DCGM direkte fra CUDA-netværkslagrene. Ældre DCGM-udgivelser er også tilgængelige fra lagrene.
Funktioner af DCGM:
- GPU-adfærdsovervågning
- GPU-konfigurationsstyring
- Overvågning af GPU-politik
- GPU-tilstand og -diagnosticering
- GPU-regnskabs- og processtatistik
- NVSwitch-konfiguration og -overvågning
Vejledning til hurtig start:
Ubuntu LTS
Konfigurer CUDA-netværkslagerets metadata, GPG-nøgle Eksemplet nedenfor er til Ubuntu 20.04 på x86_64:
$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb $ sudo dpkg -i cuda-keyring_1.0-1_all.deb $ sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /“
Installer DCGM.
$ sudo apt-get update && sudo apt-get install -y datacenter-gpu-manager
Rød hat
Konfigurer CUDA-netværkslagerets metadata, GPG-nøgle Eksemplet nedenfor er for RHEL 8 på x86_64:
*Pro-Tip for RHEL 9 repo simply replace the 8 below with 9 in the URL string* $ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
Installer DCGM.
$ sudo dnf clean expire-cache \ && sudo dnf install -y datacenter-gpu-manager Set up the DCGM service $ sudo systemctl --now enable nvidia-dcgm.
Sådan køres DCGM:
Datacenter GPU Manager (DCGM) er en hurtigere måde for kunder at teste GPU'er inde fra operativsystemet. Der er fire niveauer af tests. Kør niveau 4-testen for at få de mest dybdegående resultater. Det tager typisk omkring 1 time og 30 minutter, men dette kan variere afhængigt af GPU-typen og mængden. Værktøjet giver kunden mulighed for at konfigurere testene til at køre automatisk og advare kunden. Du kan finde mere om det fra dette link. Vi vil anbefale altid at bruge den nyeste version, version 3.3 er den nyeste build.
Eksempel nr. 1:
Kommando: dcgmi diag -r 1
Eksempel nr. 2:
Kommando: dcgmi diag -r 2
Eksempel nr. 3:
Kommando: dcgm diag -r 3
Eksempel nr. 4:
Kommando: dcgm diag -r 4
Diagnosticeringen kan gå glip af nogle fejl på grund af deres nichekarakter, arbejdsbelastningsspecificitet eller behovet for forlængede kørselstider for at registrere dem.
Hvis du ser en fejl, skal du undersøge den for fuldt ud at forstå arten af den.
Start med at trække i nvidia-bug-report.sh (kun indbygget i Linux OS, ingen vinduer), og gennemse outputfilen.
Eksempler på en hukommelsesadvarselsfejl:
Nedenstående eksempel var aktivering og start af DCGM Health monitor med en efterfølgende kontrol af alle installerede GPU'er på serveren. Du kan se, at GPU3 har produceret en advarsel om SBE'er (enkelt-bitfejl), og at driveren ønsker at trække den påvirkede hukommelsesadresse tilbage.
Kommando: dcgmi health -s a (Dette starter sundhedsvæsenet, og "A" fortæller det at se alt)
Kommando: dcgmi health -c (dette kontrollerer alle opdagede GPU'er og rapporterer tilbage om dem)
Et andet sted kan du se, hvad hukommelsesfejlene er fra outputtet nedenfor. Redigeret til kun at vise de hukommelsesrelaterede elementer kan vi se, at GPU'en stødte på 3,081 SBE'er med et samlet levetidsantal på 6,161. Vi ser også, at GPU'en har en tidligere SBE-pensioneret side med en ekstra afventende sidesortliste.
I tilfælde af at du ser hukommelsesfejl på GPU'er, skal selve enheden nulstilles. Dette opnås ved en genstart af hele systemet eller udstedelse af nvidia-smi GPU-nulstilling mod enheden.
Når driveren er aflæsset, kortlægges den markerede sortlistehukommelsesadresse. Når driveren genindlæses, får GPU'en en ny adressetabel med de berørte adresser blokeret, svarende til PPR på Intel CPU'er).
Manglende nulstilling af GPU'en fører ofte til flygtig og samlet forøgelse af tællere. Dette skyldes, at GPU'en stadig tillader at bruge den påvirkede adresse, så hver gang den rammes, øges tællerne.
Hvis du stadig har mistanke om fejl i en eller flere GPU'er, skal du køre NVIDIA fieldiags (629-diagnostik) for at få en mere dybdegående test på mål-GPU'en.
**SØRG FOR AT BRUGE DE NYESTE OG KORREKTE FIELDIAGS TIL DEN INSTALLEREDE GPU, DETTE ER KRITISK**.