PowerEdge: Installation af NVIDIA DataCenter GPU Manager (DCGM), og hvordan diagnosticering køres

Summary: Oversigt over, hvordan du installerer NVIDIAs DCGM-værktøj (datacenter GPU manager) i Linux (RHEL/Ubuntu), og hvordan du kører og forstår diagnosticeringsprogrammet.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

Sådan installeres DCGM i Linux:

https://developer.nvidia.com/dcgm#Downloads
https://github.com/NVIDIA/DCGMDCGM 3.3 – Bruger- og installationsvejledning

Installation af den nyeste DCGM
Ved at downloade og bruge softwaren accepterer du fuldt ud at overholde vilkårene og betingelserne i NVIDIA DCGM-licensen.
Det anbefales at bruge den nyeste R450+ NVIDIA-datacenterdriverdriver, der kan downloades fra siden Download af NVIDIA-drivere.
Som den anbefalede metode skal du installere DCGM direkte fra CUDA-netværkslagrene. Ældre DCGM-udgivelser er også tilgængelige fra lagrene.

Funktioner af DCGM:

GPU-adfærdsovervågning
GPU-konfigurationsstyring
Overvågning af GPU-politik
GPU-tilstand og -diagnosticering
GPU-regnskabs- og processtatistik
NVSwitch-konfiguration og -overvågning

Vejledning til hurtig start:

Ubuntu LTS
Konfigurer CUDA-netværkslagerets metadata, GPG-nøgle Eksemplet nedenfor er til Ubuntu 20.04 på x86_64:

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb
$ sudo dpkg -i cuda-keyring_1.0-1_all.deb
$ sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /“

Installer DCGM.

$ sudo apt-get update
&& sudo apt-get install -y datacenter-gpu-manager

Rød hat
Konfigurer CUDA-netværkslagerets metadata, GPG-nøgle Eksemplet nedenfor er for RHEL 8 på x86_64:

*Pro-Tip for RHEL 9 repo simply replace the 8 below with 9 in the URL string*
$ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo

Installer DCGM.

$ sudo dnf clean expire-cache \
&& sudo dnf install -y datacenter-gpu-manager
Set up the DCGM service
$ sudo systemctl --now enable nvidia-dcgm.

Sådan køres DCGM:

Datacenter GPU Manager (DCGM) er en hurtigere måde for kunder at teste GPU'er inde fra operativsystemet. Der er fire niveauer af tests. Kør niveau 4-testen for at få de mest dybdegående resultater. Det tager typisk omkring 1 time og 30 minutter, men dette kan variere afhængigt af GPU-typen og mængden. Værktøjet giver kunden mulighed for at konfigurere testene til at køre automatisk og advare kunden. Du kan finde mere om det fra dette link. Vi vil anbefale altid at bruge den nyeste version, version 3.3 er den nyeste build.

Eksempel nr. 1:

Kommando: dcgmi diag -r 1
Kommando: dcgmi diag -r 1 eksempel

Eksempel nr. 2:

Kommando: dcgmi diag -r 2
Kommando: dcgmi diag -r 2 eksempel

Eksempel nr. 3:

Kommando: dcgm diag -r 3
Kommando: dcgm diag -r 3 eksempel

Eksempel nr. 4:

Kommando: dcgm diag -r 4
Kommando: dcgm diag -r 4 eksempel

Diagnosticeringen kan gå glip af nogle fejl på grund af deres nichekarakter, arbejdsbelastningsspecificitet eller behovet for forlængede kørselstider for at registrere dem.
Hvis du ser en fejl, skal du undersøge den for fuldt ud at forstå arten af den.
Start med at trække i nvidia-bug-report.sh (kun indbygget i Linux OS, ingen vinduer), og gennemse outputfilen.

Eksempler på en hukommelsesadvarselsfejl:
Nedenstående eksempel var aktivering og start af DCGM Health monitor med en efterfølgende kontrol af alle installerede GPU'er på serveren. Du kan se, at GPU3 har produceret en advarsel om SBE'er (enkelt-bitfejl), og at driveren ønsker at trække den påvirkede hukommelsesadresse tilbage.
Kommando: dcgmi health -s a (Dette starter sundhedsvæsenet, og "A" fortæller det at se alt)
Kommando: dcgmi health -c (dette kontrollerer alle opdagede GPU'er og rapporterer tilbage om dem)
Eksempel på DCGMI-kommando

Et andet sted kan du se, hvad hukommelsesfejlene er fra outputtet nedenfor. Redigeret til kun at vise de hukommelsesrelaterede elementer kan vi se, at GPU'en stødte på 3,081 SBE'er med et samlet levetidsantal på 6,161. Vi ser også, at GPU'en har en tidligere SBE-pensioneret side med en ekstra afventende sidesortliste.
Et andet sted kan du se, hvad hukommelsesfejlene er

I tilfælde af at du ser hukommelsesfejl på GPU'er, skal selve enheden nulstilles. Dette opnås ved en genstart af hele systemet eller udstedelse af nvidia-smi GPU-nulstilling mod enheden.
Når driveren er aflæsset, kortlægges den markerede sortlistehukommelsesadresse. Når driveren genindlæses, får GPU'en en ny adressetabel med de berørte adresser blokeret, svarende til PPR på Intel CPU'er).
Manglende nulstilling af GPU'en fører ofte til flygtig og samlet forøgelse af tællere. Dette skyldes, at GPU'en stadig tillader at bruge den påvirkede adresse, så hver gang den rammes, øges tællerne.

Hvis du stadig har mistanke om fejl i en eller flere GPU'er, skal du køre NVIDIA fieldiags (629-diagnostik) for at få en mere dybdegående test på mål-GPU'en.

**SØRG FOR AT BRUGE DE NYESTE OG KORREKTE FIELDIAGS TIL DEN INSTALLEREDE GPU, DETTE ER KRITISK**.

Affected Products

C Series, Rack Servers, Tower Servers, XE Servers, PowerEdge XE8545, PowerEdge XE8640

Article Number: 000219485

Article Type: How To

Last Modified: 27 May 2025

Version: 5

Check if your device is covered by Support Services.

PowerEdge: Installation af NVIDIA DataCenter GPU Manager (DCGM), og hvordan diagnosticering køres

Summary: Oversigt over, hvordan du installerer NVIDIAs DCGM-værktøj (datacenter GPU manager) i Linux (RHEL/Ubuntu), og hvordan du kører og forstår diagnosticeringsprogrammet.

Instructions

Sådan installeres DCGM i Linux:

Funktioner af DCGM:

Vejledning til hurtig start:

Sådan køres DCGM:

Eksempel nr. 1:

Eksempel nr. 2:

Eksempel nr. 3:

Eksempel nr. 4:

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

PowerEdge: Installation af NVIDIA DataCenter GPU Manager (DCGM), og hvordan diagnosticering køres

Summary: Oversigt over, hvordan du installerer NVIDIAs DCGM-værktøj (datacenter GPU manager) i Linux (RHEL/Ubuntu), og hvordan du kører og forstår diagnosticeringsprogrammet.

Detailed Article

Instructions

Affected Products

Instructions

Sådan installeres DCGM i Linux:

Funktioner af DCGM:

Vejledning til hurtig start:

Sådan køres DCGM:

Eksempel nr. 1:

Eksempel nr. 2:

Eksempel nr. 3:

Eksempel nr. 4:

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services