PowerEdge: Installation af NVIDIA DataCenter GPU Manager (DCGM), og hvordan diagnosticering køres

Summary: Oversigt over, hvordan du installerer NVIDIAs DCGM-værktøj (datacenter GPU manager) i Linux (RHEL/Ubuntu), og hvordan du kører og forstår diagnosticeringsprogrammet.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Sådan installeres DCGM i Linux:

Dette hyperlink fører dig til et websted uden for Dell Technologies.
https://developer.nvidia.com/dcgm#DownloadsDette hyperlink fører dig til et websted uden for Dell Technologies.
https://github.com/NVIDIA/DCGMDCGM 3.3 – Bruger- og installationsvejledningDette hyperlink fører dig til et websted uden for Dell Technologies.

 

Installation af den nyeste DCGM
Ved at downloade og bruge softwaren accepterer du fuldt ud at overholde vilkårene og betingelserne i NVIDIA DCGM-licensenDette hyperlink fører dig til et websted uden for Dell Technologies..
Det anbefales at bruge den nyeste R450+ NVIDIA-datacenterdriverdriver, der kan downloades fra siden Dette hyperlink fører dig til et websted uden for Dell Technologies.Download af NVIDIA-drivere.
Som den anbefalede metode skal du installere DCGM direkte fra CUDA-netværkslagrene. Ældre DCGM-udgivelser er også tilgængelige fra lagrene.

 

Funktioner af DCGM:

  • GPU-adfærdsovervågning
  • GPU-konfigurationsstyring
  • Overvågning af GPU-politik
  • GPU-tilstand og -diagnosticering
  • GPU-regnskabs- og processtatistik
  • NVSwitch-konfiguration og -overvågning

 

Vejledning til hurtig start:

Ubuntu LTS
Konfigurer CUDA-netværkslagerets metadata, GPG-nøgle Eksemplet nedenfor er til Ubuntu 20.04 på x86_64:

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb
$ sudo dpkg -i cuda-keyring_1.0-1_all.deb
$ sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /“

 

Installer DCGM.

$ sudo apt-get update
&& sudo apt-get install -y datacenter-gpu-manager

 

Rød hat
Konfigurer CUDA-netværkslagerets metadata, GPG-nøgle Eksemplet nedenfor er for RHEL 8 på x86_64:

*Pro-Tip for RHEL 9 repo simply replace the 8 below with 9 in the URL string*
$ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo

 

Installer DCGM.

$ sudo dnf clean expire-cache \
&& sudo dnf install -y datacenter-gpu-manager
Set up the DCGM service
$ sudo systemctl --now enable nvidia-dcgm.

 

Sådan køres DCGM:

Datacenter GPU Manager (DCGM) er en hurtigere måde for kunder at teste GPU'er inde fra operativsystemet. Der er fire niveauer af tests. Kør niveau 4-testen for at få de mest dybdegående resultater. Det tager typisk omkring 1 time og 30 minutter, men dette kan variere afhængigt af GPU-typen og mængden. Værktøjet giver kunden mulighed for at konfigurere testene til at køre automatisk og advare kunden. Du kan finde mere om det fra dette linkDette hyperlink fører dig til et websted uden for Dell Technologies.. Vi vil anbefale altid at bruge den nyeste version, version 3.3 er den nyeste build.

 

 

Eksempel nr. 1:

Kommando: dcgmi diag -r 1
Kommando: dcgmi diag -r 1 eksempel

 

 

Eksempel nr. 2:

Kommando: dcgmi diag -r 2
Kommando: dcgmi diag -r 2 eksempel

Eksempel nr. 3:

Kommando: dcgm diag -r 3
Kommando: dcgm diag -r 3 eksempel

 

Eksempel nr. 4:

Kommando: dcgm diag -r 4
Kommando: dcgm diag -r 4 eksempel

 

Diagnosticeringen kan gå glip af nogle fejl på grund af deres nichekarakter, arbejdsbelastningsspecificitet eller behovet for forlængede kørselstider for at registrere dem.
Hvis du ser en fejl, skal du undersøge den for fuldt ud at forstå arten af den.
Start med at trække i nvidia-bug-report.sh (kun indbygget i Linux OS, ingen vinduer), og gennemse outputfilen.

 

Eksempler på en hukommelsesadvarselsfejl:
Nedenstående eksempel var aktivering og start af DCGM Health monitor med en efterfølgende kontrol af alle installerede GPU'er på serveren. Du kan se, at GPU3 har produceret en advarsel om SBE'er (enkelt-bitfejl), og at driveren ønsker at trække den påvirkede hukommelsesadresse tilbage.
Kommando: dcgmi health -s a (Dette starter sundhedsvæsenet, og "A" fortæller det at se alt)
Kommando: dcgmi health -c (dette kontrollerer alle opdagede GPU'er og rapporterer tilbage om dem)
Eksempel på DCGMI-kommando

 

Et andet sted kan du se, hvad hukommelsesfejlene er fra outputtet nedenfor. Redigeret til kun at vise de hukommelsesrelaterede elementer kan vi se, at GPU'en stødte på 3,081 SBE'er med et samlet levetidsantal på 6,161. Vi ser også, at GPU'en har en tidligere SBE-pensioneret side med en ekstra afventende sidesortliste.
Et andet sted kan du se, hvad hukommelsesfejlene er

 

I tilfælde af at du ser hukommelsesfejl på GPU'er, skal selve enheden nulstilles. Dette opnås ved en genstart af hele systemet eller udstedelse af nvidia-smi GPU-nulstilling mod enheden.
Når driveren er aflæsset, kortlægges den markerede sortlistehukommelsesadresse. Når driveren genindlæses, får GPU'en en ny adressetabel med de berørte adresser blokeret, svarende til PPR på Intel CPU'er).
Manglende nulstilling af GPU'en fører ofte til flygtig og samlet forøgelse af tællere. Dette skyldes, at GPU'en stadig tillader at bruge den påvirkede adresse, så hver gang den rammes, øges tællerne.

 

Hvis du stadig har mistanke om fejl i en eller flere GPU'er, skal du køre NVIDIA fieldiags (629-diagnostik) for at få en mere dybdegående test på mål-GPU'en.

 

**SØRG FOR AT BRUGE DE NYESTE OG KORREKTE FIELDIAGS TIL DEN INSTALLEREDE GPU, DETTE ER KRITISK**.

Affected Products

C Series, Rack Servers, Tower Servers, XE Servers, PowerEdge XE8545, PowerEdge XE8640
Article Properties
Article Number: 000219485
Article Type: How To
Last Modified: 27 May 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.