PowerEdge: Installazione di NVIDIA DataCenter GPU Manager (DCGM) e modalità di esecuzione della diagnostica

Summary: Panoramica su come installare lo strumento DCGM (Datacenter GPU Manager) di NVIDIA in Linux (RHEL/Ubuntu) e su come eseguire e comprendere l'applicazione di diagnostica.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Come installare DCGM in Linux:

Questo link ipertestuale indirizza a un sito web esterno a Dell Technologies.
https://developer.nvidia.com/dcgm#DownloadsQuesto link ipertestuale indirizza a un sito web esterno a Dell Technologies.
https://github.com/NVIDIA/DCGMGuida utente e all'installazione di DCGM 3.3Questo link ipertestuale indirizza a un sito web esterno a Dell Technologies.

 

Installazione dell'ultima versione di DCGM
Scaricando e utilizzando il software, l'utente accetta di rispettare pienamente i termini e le condizioni della licenza Questo link ipertestuale indirizza a un sito web esterno a Dell Technologies.NVIDIA DCGM.
Si consiglia di utilizzare il driver del datacenter NVIDIA R450+ più recente che può essere scaricato dalla pagina Questo link ipertestuale indirizza a un sito web esterno a Dell Technologies.Download dei driver NVIDIA.
Come metodo consigliato, installare DCGM direttamente dai repository di rete CUDA. Tramite i repository sono disponibili anche versioni precedenti di DCGM.

 

Caratteristiche di DCGM:

  • Monitoraggio del comportamento della GPU
  • Gestione della configurazione GPU
  • Supervisione delle policy GPU
  • Diagnostica e integrità GPU
  • Contabilità GPU e statistiche di processo
  • Configurazione e monitoraggio di NVSwitch

 

Istruzioni di avvio rapido:

Ubuntu LTS
Configurare i metadati del repository di rete CUDA, chiave GPG L'esempio mostrato di seguito si riferisce a Ubuntu 20.04 su x86_64:

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb
$ sudo dpkg -i cuda-keyring_1.0-1_all.deb
$ sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /“

 

Installare DCGM.

$ sudo apt-get update
&& sudo apt-get install -y datacenter-gpu-manager

 

Red Hat
Configurare i metadati del repository di rete CUDA, chiave GPG L'esempio mostrato di seguito è per RHEL 8 su x86_64:

*Pro-Tip for RHEL 9 repo simply replace the 8 below with 9 in the URL string*
$ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo

 

Installare DCGM.

$ sudo dnf clean expire-cache \
&& sudo dnf install -y datacenter-gpu-manager
Set up the DCGM service
$ sudo systemctl --now enable nvidia-dcgm.

 

Come eseguire DCGM:

Datacenter GPU Manager (DCGM) è un modo più rapido per i clienti di testare le GPU dall'interno del sistema operativo. Ci sono quattro livelli di test. Esegui il test di livello 4 per ottenere risultati più approfonditi. In genere è necessario circa 1 ora e 30 minuti, ma questo può variare in base al tipo e alla quantità di GPU. Lo strumento consente al cliente di configurare i test per l'esecuzione automatica e di avvisare il cliente. Per saperne di più, visitate questo linkQuesto link ipertestuale indirizza a un sito web esterno a Dell Technologies.. Si consiglia di utilizzare sempre l'ultima versione, la versione 3.3 è l'ultima build.

 

 

Esempio 1:

Comando: dcgmi diag -r 1
Esempio: dcgmi diag -r 1

 

 

Esempio 2:

Comando: dcgmi diag -r 2
Esempio di comando: dcgmi diag -r 2

Esempio 3:

Comando: dcgm diag -r 3
Esempio di comando: dcgm diag -r 3

 

Esempio 4:

Comando: dcgm diag -r 4
Esempio: dcgm diag -r 4

 

La diagnostica potrebbe non rilevare alcuni errori a causa della loro natura di nicchia, della specificità dei carichi di lavoro o della necessità di tempi di esecuzione prolungati per rilevarli.
Se si rileva un errore, analizzarlo per comprenderne appieno la natura.
Iniziare tirando il nvidia-bug-report.sh (nativo solo per Linux OS, senza Windows) ed esaminare il file di output.

 

Esempi di errore di avviso della memoria:
Nell'esempio seguente si trattava dell'abilitazione e dell'avvio del monitoraggio dello stato DCGM con un controllo successivo su tutte le GPU installate nel server. Come si può notare, GPU3 ha generato un avviso relativo agli SBE (errori a bit singolo) e al driver che desidera ritirare l'indirizzo di memoria interessato.
Comando: dcgmi health -s a (questo avvia il servizio sanitario e la "A" gli dice di guardare tutto)
Comando: dcgmi health -c (verifica tutte le GPU rilevate e ne viene generato un report)
Esempio di comando DCGMI

 

È possibile vedere quali sono gli errori di memoria dall'output riportato di seguito. Modificato per mostrare solo gli elementi relativi alla memoria, possiamo notare che la GPU ha riscontrato 3.081 SBE, con un totale di durata di 6.161. Vediamo anche che la GPU ha una precedente pagina SBE ritirata con un'ulteriore lista nera di pagine in sospeso.
Un altro posto in cui puoi vedere quali sono gli errori di memoria

 

Nel caso in cui vengano visualizzati errori di memoria sulle GPU, è necessario reimpostare il dispositivo stesso. Ciò si ottiene riavviando l'intero sistema o eseguendo il reset della GPU nvidia-smi sul dispositivo.
Dopo aver scaricato il driver, viene eseguito il mapping dell'indirizzo di memoria contrassegnato nella blacklist. Quando il driver viene ricaricato, la GPU ottiene una nuova tabella degli indirizzi con gli indirizzi interessati bloccati, analogamente a PPR sulle CPU Intel.
La mancata reimpostazione della GPU spesso determina un incremento di contatori volatili e aggregati. Ciò è dovuto al fatto che la GPU consente ancora di utilizzare l'indirizzo interessato, quindi ogni volta che viene colpito i contatori aumentano.

 

Se si sospettano ancora guasti in una o più GPU, eseguire i fieldiag NVIDIA (diagnostica 629) per un test più approfondito sulla GPU di destinazione.

 

**ASSICURARSI DI UTILIZZARE I FIELDIAG PIÙ RECENTI E CORRETTI PER LA GPU INSTALLATA, QUESTO È FONDAMENTALE**.

Affected Products

C Series, Rack Servers, Tower Servers, XE Servers, PowerEdge XE8545, PowerEdge XE8640
Article Properties
Article Number: 000219485
Article Type: How To
Last Modified: 27 May 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.