PowerEdge: Installazione di NVIDIA DataCenter GPU Manager (DCGM) e modalità di esecuzione della diagnostica
Summary: Panoramica su come installare lo strumento DCGM (Datacenter GPU Manager) di NVIDIA in Linux (RHEL/Ubuntu) e su come eseguire e comprendere l'applicazione di diagnostica.
Instructions
Come installare DCGM in Linux:
https://developer.nvidia.com/dcgm#Downloads
https://github.com/NVIDIA/DCGMGuida utente e all'installazione di DCGM 3.3
Installazione dell'ultima versione di DCGM
Scaricando e utilizzando il software, l'utente accetta di rispettare pienamente i termini e le condizioni della licenza NVIDIA DCGM.
Si consiglia di utilizzare il driver del datacenter NVIDIA R450+ più recente che può essere scaricato dalla pagina Download dei driver NVIDIA.
Come metodo consigliato, installare DCGM direttamente dai repository di rete CUDA. Tramite i repository sono disponibili anche versioni precedenti di DCGM.
Caratteristiche di DCGM:
- Monitoraggio del comportamento della GPU
- Gestione della configurazione GPU
- Supervisione delle policy GPU
- Diagnostica e integrità GPU
- Contabilità GPU e statistiche di processo
- Configurazione e monitoraggio di NVSwitch
Istruzioni di avvio rapido:
Ubuntu LTS
Configurare i metadati del repository di rete CUDA, chiave GPG L'esempio mostrato di seguito si riferisce a Ubuntu 20.04 su x86_64:
$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb $ sudo dpkg -i cuda-keyring_1.0-1_all.deb $ sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /“
Installare DCGM.
$ sudo apt-get update && sudo apt-get install -y datacenter-gpu-manager
Red Hat
Configurare i metadati del repository di rete CUDA, chiave GPG L'esempio mostrato di seguito è per RHEL 8 su x86_64:
*Pro-Tip for RHEL 9 repo simply replace the 8 below with 9 in the URL string* $ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
Installare DCGM.
$ sudo dnf clean expire-cache \ && sudo dnf install -y datacenter-gpu-manager Set up the DCGM service $ sudo systemctl --now enable nvidia-dcgm.
Come eseguire DCGM:
Datacenter GPU Manager (DCGM) è un modo più rapido per i clienti di testare le GPU dall'interno del sistema operativo. Ci sono quattro livelli di test. Esegui il test di livello 4 per ottenere risultati più approfonditi. In genere è necessario circa 1 ora e 30 minuti, ma questo può variare in base al tipo e alla quantità di GPU. Lo strumento consente al cliente di configurare i test per l'esecuzione automatica e di avvisare il cliente. Per saperne di più, visitate questo link. Si consiglia di utilizzare sempre l'ultima versione, la versione 3.3 è l'ultima build.
Esempio 1:
Comando: dcgmi diag -r 1
Esempio 2:
Comando: dcgmi diag -r 2
Esempio 3:
Comando: dcgm diag -r 3
Esempio 4:
Comando: dcgm diag -r 4
La diagnostica potrebbe non rilevare alcuni errori a causa della loro natura di nicchia, della specificità dei carichi di lavoro o della necessità di tempi di esecuzione prolungati per rilevarli.
Se si rileva un errore, analizzarlo per comprenderne appieno la natura.
Iniziare tirando il nvidia-bug-report.sh (nativo solo per Linux OS, senza Windows) ed esaminare il file di output.
Esempi di errore di avviso della memoria:
Nell'esempio seguente si trattava dell'abilitazione e dell'avvio del monitoraggio dello stato DCGM con un controllo successivo su tutte le GPU installate nel server. Come si può notare, GPU3 ha generato un avviso relativo agli SBE (errori a bit singolo) e al driver che desidera ritirare l'indirizzo di memoria interessato.
Comando: dcgmi health -s a (questo avvia il servizio sanitario e la "A" gli dice di guardare tutto)
Comando: dcgmi health -c (verifica tutte le GPU rilevate e ne viene generato un report)
È possibile vedere quali sono gli errori di memoria dall'output riportato di seguito. Modificato per mostrare solo gli elementi relativi alla memoria, possiamo notare che la GPU ha riscontrato 3.081 SBE, con un totale di durata di 6.161. Vediamo anche che la GPU ha una precedente pagina SBE ritirata con un'ulteriore lista nera di pagine in sospeso.
Nel caso in cui vengano visualizzati errori di memoria sulle GPU, è necessario reimpostare il dispositivo stesso. Ciò si ottiene riavviando l'intero sistema o eseguendo il reset della GPU nvidia-smi sul dispositivo.
Dopo aver scaricato il driver, viene eseguito il mapping dell'indirizzo di memoria contrassegnato nella blacklist. Quando il driver viene ricaricato, la GPU ottiene una nuova tabella degli indirizzi con gli indirizzi interessati bloccati, analogamente a PPR sulle CPU Intel.
La mancata reimpostazione della GPU spesso determina un incremento di contatori volatili e aggregati. Ciò è dovuto al fatto che la GPU consente ancora di utilizzare l'indirizzo interessato, quindi ogni volta che viene colpito i contatori aumentano.
Se si sospettano ancora guasti in una o più GPU, eseguire i fieldiag NVIDIA (diagnostica 629) per un test più approfondito sulla GPU di destinazione.
**ASSICURARSI DI UTILIZZARE I FIELDIAG PIÙ RECENTI E CORRETTI PER LA GPU INSTALLATA, QUESTO È FONDAMENTALE**.