PowerEdge: NVIDIA DCGM(DataCenter GPU Manager) 설치 및 진단 실행 방법

Summary: Linux(RHEL/Ubuntu)에 NVIDIA의 DCGM(Datacenter GPU Manager) 툴을 설치하는 방법과 진단 애플리케이션을 실행하고 이해하는 방법에 대한 개요입니다.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Linux에서 DCGM을 설치하는 방법:

이 하이퍼링크는 Dell Technologies 외부의 웹사이트로 연결됩니다.
https://developer.nvidia.com/dcgm#Downloads이 하이퍼링크는 Dell Technologies 외부의 웹사이트로 연결됩니다.
https://github.com/NVIDIA/DCGMDCGM 3.3 사용자 및 설치 가이드이 하이퍼링크는 Dell Technologies 외부의 웹사이트로 연결됩니다.

 

최신 DCGM
설치 소프트웨어를 다운로드하고 사용함으로써 귀하는 NVIDIA DCGM 라이선스이 하이퍼링크는 Dell Technologies 외부의 웹사이트로 연결됩니다.의 이용 약관을 완전히 준수하는 데 동의하는 것입니다.
NVIDIA 드라이버 다운로드 페이지에서이 하이퍼링크는 Dell Technologies 외부의 웹사이트로 연결됩니다. 다운로드할 수 있는 최신 R450+ NVIDIA 데이터 센터 드라이버를 사용하는 것이 좋습니다.
권장되는 방법은 CUDA 네트워크 리포지토리에서 DCGM을 직접 설치하는 것입니다. 이전 DCGM 릴리스는 리포지토리에서도 사용할 수 있습니다.

 

DCGM의 특징:

  • GPU 동작 모니터링
  • GPU 구성 관리
  • GPU 정책 감독
  • GPU 상태 및 진단
  • GPU 계산 및 프로세스 통계
  • NVSwitch 구성 및 모니터링

 

빠른 시작 지침:

우분투 LTS
CUDA 네트워크 리포지토리 메타데이터, GPG 키 설정 아래 예는 x86_64의 Ubuntu 20.04에 대한 것입니다.

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb
$ sudo dpkg -i cuda-keyring_1.0-1_all.deb
$ sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /“

 

DCGM을 설치합니다.

$ sudo apt-get update
&& sudo apt-get install -y datacenter-gpu-manager

 

Red Hat
CUDA 네트워크 리포지토리 메타데이터, GPG 키 설정 아래 예는 x86_64 기반 RHEL 8에 대한 것입니다.

*Pro-Tip for RHEL 9 repo simply replace the 8 below with 9 in the URL string*
$ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo

 

DCGM을 설치합니다.

$ sudo dnf clean expire-cache \
&& sudo dnf install -y datacenter-gpu-manager
Set up the DCGM service
$ sudo systemctl --now enable nvidia-dcgm.

 

DCGM 실행 방법:

DCGM(Datacenter GPU Manager)을 사용하면 OS 내에서 GPU를 더 빠르게 테스트할 수 있습니다. 테스트에는 네 가지 수준이 있습니다. 가장 심층적인 결과를 얻으려면 수준 4 테스트를 실행합니다. 일반적으로 약 1시간 30분이 소요되지만 GPU 유형 및 수량에 따라 다를 수 있습니다. 이 툴을 사용하면 고객이 테스트가 자동으로 실행되도록 구성하고 고객에게 알릴 수 있습니다. 자세한 내용은 이 링크이 하이퍼링크는 Dell Technologies 외부의 웹사이트로 연결됩니다.에서 확인할 수 있습니다. 항상 최신 버전을 사용하는 것이 좋으며 버전 3.3은 최신 빌드입니다.

 

 

예 #1:

명령: dcgmi diag -r 1
명령: dcgmi diag -r 1 example

 

 

예 #2:

명령: dcgmi diag -r 2
명령: dcgmi diag -r 2 example

예 #3:

명령: dcgm diag -r 3
명령: dcgm diag -r 3 example

 

예 #4:

명령: dcgm diag -r 4
명령: dcgm diag -r 4 example

 

진단 프로그램은 틈새 특성, 워크로드 특이성 또는 오류를 감지하기 위해 연장된 실행 시간이 필요하기 때문에 일부 오류를 놓칠 수 있습니다.
오류가 발생하면 오류를 조사하여 오류의 특성을 완전히 이해하십시오.
당기는 것부터 시작합니다. nvidia-bug-report.sh 명령(Linux OS 전용, Windows 없음)을 실행하고 출력 파일을 검토합니다.

 

메모리 알림 오류의 예:
아래 예는 DCGM 상태 모니터를 활성화하고 시작하여 서버에 설치된 모든 GPU에 대한 후속 검사를 진행했습니다. GPU3에서 SBE(Single Bit Errors)에 대한 경고와 영향을 받는 메모리 주소를 폐기하려는 드라이버를 확인할 수 있습니다.
명령: dcgmi health -s a (이렇게 하면 상태 서비스가 시작되고 "A"는 모든 것을 감시하도록 지시합니다.)
명령: dcgmi health -c (검색된 모든 GPU를 확인하고 다시 보고합니다.)
DCGMI 명령 예

 

또 다른 곳에서 아래 출력에서 메모리 결함이 무엇인지 확인할 수 있습니다. 메모리 관련 항목만 표시하도록 편집하면 GPU에서 3,081개의 SBE가 발생했으며 총 총 개수는 6,161개임을 알 수 있습니다. 또한 GPU에는 보류 중인 페이지 블랙리스트가 있는 이전 SBE 폐기 페이지가 하나 있습니다.
메모리 오류가 무엇인지 볼 수 있는 또 다른 곳입니다.

 

GPU에 메모리 장애가 발생하면 디바이스 자체를 재설정해야 합니다. 이 작업은 전체 시스템을 재부팅하거나 디바이스에 대해 nvidia-smi GPU 재설정을 실행하여 수행됩니다.
드라이버가 언로드되면 표시된 블랙리스트 메모리 주소가 매핑됩니다. 드라이버가 다시 로드되면 GPU는 Intel CPU의 PPR과 유사하게 영향을 받는 주소가 차단된 새 주소 테이블을 가져옵니다.
GPU를 재설정하지 않으면 종종 휘발성 및 집계 카운터가 증가합니다. 이는 GPU가 영향을 받는 주소를 계속 사용할 수 있기 때문에 적중될 때마다 카운터가 증가하기 때문입니다.

 

하나 이상의 GPU에서 여전히 결함이 의심되는 경우 NVIDIA 필드(629 진단)를 실행하여 대상 GPU에 대한 보다 심층적인 테스트를 수행합니다.

 

**설치된 GPU에 대해 올바른 최신 필드를 사용해야 합니다. 이는 매우 중요합니다**.

Affected Products

C Series, Rack Servers, Tower Servers, XE Servers, PowerEdge XE8545, PowerEdge XE8640
Article Properties
Article Number: 000219485
Article Type: How To
Last Modified: 27 May 2025
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.