PowerEdge: NVIDIA DCGM(DataCenter GPU Manager) 설치 및 진단 실행 방법

요약: Linux(RHEL/Ubuntu)에 NVIDIA의 DCGM(Datacenter GPU Manager) 툴을 설치하는 방법과 진단 애플리케이션을 실행하고 이해하는 방법에 대한 개요입니다.

이 문서는 다음에 적용됩니다. 이 문서는 다음에 적용되지 않습니다. 이 문서는 특정 제품과 관련이 없습니다. 모든 제품 버전이 이 문서에 나와 있는 것은 아닙니다.

지침

Linux에서 DCGM을 설치하는 방법:

이 하이퍼링크는 Dell Technologies 외부의 웹사이트로 연결됩니다.
https://developer.nvidia.com/dcgm#Downloads이 하이퍼링크는 Dell Technologies 외부의 웹사이트로 연결됩니다.
https://github.com/NVIDIA/DCGMDCGM 3.3 사용자 및 설치 가이드이 하이퍼링크는 Dell Technologies 외부의 웹사이트로 연결됩니다.

 

최신 DCGM
설치 소프트웨어를 다운로드하고 사용함으로써 귀하는 NVIDIA DCGM 라이선스이 하이퍼링크는 Dell Technologies 외부의 웹사이트로 연결됩니다.의 이용 약관을 완전히 준수하는 데 동의하는 것입니다.
NVIDIA 드라이버 다운로드 페이지에서이 하이퍼링크는 Dell Technologies 외부의 웹사이트로 연결됩니다. 다운로드할 수 있는 최신 R450+ NVIDIA 데이터 센터 드라이버를 사용하는 것이 좋습니다.
권장되는 방법은 CUDA 네트워크 리포지토리에서 DCGM을 직접 설치하는 것입니다. 이전 DCGM 릴리스는 리포지토리에서도 사용할 수 있습니다.

 

DCGM의 특징:

  • GPU 동작 모니터링
  • GPU 구성 관리
  • GPU 정책 감독
  • GPU 상태 및 진단
  • GPU 계산 및 프로세스 통계
  • NVSwitch 구성 및 모니터링

 

빠른 시작 지침:

우분투 LTS
CUDA 네트워크 리포지토리 메타데이터, GPG 키 설정 아래 예는 x86_64의 Ubuntu 20.04에 대한 것입니다.

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb
$ sudo dpkg -i cuda-keyring_1.0-1_all.deb
$ sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /“

 

DCGM을 설치합니다.

$ sudo apt-get update
&& sudo apt-get install -y datacenter-gpu-manager

 

Red Hat
CUDA 네트워크 리포지토리 메타데이터, GPG 키 설정 아래 예는 x86_64 기반 RHEL 8에 대한 것입니다.

*Pro-Tip for RHEL 9 repo simply replace the 8 below with 9 in the URL string*
$ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo

 

DCGM을 설치합니다.

$ sudo dnf clean expire-cache \
&& sudo dnf install -y datacenter-gpu-manager
Set up the DCGM service
$ sudo systemctl --now enable nvidia-dcgm.

 

DCGM 실행 방법:

DCGM(Datacenter GPU Manager)을 사용하면 OS 내에서 GPU를 더 빠르게 테스트할 수 있습니다. 테스트에는 네 가지 수준이 있습니다. 가장 심층적인 결과를 얻으려면 수준 4 테스트를 실행합니다. 일반적으로 약 1시간 30분이 소요되지만 GPU 유형 및 수량에 따라 다를 수 있습니다. 이 툴을 사용하면 고객이 테스트가 자동으로 실행되도록 구성하고 고객에게 알릴 수 있습니다. 자세한 내용은 이 링크이 하이퍼링크는 Dell Technologies 외부의 웹사이트로 연결됩니다.에서 확인할 수 있습니다. 항상 최신 버전을 사용하는 것이 좋으며 버전 3.3은 최신 빌드입니다.

 

 

예 #1:

명령: dcgmi diag -r 1
명령: dcgmi diag -r 1 example

 

 

예 #2:

명령: dcgmi diag -r 2
명령: dcgmi diag -r 2 example

예 #3:

명령: dcgm diag -r 3
명령: dcgm diag -r 3 example

 

예 #4:

명령: dcgm diag -r 4
명령: dcgm diag -r 4 example

 

진단 프로그램은 틈새 특성, 워크로드 특이성 또는 오류를 감지하기 위해 연장된 실행 시간이 필요하기 때문에 일부 오류를 놓칠 수 있습니다.
오류가 발생하면 오류를 조사하여 오류의 특성을 완전히 이해하십시오.
당기는 것부터 시작합니다. nvidia-bug-report.sh 명령(Linux OS 전용, Windows 없음)을 실행하고 출력 파일을 검토합니다.

 

메모리 알림 오류의 예:
아래 예는 DCGM 상태 모니터를 활성화하고 시작하여 서버에 설치된 모든 GPU에 대한 후속 검사를 진행했습니다. GPU3에서 SBE(Single Bit Errors)에 대한 경고와 영향을 받는 메모리 주소를 폐기하려는 드라이버를 확인할 수 있습니다.
명령: dcgmi health -s a (이렇게 하면 상태 서비스가 시작되고 "A"는 모든 것을 감시하도록 지시합니다.)
명령: dcgmi health -c (검색된 모든 GPU를 확인하고 다시 보고합니다.)
DCGMI 명령 예

 

또 다른 곳에서 아래 출력에서 메모리 결함이 무엇인지 확인할 수 있습니다. 메모리 관련 항목만 표시하도록 편집하면 GPU에서 3,081개의 SBE가 발생했으며 총 총 개수는 6,161개임을 알 수 있습니다. 또한 GPU에는 보류 중인 페이지 블랙리스트가 있는 이전 SBE 폐기 페이지가 하나 있습니다.
메모리 오류가 무엇인지 볼 수 있는 또 다른 곳입니다.

 

GPU에 메모리 장애가 발생하면 디바이스 자체를 재설정해야 합니다. 이 작업은 전체 시스템을 재부팅하거나 디바이스에 대해 nvidia-smi GPU 재설정을 실행하여 수행됩니다.
드라이버가 언로드되면 표시된 블랙리스트 메모리 주소가 매핑됩니다. 드라이버가 다시 로드되면 GPU는 Intel CPU의 PPR과 유사하게 영향을 받는 주소가 차단된 새 주소 테이블을 가져옵니다.
GPU를 재설정하지 않으면 종종 휘발성 및 집계 카운터가 증가합니다. 이는 GPU가 영향을 받는 주소를 계속 사용할 수 있기 때문에 적중될 때마다 카운터가 증가하기 때문입니다.

 

하나 이상의 GPU에서 여전히 결함이 의심되는 경우 NVIDIA 필드(629 진단)를 실행하여 대상 GPU에 대한 보다 심층적인 테스트를 수행합니다.

 

**설치된 GPU에 대해 올바른 최신 필드를 사용해야 합니다. 이는 매우 중요합니다**.

해당 제품

C Series, Rack Servers, Tower Servers, XE Servers, PowerEdge XE8545, PowerEdge XE8640
문서 속성
문서 번호: 000219485
문서 유형: How To
마지막 수정 시간: 27 5월 2025
버전:  5
다른 Dell 사용자에게 질문에 대한 답변 찾기
지원 서비스
디바이스에 지원 서비스가 적용되는지 확인하십시오.