PowerEdge: NVIDIA DCGM(DataCenter GPU Manager) 설치 및 진단 실행 방법
Summary: Linux(RHEL/Ubuntu)에 NVIDIA의 DCGM(Datacenter GPU Manager) 툴을 설치하는 방법과 진단 애플리케이션을 실행하고 이해하는 방법에 대한 개요입니다.
Instructions
Linux에서 DCGM을 설치하는 방법:
https://developer.nvidia.com/dcgm#Downloads
https://github.com/NVIDIA/DCGMDCGM 3.3 사용자 및 설치 가이드
최신 DCGM
설치 소프트웨어를 다운로드하고 사용함으로써 귀하는 NVIDIA DCGM 라이선스의 이용 약관을 완전히 준수하는 데 동의하는 것입니다.
NVIDIA 드라이버 다운로드 페이지에서 다운로드할 수 있는 최신 R450+ NVIDIA 데이터 센터 드라이버를 사용하는 것이 좋습니다.
권장되는 방법은 CUDA 네트워크 리포지토리에서 DCGM을 직접 설치하는 것입니다. 이전 DCGM 릴리스는 리포지토리에서도 사용할 수 있습니다.
DCGM의 특징:
- GPU 동작 모니터링
- GPU 구성 관리
- GPU 정책 감독
- GPU 상태 및 진단
- GPU 계산 및 프로세스 통계
- NVSwitch 구성 및 모니터링
빠른 시작 지침:
우분투 LTS
CUDA 네트워크 리포지토리 메타데이터, GPG 키 설정 아래 예는 x86_64의 Ubuntu 20.04에 대한 것입니다.
$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb $ sudo dpkg -i cuda-keyring_1.0-1_all.deb $ sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /“
DCGM을 설치합니다.
$ sudo apt-get update && sudo apt-get install -y datacenter-gpu-manager
Red Hat
CUDA 네트워크 리포지토리 메타데이터, GPG 키 설정 아래 예는 x86_64 기반 RHEL 8에 대한 것입니다.
*Pro-Tip for RHEL 9 repo simply replace the 8 below with 9 in the URL string* $ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
DCGM을 설치합니다.
$ sudo dnf clean expire-cache \ && sudo dnf install -y datacenter-gpu-manager Set up the DCGM service $ sudo systemctl --now enable nvidia-dcgm.
DCGM 실행 방법:
DCGM(Datacenter GPU Manager)을 사용하면 OS 내에서 GPU를 더 빠르게 테스트할 수 있습니다. 테스트에는 네 가지 수준이 있습니다. 가장 심층적인 결과를 얻으려면 수준 4 테스트를 실행합니다. 일반적으로 약 1시간 30분이 소요되지만 GPU 유형 및 수량에 따라 다를 수 있습니다. 이 툴을 사용하면 고객이 테스트가 자동으로 실행되도록 구성하고 고객에게 알릴 수 있습니다. 자세한 내용은 이 링크에서 확인할 수 있습니다. 항상 최신 버전을 사용하는 것이 좋으며 버전 3.3은 최신 빌드입니다.
예 #1:
명령: dcgmi diag -r 1
예 #2:
명령: dcgmi diag -r 2
예 #3:
명령: dcgm diag -r 3
예 #4:
명령: dcgm diag -r 4
진단 프로그램은 틈새 특성, 워크로드 특이성 또는 오류를 감지하기 위해 연장된 실행 시간이 필요하기 때문에 일부 오류를 놓칠 수 있습니다.
오류가 발생하면 오류를 조사하여 오류의 특성을 완전히 이해하십시오.
당기는 것부터 시작합니다. nvidia-bug-report.sh 명령(Linux OS 전용, Windows 없음)을 실행하고 출력 파일을 검토합니다.
메모리 알림 오류의 예:
아래 예는 DCGM 상태 모니터를 활성화하고 시작하여 서버에 설치된 모든 GPU에 대한 후속 검사를 진행했습니다. GPU3에서 SBE(Single Bit Errors)에 대한 경고와 영향을 받는 메모리 주소를 폐기하려는 드라이버를 확인할 수 있습니다.
명령: dcgmi health -s a (이렇게 하면 상태 서비스가 시작되고 "A"는 모든 것을 감시하도록 지시합니다.)
명령: dcgmi health -c (검색된 모든 GPU를 확인하고 다시 보고합니다.)
또 다른 곳에서 아래 출력에서 메모리 결함이 무엇인지 확인할 수 있습니다. 메모리 관련 항목만 표시하도록 편집하면 GPU에서 3,081개의 SBE가 발생했으며 총 총 개수는 6,161개임을 알 수 있습니다. 또한 GPU에는 보류 중인 페이지 블랙리스트가 있는 이전 SBE 폐기 페이지가 하나 있습니다.
GPU에 메모리 장애가 발생하면 디바이스 자체를 재설정해야 합니다. 이 작업은 전체 시스템을 재부팅하거나 디바이스에 대해 nvidia-smi GPU 재설정을 실행하여 수행됩니다.
드라이버가 언로드되면 표시된 블랙리스트 메모리 주소가 매핑됩니다. 드라이버가 다시 로드되면 GPU는 Intel CPU의 PPR과 유사하게 영향을 받는 주소가 차단된 새 주소 테이블을 가져옵니다.
GPU를 재설정하지 않으면 종종 휘발성 및 집계 카운터가 증가합니다. 이는 GPU가 영향을 받는 주소를 계속 사용할 수 있기 때문에 적중될 때마다 카운터가 증가하기 때문입니다.
하나 이상의 GPU에서 여전히 결함이 의심되는 경우 NVIDIA 필드(629 진단)를 실행하여 대상 GPU에 대한 보다 심층적인 테스트를 수행합니다.
**설치된 GPU에 대해 올바른 최신 필드를 사용해야 합니다. 이는 매우 중요합니다**.