XE 시스템: DCGMI 문제 해결을 위한 패키지 설치 방법 RHEL 록키
Podsumowanie: 문제 해결을 위한 DCGMI 로그를 수집하기 위해 Linux에서 DCGM(NVIDIA Data Center GPU Manager)을 설치하는 방법. RHEl/록키
Instrukcje
사전 요구 사항
DCGM을 실행하려면 타겟 시스템에 종속성 순서대로 나열된 다음 NVIDIA 구성 요소가 포함되어야 합니다.
- 지원되는 NVIDIA 데이터 센터 드라이버
- HGX(Hyperscale Graphics Extension) 시스템에서 Fabric Manager 및 NSCQ(NVSwitch Configuration and Query) 패키지
- DCGM 런타임 및 SDK
Red Hat 또는 Rocky 릴리스의 경우:
리포지토리 메타데이터 및 CUDA GPG 키를 설치합니다.[
arm64의 경우 x86_64를 "sbsa"로 바꾸거나 필요한 경우 ppc64le의 경우 "ppc64le"로 바꿉니다. Remove quotes]
배포판 결정:
distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \ --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo

리포지토리 메타데이터를 업데이트합니다.
sudo dnf clean expire-cache

이제 DCGM을 설치합니다.
sudo dnf install -y datacenter-gpu-manager

HGX 시스템(A100/A800 및 H100/H800)에서 NVSwitch를 폴링하려면 NVIDIA 스위치 구성을 설치해야 합니다. DCGM의 NSCQ 라이브러리를 쿼리하여 NVSwitch를 열거하고 스위치에 대한 텔레메트리를 제공합니다. NSCQ는 시스템에 설치된 드라이버 버전 분기(XXX)와 일치해야 합니다. 아래 명령에서 XXX를 필요한 드라이버 분기로 대체합니다.
sudo dnf module install nvidia-driver:XXX/fm
운영 체제에서 드라이버 버전을 쿼리합니다.
nvidia-smi

이 예에서는 드라이버 버전이 550으로 표시되므로 다음 명령을 사용합니다.
sudo dnf module install nvidia-driver:550/fm

DCGM systemd 서비스를 활성화하고(재부팅 시) 지금 시작합니다.
sudo systemctl --now enable nvidia-dcgm

설치를 확인하려면 dcgmi를 사용하여 시스템을 쿼리합니다. 시스템에서 지원되는 모든 GPU(및 모든 NVSwitch) 목록이 표시되어야 합니다. (스위치는 소문자 L입니다)
DCGMI 검색 -L
dcgmi discovery -l
[아래 예에는 NvSwitch가 없지만 NvSwitch가 있거나 감지되면 필드에 세부 정보가 채워집니다.]