PowerEdge: GPU 열 스로틀링 및 감지 문제를 해결하는 방법
요약: 이 문서는 사용자에게 Dell PowerEdge 서버의 GPU 열 스로틀링 및 탐지 문제를 진단하고 해결하는 방법을 안내합니다. GPU 온도 및 스로틀 상태 확인, 시스템 로그 검토, 냉각 개선, 하드웨어 설치 확인, BIOS/iDRAC 및 GPU 펌웨어 업데이트, nvidia-smi 및 DCGM과 같은 진단 유틸리티 실행을 다룹니다. ...
이 문서는 다음에 적용됩니다.
이 문서는 다음에 적용되지 않습니다.
이 문서는 특정 제품과 관련이 없습니다.
모든 제품 버전이 이 문서에 나와 있는 것은 아닙니다.
지침
준비
- 관리자 권한으로 운영 체제에 액세스합니다.
- 시스템 로그 및 설정을 보기 위한 iDRAC 또는 BIOS 액세스
- NVIDIA/CUDA 드라이버 및 NVIDIA-smi 유틸리티가 설치되었습니다.
- 하드웨어 검사를 위한 서버에 대한 물리적 액세스
작업 실행
- GPU 온도 및 스로틀 상태 확인
- 운영 체제에서 다음 명령을 실행하여 GPU 성능 및 스로틀 상태를 확인합니다.
nvidia-smi -q -d performance
- 스로틀 이유가 "활성화되지 않음"으로 표시되면 GPU가 정상적으로 작동하고 있는 것입니다.
- 운영 체제에서 다음 명령을 실행하여 GPU 성능 및 스로틀 상태를 확인합니다.
- 시스템 온도 모니터링
- iDRAC에서 SEL(System Event Log)을 확인합니다.
- 수명주기 로그에서 온도 경고를 검토합니다.
- 온도 개요 섹션에서 시스템 유입 온도를 확인합니다.
- 냉각 조건 개선
- 데이터 센터 주변 온도가 지원되는 제한 범위 내에 있는지 확인합니다.
- 랙의 공기 흐름 차단 장치를 제거합니다.
- 모든 시스템 팬이 올바르게 작동하는지 확인합니다.
- 가능한 경우 적절한 공기 흐름판과 GPU 냉각 키트를 설치합니다.
- GPU 하드웨어 설치 확인
- GPU가 PCIe 슬롯에 올바르게 장착되었는지 확인합니다.
- 전원 케이블 및 커넥터가 안전하게 연결되어 있는지 확인합니다.
- GPU 모델이 서버 플랫폼에서 지원되는지 확인합니다.
- 시스템 펌웨어 업데이트
- 서버 BIOS를 최신 버전으로 업데이트합니다.
- iDRAC 펌웨어를 최신 버전으로 업데이트합니다.
- GPU 드라이버 및 펌웨어를 최신 릴리스로 업데이트합니다.
- GPU 감지 확인
- 다음 명령을 사용하여 시스템에서 GPU를 감지하는지 확인합니다.
nvidia-smi
- GPU가 감지되지 않는 경우 BIOS 설정 및 하드웨어 설치를 검토하십시오.
- 다음 명령을 사용하여 시스템에서 GPU를 감지하는지 확인합니다.
- 다른 PCIe 슬롯에서 GPU 테스트
- 서버 전원을 끄고 전원 케이블을 뽑습니다.
- 현재 PCIe 슬롯에서 GPU를 제거합니다.
- 지원되는 다른 PCIe 슬롯에 GPU를 설치합니다.
- 전원을 다시 연결하고 시스템의 전원을 켭니다.
- 를 사용하여 탐지 확인
nvidia-smi또는 iDRAC 하드웨어 인벤토리를 통해 확인할 수 있습니다. - GPU가 새 슬롯에서 감지되는 경우 원래 슬롯에 구성 또는 하드웨어 문제가 있을 수 있습니다.
- GPU 진단 테스트 실행
- DCGMi 툴
- DCGM 유틸리티 참조
- 자세한 내용은 다음을 참조하십시오 . PowerEdge: NVIDIA DCGM(DataCenter GPU Manager) 설치 및 진단 실행 방법
- DCGM 유틸리티 참조
- NVIDIA SMI 로그
- Windows 업그레이드를 실행하라는 프롬프트에 아래 내용이 표시될 때까지
# nvidia-smiGPU 사용량 및 상태에 대한 요약을 가져옵니다. - Windows 업그레이드를 실행하라는 프롬프트에 아래 내용이 표시될 때까지
# nvidia-smi -q자세한 GPU 정보를 확인할 수 있습니다. - Windows 업그레이드를 실행하라는 프롬프트에 아래 내용이 표시될 때까지
# nvidia-smi nvlink -s을 클릭하여 NVLink 상태 및 오류를 봅니다.
- Windows 업그레이드를 실행하라는 프롬프트에 아래 내용이 표시될 때까지
- OS 레벨 출력
- Windows 업그레이드를 실행하라는 프롬프트에 아래 내용이 표시될 때까지
GPU에 대한 PCIe 세부 정보를 보려면 (디바이스 ID를 적절하게 교체)# lspci -s 9b: 00.0 -vv
- Windows 업그레이드를 실행하라는 프롬프트에 아래 내용이 표시될 때까지
- DCGMi 툴
확인
- GPU 온도가 정상 운영 범위 내로 유지되고 스로틀 상태가 "Not Active"로 표시됨
- GPU가 의 출력에 나타납니다.
nvidia-smi및 iDRAC 하드웨어 인벤토리에서 확인할 수 있습니다. - 시스템 이벤트 로그에 온도 관련 경고가 없습니다.
해당 제품
Rack Servers제품
Tower Servers, XE Servers문서 속성
문서 번호: 000452203
문서 유형: How To
마지막 수정 시간: 05 5월 2026
버전: 1
다른 Dell 사용자에게 질문에 대한 답변 찾기
지원 서비스
디바이스에 지원 서비스가 적용되는지 확인하십시오.