PowerEdge: GPU 열 스로틀링 및 감지 문제를 해결하는 방법

요약: 이 문서는 사용자에게 Dell PowerEdge 서버의 GPU 열 스로틀링 및 탐지 문제를 진단하고 해결하는 방법을 안내합니다. GPU 온도 및 스로틀 상태 확인, 시스템 로그 검토, 냉각 개선, 하드웨어 설치 확인, BIOS/iDRAC 및 GPU 펌웨어 업데이트, nvidia-smi 및 DCGM과 같은 진단 유틸리티 실행을 다룹니다. ...

이 문서는 다음에 적용됩니다. 이 문서는 다음에 적용되지 않습니다. 이 문서는 특정 제품과 관련이 없습니다. 모든 제품 버전이 이 문서에 나와 있는 것은 아닙니다.

지침

준비

  • 관리자 권한으로 운영 체제에 액세스합니다.
  • 시스템 로그 및 설정을 보기 위한 iDRAC 또는 BIOS 액세스
  • NVIDIA/CUDA 드라이버 및 NVIDIA-smi 유틸리티가 설치되었습니다.
  • 하드웨어 검사를 위한 서버에 대한 물리적 액세스

작업 실행

  1. GPU 온도 및 스로틀 상태 확인
    • 운영 체제에서 다음 명령을 실행하여 GPU 성능 및 스로틀 상태를 확인합니다.
      nvidia-smi -q -d performance 
    • 스로틀 이유가 "활성화되지 않음"으로 표시되면 GPU가 정상적으로 작동하고 있는 것입니다.
  2. 시스템 온도 모니터링
    • iDRAC에서 SEL(System Event Log)을 확인합니다.
    • 수명주기 로그에서 온도 경고를 검토합니다.
    • 온도 개요 섹션에서 시스템 유입 온도를 확인합니다.
  3. 냉각 조건 개선
    • 데이터 센터 주변 온도가 지원되는 제한 범위 내에 있는지 확인합니다.
    • 랙의 공기 흐름 차단 장치를 제거합니다.
    • 모든 시스템 팬이 올바르게 작동하는지 확인합니다.
    • 가능한 경우 적절한 공기 흐름판과 GPU 냉각 키트를 설치합니다.
  4. GPU 하드웨어 설치 확인
    • GPU가 PCIe 슬롯에 올바르게 장착되었는지 확인합니다.
    • 전원 케이블 및 커넥터가 안전하게 연결되어 있는지 확인합니다.
    • GPU 모델이 서버 플랫폼에서 지원되는지 확인합니다.
  5. 시스템 펌웨어 업데이트
    • 서버 BIOS를 최신 버전으로 업데이트합니다.
    • iDRAC 펌웨어를 최신 버전으로 업데이트합니다.
    • GPU 드라이버 및 펌웨어를 최신 릴리스로 업데이트합니다.
  6. GPU 감지 확인
    • 다음 명령을 사용하여 시스템에서 GPU를 감지하는지 확인합니다.
      nvidia-smi 
    • GPU가 감지되지 않는 경우 BIOS 설정 및 하드웨어 설치를 검토하십시오.
  7. 다른 PCIe 슬롯에서 GPU 테스트
    • 서버 전원을 끄고 전원 케이블을 뽑습니다.
    • 현재 PCIe 슬롯에서 GPU를 제거합니다.
    • 지원되는 다른 PCIe 슬롯에 GPU를 설치합니다.
    • 전원을 다시 연결하고 시스템의 전원을 켭니다.
    • 를 사용하여 탐지 확인 nvidia-smi 또는 iDRAC 하드웨어 인벤토리를 통해 확인할 수 있습니다.
    • GPU가 새 슬롯에서 감지되는 경우 원래 슬롯에 구성 또는 하드웨어 문제가 있을 수 있습니다.
  8. GPU 진단 테스트 실행
    1. DCGMi 툴
    2. NVIDIA SMI 로그
      • Windows 업그레이드를 실행하라는 프롬프트에 아래 내용이 표시될 때까지# nvidia-smi GPU 사용량 및 상태에 대한 요약을 가져옵니다.
      • Windows 업그레이드를 실행하라는 프롬프트에 아래 내용이 표시될 때까지# nvidia-smi -q 자세한 GPU 정보를 확인할 수 있습니다.
      • Windows 업그레이드를 실행하라는 프롬프트에 아래 내용이 표시될 때까지# nvidia-smi nvlink -s 을 클릭하여 NVLink 상태 및 오류를 봅니다.
    3. OS 레벨 출력
      • Windows 업그레이드를 실행하라는 프롬프트에 아래 내용이 표시될 때까지
        # lspci -s 9b: 00.0 -vv
        GPU에 대한 PCIe 세부 정보를 보려면 (디바이스 ID를 적절하게 교체)

확인

  • GPU 온도가 정상 운영 범위 내로 유지되고 스로틀 상태가 "Not Active"로 표시됨
  • GPU가 의 출력에 나타납니다. nvidia-smi 및 iDRAC 하드웨어 인벤토리에서 확인할 수 있습니다.
  • 시스템 이벤트 로그에 온도 관련 경고가 없습니다.

해당 제품

Rack Servers

제품

Tower Servers, XE Servers
문서 속성
문서 번호: 000452203
문서 유형: How To
마지막 수정 시간: 05 5월 2026
버전:  1
다른 Dell 사용자에게 질문에 대한 답변 찾기
지원 서비스
디바이스에 지원 서비스가 적용되는지 확인하십시오.