PowerEdge: NVIDIA 드라이버 오류: NVIDIA 드라이버와 통신할 수 없기 때문에 nvidia-smi가 실패했습니다.

Summary: nvidia-smi 명령을 실행할 때 "NVIDIA 드라이버와 통신할 수 없어 nvidia-smi가 실패했습니다.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

nvidia-smi 명령이 실행되지 않고 오류 메시지가 반환됩니다.

nvidia-smi has failed because it could not communicate with the NVIDIA driver.

실행 시 NVIDIA GPU 정보가 표시되지 않음 nvidia-smi명령을 수행할 수 있는 충분한 공간이 있어야 합니다.

nvidia-smi has failed because it could not communicate with the NVIDIA driver
nvidia-smi 실패 오류 메시지

NVRM: nvidia_ctl_session_announce failed as driver unload is in progress.
nvidia_ctl_session_announce 실패 메시지

 

Cause

오류 "nvidia-smi has failed because it could not communicate with the NVIDIA driver"는 여러 요인으로 인해 발생할 수 있습니다.

  • NVIDIA 드라이버가 설치되지 않았거나 손상됨: NVIDIA 드라이버가 시스템에 설치되어 있지 않거나 설치가 손상되어 nvidia-smi 도구가 GPU와 상호 작용하려고 할 때 실패할 수 있습니다.

  • 드라이버 비 호환성 : 설치된 NVIDIA 드라이버 버전이 GPU 또는 운영 체제와 호환되지 않아 통신 문제가 발생할 수 있습니다.

  • NVIDIA 커널 모듈이 로드되지 않음: 필수 NVIDIA 커널 모듈(nvidia.ko)가 시스템에 로드되지 않아 시스템 간의 통신이 제대로 이루어지지 않을 수 있습니다. nvidia-smi 도구와 GPU.

  • GPU 초기화 실패: 부팅 중 또는 하드웨어 장애로 인해 GPU가 제대로 초기화되지 않았을 수 있습니다. nvidia-smi IT와 통신할 수 없습니다.

  • 충돌하는 드라이버 버전: 충돌하거나 여러 GPU 드라이버(예: Nouveau 오픈 소스 드라이버 또는 이전 NVIDIA 드라이버 버전)가 설치되어 시스템이 올바른 NVIDIA 드라이버를 로드하지 못할 수 있습니다.

  • 결함이 있는 하드웨어: GPU 자체에 물리적 오작동, 과열 또는 부적절한 연결과 같은 하드웨어 문제가 있을 수 있으며, 이로 인해 시스템이 GPU에 액세스할 수 없습니다.

  • 누락되거나 만료된 NVIDIA 라이선스(vGPU 설정의 경우): 가상화된 환경에서 NVIDIA vGPU 라이선스가 누락되거나 만료되면 드라이버가 제대로 작동하지 않아 통신 장애가 발생할 수 있습니다.

  • 시스템 업데이트 또는 커널 변경: 운영 체제 또는 커널 변경에 대한 최근 업데이트가 NVIDIA 드라이버의 호환성 또는 기능에 영향을 미쳐 오류가 발생할 수 있습니다.

    이 문제를 해결하려면 드라이버 설치를 확인하고 올바른 드라이버가 로드되었는지 확인하고 하드웨어와 소프트웨어가 호환되는지 확인하십시오.

 

Resolution

ESXi 7.0 이상에서 vGPU를 활성화하는 단계별 가이드:

  • NVIDIA vGPU Manager를 설치합니다.

    • NVIDIA 웹사이트에서 최신 NVIDIA vGPU Manager for VMware ESXi를 다운로드합니다이 하이퍼링크는 Dell Technologies 외부의 웹사이트로 연결됩니다..
    • SSH를 사용하여 ESXi 호스트에 액세스하거나 ESXi 셸을 사용하여 vGPU Manager 패키지를 설치합니다.
  • VM(Virtual Machine)에 NVIDIA vGPU 드라이버를 설치합니다.

    • vGPU를 사용하는 각 VM에 대해 게스트 운영 체제(예: Windows, Linux)에 적절한 NVIDIA GPU 드라이버를 설치합니다.
    • NVIDIA 웹사이트에서 특정 운영 체제에 대한 드라이버를 다운로드합니다.
    • 물리적 머신에서와 마찬가지로 VM 내부에 드라이버를 설치합니다.
  • ESXi 호스트를 재부팅합니다.

    • NVIDIA vGPU Manager를 설치한 후 ESXi 호스트를 재부팅하여 변경 사항을 적용합니다.
  • NVIDIA 드라이버가 로드되었는지 확인합니다.

    • 다음 명령을 실행합니다.
      esxcli system module list | grep nvidia
    • NVIDIA 커널 모듈이 로드되었는지 여부를 확인합니다.
  • NVIDIA 드라이버 수동 로드(로드되지 않은 경우):

    • NVIDIA 모듈이 로드되지 않은 경우 다음을 실행하여 수동으로 로드할 수 있습니다.
      esxcli system module load --module=nvidia
  • 하드웨어 가상화 활성화(활성화되지 않은 경우):

    • ESXi Host Client 또는 vSphere Client를 통해 ESXi 호스트에 로그인합니다.
    • 물리적 서버의 BIOS/UEFI에서 인텔 VT-x 또는 AMD-V 가 활성화되어 있는지 확인합니다. 이러한 옵션은 가상화에 필요합니다.
  • NVIDIA GPU가 감지되는지 확인합니다.

    • 다음 명령을 실행합니다.
      lspci | grep -i nvidia
    • ESXi에서 NVIDIA GPU가 감지되는지 확인합니다.
  • 시스템 로그에서 오류를 확인합니다.

    • 명령을 사용하여 NVIDIA 드라이버와 관련된 특정 오류 메시지를 찾습니다.
      tail -f /var/log/vmkernel.log
  • NVIDIA 관련 로그를 확인합니다.

    • 다음 위치에 있는 NVIDIA 관련 로그를 검토합니다.
      /var/log/nvidia-installer.log
  • vSphere에서 vGPU를 구성합니다.

    • vSphere Client를 열고 ESXi 호스트로 이동합니다.
    • vGPU를 사용하는 VM을 마우스 오른쪽 버튼으로 클릭하고 Edit Settings를 선택합니다.
    • VM 하드웨어 탭에서 새 디바이스 추가를 클릭하고 PCI 디바이스를 선택합니다.
    • VM에 할당할 NVIDIA GPU(vGPU) 를 선택합니다.
    • 사용 가능한 GPU 리소스 및 라이선스에 따라 원하는 vGPU 프로필 (예: GRID, vComputeServer 등)을 선택합니다.
  • vGPU 프로파일을 할당합니다.

    • VM을 구성할 때 각 VM에 할당할 물리적 GPU 리소스의 양을 결정하는 vGPU 프로필을 할당합니다. 프로파일 옵션은 GPU 모델에 따라 다릅니다.
  • NVIDIA 라이선스 구성:

    • ESXi 호스트에 올바른 NVIDIA vGPU 라이선스 가 설치되어 있는지 확인합니다.
    • vGPU 라이선스를 설치하거나 업데이트하려면 NVIDIA vGPU 패키지와 함께 제공되는 vGPU 라이선싱 유틸리티 를 사용합니다.
    • vGPU 기능이 제대로 작동하려면 라이선스가 필요하며 명령줄을 통해 ESXi 호스트에 적용할 수 있습니다.
  • vGPU가 활성화되었는지 확인합니다.

    • vGPU를 설정한 후 가상 머신에서 올바르게 인식되는지 확인합니다.
    • VM에 로그인하고 다음 명령을 실행합니다.
      nvidia-smi
    • 이렇게 하면 물리적 머신에 표시되는 방식과 유사한 가상 GPU의 상태가 표시됩니다.

 

Additional Information

Dell은 고객에게 enterprisesupport@nvidia.com 이메일을 보내거나 포털을 통해 웹 케이스를 제출하거나 전화로 연락하여 vGPU 관련 문제에 대해 NVIDIA에 케이스를 개설할 것을 제안해야 합니다.

웹 포털: https://www.nvidia.com/en-us/support/이 하이퍼링크는 Dell Technologies 외부의 웹사이트로 연결됩니다.

전화 지원:
NVIDIA 전화 지원

참고: Dell은 추가 지원을 위해 NVIDIA에 케이스를 시작할 수 있지만 Dell에서 라이선스를 발급하지 않은 경우 NVIDIA는 일반적으로 고객과 직접 작업하는 것을 선호합니다.

 

Affected Products

C Series, Rack Servers, Tower Servers, XE Servers, VMware ESXi 7.x, VMware ESXi 8.x, VMware OEM Products with ProSupport

Products

HS Series, OEM Server Solutions
Article Properties
Article Number: 000252982
Article Type: Solution
Last Modified: 08 Nov 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.