PowerEdge: NVIDIA 드라이버 오류: NVIDIA 드라이버와 통신할 수 없기 때문에 nvidia-smi가 실패했습니다.

요약: nvidia-smi 명령을 실행할 때 "NVIDIA 드라이버와 통신할 수 없어 nvidia-smi가 실패했습니다.

이 문서는 다음에 적용됩니다. 이 문서는 다음에 적용되지 않습니다. 이 문서는 특정 제품과 관련이 없습니다. 모든 제품 버전이 이 문서에 나와 있는 것은 아닙니다.

증상

nvidia-smi 명령이 실행되지 않고 오류 메시지가 반환됩니다.

nvidia-smi has failed because it could not communicate with the NVIDIA driver.

실행 시 NVIDIA GPU 정보가 표시되지 않음 nvidia-smi명령을 수행할 수 있는 충분한 공간이 있어야 합니다.

nvidia-smi has failed because it could not communicate with the NVIDIA driver
nvidia-smi 실패 오류 메시지

NVRM: nvidia_ctl_session_announce failed as driver unload is in progress.
nvidia_ctl_session_announce 실패 메시지

 

원인

오류 "nvidia-smi has failed because it could not communicate with the NVIDIA driver"는 여러 요인으로 인해 발생할 수 있습니다.

  • NVIDIA 드라이버가 설치되지 않았거나 손상됨: NVIDIA 드라이버가 시스템에 설치되어 있지 않거나 설치가 손상되어 nvidia-smi 도구가 GPU와 상호 작용하려고 할 때 실패할 수 있습니다.

  • 드라이버 비 호환성 : 설치된 NVIDIA 드라이버 버전이 GPU 또는 운영 체제와 호환되지 않아 통신 문제가 발생할 수 있습니다.

  • NVIDIA 커널 모듈이 로드되지 않음: 필수 NVIDIA 커널 모듈(nvidia.ko)가 시스템에 로드되지 않아 시스템 간의 통신이 제대로 이루어지지 않을 수 있습니다. nvidia-smi 도구와 GPU.

  • GPU 초기화 실패: 부팅 중 또는 하드웨어 장애로 인해 GPU가 제대로 초기화되지 않았을 수 있습니다. nvidia-smi IT와 통신할 수 없습니다.

  • 충돌하는 드라이버 버전: 충돌하거나 여러 GPU 드라이버(예: Nouveau 오픈 소스 드라이버 또는 이전 NVIDIA 드라이버 버전)가 설치되어 시스템이 올바른 NVIDIA 드라이버를 로드하지 못할 수 있습니다.

  • 결함이 있는 하드웨어: GPU 자체에 물리적 오작동, 과열 또는 부적절한 연결과 같은 하드웨어 문제가 있을 수 있으며, 이로 인해 시스템이 GPU에 액세스할 수 없습니다.

  • 누락되거나 만료된 NVIDIA 라이선스(vGPU 설정의 경우): 가상화된 환경에서 NVIDIA vGPU 라이선스가 누락되거나 만료되면 드라이버가 제대로 작동하지 않아 통신 장애가 발생할 수 있습니다.

  • 시스템 업데이트 또는 커널 변경: 운영 체제 또는 커널 변경에 대한 최근 업데이트가 NVIDIA 드라이버의 호환성 또는 기능에 영향을 미쳐 오류가 발생할 수 있습니다.

    이 문제를 해결하려면 드라이버 설치를 확인하고 올바른 드라이버가 로드되었는지 확인하고 하드웨어와 소프트웨어가 호환되는지 확인하십시오.

 

해결

ESXi 7.0 이상에서 vGPU를 활성화하는 단계별 가이드:

  • NVIDIA vGPU Manager를 설치합니다.

    • NVIDIA 웹사이트에서 최신 NVIDIA vGPU Manager for VMware ESXi를 다운로드합니다이 하이퍼링크는 Dell Technologies 외부의 웹사이트로 연결됩니다..
    • SSH를 사용하여 ESXi 호스트에 액세스하거나 ESXi 셸을 사용하여 vGPU Manager 패키지를 설치합니다.
  • VM(Virtual Machine)에 NVIDIA vGPU 드라이버를 설치합니다.

    • vGPU를 사용하는 각 VM에 대해 게스트 운영 체제(예: Windows, Linux)에 적절한 NVIDIA GPU 드라이버를 설치합니다.
    • NVIDIA 웹사이트에서 특정 운영 체제에 대한 드라이버를 다운로드합니다.
    • 물리적 머신에서와 마찬가지로 VM 내부에 드라이버를 설치합니다.
  • ESXi 호스트를 재부팅합니다.

    • NVIDIA vGPU Manager를 설치한 후 ESXi 호스트를 재부팅하여 변경 사항을 적용합니다.
  • NVIDIA 드라이버가 로드되었는지 확인합니다.

    • 다음 명령을 실행합니다.
      esxcli system module list | grep nvidia
    • NVIDIA 커널 모듈이 로드되었는지 여부를 확인합니다.
  • NVIDIA 드라이버 수동 로드(로드되지 않은 경우):

    • NVIDIA 모듈이 로드되지 않은 경우 다음을 실행하여 수동으로 로드할 수 있습니다.
      esxcli system module load --module=nvidia
  • 하드웨어 가상화 활성화(활성화되지 않은 경우):

    • ESXi Host Client 또는 vSphere Client를 통해 ESXi 호스트에 로그인합니다.
    • 물리적 서버의 BIOS/UEFI에서 인텔 VT-x 또는 AMD-V 가 활성화되어 있는지 확인합니다. 이러한 옵션은 가상화에 필요합니다.
  • NVIDIA GPU가 감지되는지 확인합니다.

    • 다음 명령을 실행합니다.
      lspci | grep -i nvidia
    • ESXi에서 NVIDIA GPU가 감지되는지 확인합니다.
  • 시스템 로그에서 오류를 확인합니다.

    • 명령을 사용하여 NVIDIA 드라이버와 관련된 특정 오류 메시지를 찾습니다.
      tail -f /var/log/vmkernel.log
  • NVIDIA 관련 로그를 확인합니다.

    • 다음 위치에 있는 NVIDIA 관련 로그를 검토합니다.
      /var/log/nvidia-installer.log
  • vSphere에서 vGPU를 구성합니다.

    • vSphere Client를 열고 ESXi 호스트로 이동합니다.
    • vGPU를 사용하는 VM을 마우스 오른쪽 버튼으로 클릭하고 Edit Settings를 선택합니다.
    • VM 하드웨어 탭에서 새 디바이스 추가를 클릭하고 PCI 디바이스를 선택합니다.
    • VM에 할당할 NVIDIA GPU(vGPU) 를 선택합니다.
    • 사용 가능한 GPU 리소스 및 라이선스에 따라 원하는 vGPU 프로필 (예: GRID, vComputeServer 등)을 선택합니다.
  • vGPU 프로파일을 할당합니다.

    • VM을 구성할 때 각 VM에 할당할 물리적 GPU 리소스의 양을 결정하는 vGPU 프로필을 할당합니다. 프로파일 옵션은 GPU 모델에 따라 다릅니다.
  • NVIDIA 라이선스 구성:

    • ESXi 호스트에 올바른 NVIDIA vGPU 라이선스 가 설치되어 있는지 확인합니다.
    • vGPU 라이선스를 설치하거나 업데이트하려면 NVIDIA vGPU 패키지와 함께 제공되는 vGPU 라이선싱 유틸리티 를 사용합니다.
    • vGPU 기능이 제대로 작동하려면 라이선스가 필요하며 명령줄을 통해 ESXi 호스트에 적용할 수 있습니다.
  • vGPU가 활성화되었는지 확인합니다.

    • vGPU를 설정한 후 가상 머신에서 올바르게 인식되는지 확인합니다.
    • VM에 로그인하고 다음 명령을 실행합니다.
      nvidia-smi
    • 이렇게 하면 물리적 머신에 표시되는 방식과 유사한 가상 GPU의 상태가 표시됩니다.

 

추가 정보

Dell은 고객에게 enterprisesupport@nvidia.com 이메일을 보내거나 포털을 통해 웹 케이스를 제출하거나 전화로 연락하여 vGPU 관련 문제에 대해 NVIDIA에 케이스를 개설할 것을 제안해야 합니다.

웹 포털: https://www.nvidia.com/en-us/support/이 하이퍼링크는 Dell Technologies 외부의 웹사이트로 연결됩니다.

전화 지원:
NVIDIA 전화 지원

참고: Dell은 추가 지원을 위해 NVIDIA에 케이스를 시작할 수 있지만 Dell에서 라이선스를 발급하지 않은 경우 NVIDIA는 일반적으로 고객과 직접 작업하는 것을 선호합니다.

 

해당 제품

C Series, Rack Servers, Tower Servers, XE Servers, VMware ESXi 7.x, VMware ESXi 8.x, VMware OEM Products with ProSupport

제품

HS Series, OEM Server Solutions
문서 속성
문서 번호: 000252982
문서 유형: Solution
마지막 수정 시간: 24 6월 2026
버전:  4
다른 Dell 사용자에게 질문에 대한 답변 찾기
지원 서비스
디바이스에 지원 서비스가 적용되는지 확인하십시오.