PowerEdge: NVIDIA 드라이버 오류: NVIDIA 드라이버와 통신할 수 없기 때문에 nvidia-smi가 실패했습니다.
Summary: nvidia-smi 명령을 실행할 때 "NVIDIA 드라이버와 통신할 수 없어 nvidia-smi가 실패했습니다.
Symptoms
이 nvidia-smi 명령이 실행되지 않고 오류 메시지가 반환됩니다.
nvidia-smi has failed because it could not communicate with the NVIDIA driver.
실행 시 NVIDIA GPU 정보가 표시되지 않음 nvidia-smi명령을 수행할 수 있는 충분한 공간이 있어야 합니다.
nvidia-smi has failed because it could not communicate with the NVIDIA driver
NVRM: nvidia_ctl_session_announce failed as driver unload is in progress.
Cause
오류 "nvidia-smi has failed because it could not communicate with the NVIDIA driver"는 여러 요인으로 인해 발생할 수 있습니다.
-
NVIDIA 드라이버가 설치되지 않았거나 손상됨: NVIDIA 드라이버가 시스템에 설치되어 있지 않거나 설치가 손상되어
nvidia-smi도구가 GPU와 상호 작용하려고 할 때 실패할 수 있습니다. -
드라이버 비 호환성 : 설치된 NVIDIA 드라이버 버전이 GPU 또는 운영 체제와 호환되지 않아 통신 문제가 발생할 수 있습니다.
-
NVIDIA 커널 모듈이 로드되지 않음: 필수 NVIDIA 커널 모듈(
nvidia.ko)가 시스템에 로드되지 않아 시스템 간의 통신이 제대로 이루어지지 않을 수 있습니다.nvidia-smi도구와 GPU. -
GPU 초기화 실패: 부팅 중 또는 하드웨어 장애로 인해 GPU가 제대로 초기화되지 않았을 수 있습니다.
nvidia-smiIT와 통신할 수 없습니다. -
충돌하는 드라이버 버전: 충돌하거나 여러 GPU 드라이버(예: Nouveau 오픈 소스 드라이버 또는 이전 NVIDIA 드라이버 버전)가 설치되어 시스템이 올바른 NVIDIA 드라이버를 로드하지 못할 수 있습니다.
-
결함이 있는 하드웨어: GPU 자체에 물리적 오작동, 과열 또는 부적절한 연결과 같은 하드웨어 문제가 있을 수 있으며, 이로 인해 시스템이 GPU에 액세스할 수 없습니다.
-
누락되거나 만료된 NVIDIA 라이선스(vGPU 설정의 경우): 가상화된 환경에서 NVIDIA vGPU 라이선스가 누락되거나 만료되면 드라이버가 제대로 작동하지 않아 통신 장애가 발생할 수 있습니다.
-
시스템 업데이트 또는 커널 변경: 운영 체제 또는 커널 변경에 대한 최근 업데이트가 NVIDIA 드라이버의 호환성 또는 기능에 영향을 미쳐 오류가 발생할 수 있습니다.
이 문제를 해결하려면 드라이버 설치를 확인하고 올바른 드라이버가 로드되었는지 확인하고 하드웨어와 소프트웨어가 호환되는지 확인하십시오.
Resolution
ESXi 7.0 이상에서 vGPU를 활성화하는 단계별 가이드:
-
NVIDIA vGPU Manager를 설치합니다.
- NVIDIA 웹사이트에서 최신 NVIDIA vGPU Manager for VMware ESXi를 다운로드합니다
.
- SSH를 사용하여 ESXi 호스트에 액세스하거나 ESXi 셸을 사용하여 vGPU Manager 패키지를 설치합니다.
- NVIDIA 웹사이트에서 최신 NVIDIA vGPU Manager for VMware ESXi를 다운로드합니다
-
VM(Virtual Machine)에 NVIDIA vGPU 드라이버를 설치합니다.
- vGPU를 사용하는 각 VM에 대해 게스트 운영 체제(예: Windows, Linux)에 적절한 NVIDIA GPU 드라이버를 설치합니다.
- NVIDIA 웹사이트에서 특정 운영 체제에 대한 드라이버를 다운로드합니다.
- 물리적 머신에서와 마찬가지로 VM 내부에 드라이버를 설치합니다.
-
ESXi 호스트를 재부팅합니다.
- NVIDIA vGPU Manager를 설치한 후 ESXi 호스트를 재부팅하여 변경 사항을 적용합니다.
-
NVIDIA 드라이버가 로드되었는지 확인합니다.
- 다음 명령을 실행합니다.
esxcli system module list | grep nvidia
- NVIDIA 커널 모듈이 로드되었는지 여부를 확인합니다.
- 다음 명령을 실행합니다.
-
NVIDIA 드라이버 수동 로드(로드되지 않은 경우):
- NVIDIA 모듈이 로드되지 않은 경우 다음을 실행하여 수동으로 로드할 수 있습니다.
esxcli system module load --module=nvidia
- NVIDIA 모듈이 로드되지 않은 경우 다음을 실행하여 수동으로 로드할 수 있습니다.
-
하드웨어 가상화 활성화(활성화되지 않은 경우):
- ESXi Host Client 또는 vSphere Client를 통해 ESXi 호스트에 로그인합니다.
- 물리적 서버의 BIOS/UEFI에서 인텔 VT-x 또는 AMD-V 가 활성화되어 있는지 확인합니다. 이러한 옵션은 가상화에 필요합니다.
-
NVIDIA GPU가 감지되는지 확인합니다.
- 다음 명령을 실행합니다.
lspci | grep -i nvidia
- ESXi에서 NVIDIA GPU가 감지되는지 확인합니다.
- 다음 명령을 실행합니다.
-
시스템 로그에서 오류를 확인합니다.
- 명령을 사용하여 NVIDIA 드라이버와 관련된 특정 오류 메시지를 찾습니다.
tail -f /var/log/vmkernel.log
- 명령을 사용하여 NVIDIA 드라이버와 관련된 특정 오류 메시지를 찾습니다.
-
NVIDIA 관련 로그를 확인합니다.
- 다음 위치에 있는 NVIDIA 관련 로그를 검토합니다.
/var/log/nvidia-installer.log
- 다음 위치에 있는 NVIDIA 관련 로그를 검토합니다.
-
vSphere에서 vGPU를 구성합니다.
- vSphere Client를 열고 ESXi 호스트로 이동합니다.
- vGPU를 사용하는 VM을 마우스 오른쪽 버튼으로 클릭하고 Edit Settings를 선택합니다.
- VM 하드웨어 탭에서 새 디바이스 추가를 클릭하고 PCI 디바이스를 선택합니다.
- VM에 할당할 NVIDIA GPU(vGPU) 를 선택합니다.
- 사용 가능한 GPU 리소스 및 라이선스에 따라 원하는 vGPU 프로필 (예: GRID, vComputeServer 등)을 선택합니다.
-
vGPU 프로파일을 할당합니다.
- VM을 구성할 때 각 VM에 할당할 물리적 GPU 리소스의 양을 결정하는 vGPU 프로필을 할당합니다. 프로파일 옵션은 GPU 모델에 따라 다릅니다.
-
NVIDIA 라이선스 구성:
- ESXi 호스트에 올바른 NVIDIA vGPU 라이선스 가 설치되어 있는지 확인합니다.
- vGPU 라이선스를 설치하거나 업데이트하려면 NVIDIA vGPU 패키지와 함께 제공되는 vGPU 라이선싱 유틸리티 를 사용합니다.
- vGPU 기능이 제대로 작동하려면 라이선스가 필요하며 명령줄을 통해 ESXi 호스트에 적용할 수 있습니다.
-
vGPU가 활성화되었는지 확인합니다.
- vGPU를 설정한 후 가상 머신에서 올바르게 인식되는지 확인합니다.
- VM에 로그인하고 다음 명령을 실행합니다.
nvidia-smi
- 이렇게 하면 물리적 머신에 표시되는 방식과 유사한 가상 GPU의 상태가 표시됩니다.
Additional Information
Dell은 고객에게 enterprisesupport@nvidia.com 이메일을 보내거나 포털을 통해 웹 케이스를 제출하거나 전화로 연락하여 vGPU 관련 문제에 대해 NVIDIA에 케이스를 개설할 것을 제안해야 합니다.
웹 포털: https://www.nvidia.com/en-us/support/
전화 지원: