PowerEdge. Ошибка драйвера NVIDIA: произошел сбой nvidia-smi из-за того, что не удалось установить связь с драйвером NVIDIA

Summary: При выполнении команды nvidia-smi может возникнуть ошибка драйвера, в которой говорится, что «nvidia-smi завершился сбоем, потому что не удалось установить связь с драйвером NVIDIA.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Переменная nvidia-smi Не удается выполнить команду, и она возвращает сообщение об ошибке:

nvidia-smi has failed because it could not communicate with the NVIDIA driver.

Информация о графическом процессоре NVIDIA не отображается во время работы nvidia-smi.

nvidia-smi has failed because it could not communicate with the NVIDIA driver
Сообщение об ошибке NVIDIA-SMI

NVRM: nvidia_ctl_session_announce failed as driver unload is in progress.
Сообщение о сбое nvidia_ctl_session_announce

 

Cause

Ошибка «nvidia-smi has failed because it could not communicate with the NVIDIA driver" может быть вызвана несколькими факторами:

  • Драйвер NVIDIA не установлен или поврежден: Возможно, драйвер NVIDIA не установлен в системе или установка может быть повреждена, что приводит к тому, что nvidia-smi сбой при попытке взаимодействия с графическим процессором.

  • Несовместимость драйверов Версия установленного драйвера NVIDIA может быть несовместима с графическим процессором или операционной системой, что приводит к проблемам связи.

  • Модуль ядра NVIDIA не загружен: Требуемый модуль ядра NVIDIA (nvidia.ko) не могут быть загружены в систему, препятствуя правильному взаимодействию между nvidia-smi инструмента и графического процессора.

  • Сбой инициализации графического процессора: Возможно, графический процессор инициализирован неправильно во время загрузки или из-за аппаратного сбоя, что означает, что nvidia-smi не может установить с ним связь.

  • Конфликтующие версии драйверов: Может быть установлено несколько конфликтующих или несколько драйверов графического процессора (например, драйвер Nouveau с открытым исходным кодом или более старые версии драйверов NVIDIA), что приводит к тому, что системе не удается загрузить правильный драйвер NVIDIA.

  • Неисправное оборудование: Возможно, связана аппаратная проблема с самим графическим процессором, например физическая неисправность, перегрев или неправильное подключение, препятствующее доступу системы.

  • Лицензия NVIDIA отсутствует или срок ее действия истек (для конфигураций с vGPU): В виртуализированных средах отсутствующая или просроченная лицензия NVIDIA vGPU может нарушить правильную работу драйвера, что приведет к сбоям связи.

  • Обновления системы или изменения ядра: Недавние обновления операционной системы или изменения ядра могли повлиять на совместимость или функциональность драйвера NVIDIA, вызвав его сбой.

    Для устранения этой проблемы проверьте установку драйвера, убедитесь, что загружен правильный драйвер и совместимы оборудование и программное обеспечение.

 

Resolution

Пошаговое руководство по включению vGPU в ESXi 7.0 и более поздних версиях:

  • Установите NVIDIA vGPU Manager.

    • Скачайте последнюю версию NVIDIA vGPU Manager для VMware ESXi с веб-сайтаЭта гиперссылка позволяет перейти на сайт за пределами Dell Technologies. NVIDIA.
    • Используйте SSH для доступа к хосту ESXi или оболочку ESXi для установки пакета vGPU Manager.
  • Установите драйверы NVIDIA vGPU на виртуальных машинах (ВМ).

    • Для каждой виртуальной машины, использующей виртуальный графический процессор, установите соответствующий драйвер графического процессора NVIDIA в гостевой операционной системе (например, Windows, Linux).
    • Загрузите драйверы с веб-сайта NVIDIA для конкретной операционной системы.
    • Устанавливайте драйверы внутри виртуальной машины так же, как на физическом компьютере.
  • Перезагрузите хост ESXi:

    • После установки NVIDIA vGPU Manager перезагрузите хост ESXi, чтобы изменения вступили в силу.
  • Проверьте, загружен ли драйвер NVIDIA.

    • Выполните команду:
      esxcli system module list | grep nvidia
    • Это проверка загрузки модуля ядра NVIDIA.
  • Вручную загрузите драйвер NVIDIA (если он не загружен):

    • Если модуль NVIDIA не загружен, его можно загрузить вручную, выполнив:
      esxcli system module load --module=nvidia
  • Включить аппаратную виртуализацию (если не включена):

    • Войдите на хост ESXi через клиент хоста ESXi или клиент vSphere.
    • Убедитесь, что поддержка Intel VT-x или AMD-V включена в BIOS/UEFI физического сервера. Эти параметры необходимы для виртуализации.
  • Проверьте, обнаружен ли графический процессор NVIDIA.

    • Выполните команду:
      lspci | grep -i nvidia
    • Это проверка того, обнаруживается ли графический процессор NVIDIA системой ESXi.
  • Проверьте системные журналы на наличие ошибок:

    • Используйте команду, чтобы найти конкретные сообщения об ошибках, связанные с драйвером NVIDIA:
      tail -f /var/log/vmkernel.log
  • Проверьте журналы, относящиеся к NVIDIA.

    • Просмотрите журналы NVIDIA, расположенные по адресу:
      /var/log/nvidia-installer.log
  • Настройка виртуального графического процессора в vSphere.

    • Откройте клиент vSphere Client и перейдите к хосту ESXi.
    • Нажмите правой кнопкой мыши виртуальную машину, использующую виртуальный графический процессор, и выберите Edit Settings.
    • На вкладке VM Hardware нажмите Add New Device и выберите PCI Device.
    • Выберите графический процессор NVIDIA (vGPU), который необходимо назначить виртуальной машине.
    • Выберите нужный профиль vGPU (например, GRID, vComputeServer и т. д.) в зависимости от доступных ресурсов графического процессора и лицензии.
  • Назначение профиля vGPU:

    • При настройке виртуальной машины назначьте профиль vGPU , который определяет, какой объем ресурсов физического графического процессора будет выделен для каждой виртуальной машины. Параметры профиля зависят от модели графического процессора.
  • Настройка лицензии NVIDIA

    • Убедитесь, что на хосте ESXi установлена правильная лицензия NVIDIA vGPU .
    • Чтобы установить или обновить лицензию vGPU, используйте утилиту лицензирования vGPU , которая входит в пакет NVIDIA vGPU.
    • Лицензия необходима для правильной работы виртуальных графических процессоров и может быть применена к хосту ESXi через командную строку.
  • Убедитесь, что виртуальный графический процессор включен:

    • После настройки виртуального графического процессора убедитесь, что он правильно распознается в виртуальной машине.
    • Войдите в виртуальную машину и выполните следующую команду:
      nvidia-smi
    • Состояние виртуального графического процессора должно отображаться так же, как на физическом компьютере.

 

Additional Information

Для решения проблем, связанных с виртуальными графическими процессорами, Dell должна предложить заказчику открыть заявку в NVIDIA для решения проблем, связанных с виртуальными графическими процессорами , ОТПРАВИВ электронное письмо enterprisesupport@nvidia.com , ЛИБО отправив заявку через веб-портал, либо связавшись с ними по телефону.

Веб-портал: https://www.nvidia.com/en-us/support/Эта гиперссылка позволяет перейти на сайт за пределами Dell Technologies.

Поддержка по телефону:
Поддержка телефонов NVIDIA

Примечание. Хотя Dell может обратиться в NVIDIA за дополнительной помощью, если лицензия выдана не Dell, NVIDIA обычно предпочитает работать с заказчиком напрямую.

 

Affected Products

C Series, Rack Servers, Tower Servers, XE Servers, VMware ESXi 7.x, VMware ESXi 8.x, VMware OEM Products with ProSupport

Products

HS Series, OEM Server Solutions
Article Properties
Article Number: 000252982
Article Type: Solution
Last Modified: 08 Nov 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.