PowerEdge. Ошибка драйвера NVIDIA: произошел сбой nvidia-smi из-за того, что не удалось установить связь с драйвером NVIDIA
Summary: При выполнении команды nvidia-smi может возникнуть ошибка драйвера, в которой говорится, что «nvidia-smi завершился сбоем, потому что не удалось установить связь с драйвером NVIDIA.
Symptoms
Переменная nvidia-smi Не удается выполнить команду, и она возвращает сообщение об ошибке:
nvidia-smi has failed because it could not communicate with the NVIDIA driver.
Информация о графическом процессоре NVIDIA не отображается во время работы nvidia-smi.
nvidia-smi has failed because it could not communicate with the NVIDIA driver
NVRM: nvidia_ctl_session_announce failed as driver unload is in progress.
Cause
Ошибка «nvidia-smi has failed because it could not communicate with the NVIDIA driver" может быть вызвана несколькими факторами:
-
Драйвер NVIDIA не установлен или поврежден: Возможно, драйвер NVIDIA не установлен в системе или установка может быть повреждена, что приводит к тому, что
nvidia-smiсбой при попытке взаимодействия с графическим процессором. -
Несовместимость драйверов Версия установленного драйвера NVIDIA может быть несовместима с графическим процессором или операционной системой, что приводит к проблемам связи.
-
Модуль ядра NVIDIA не загружен: Требуемый модуль ядра NVIDIA (
nvidia.ko) не могут быть загружены в систему, препятствуя правильному взаимодействию междуnvidia-smiинструмента и графического процессора. -
Сбой инициализации графического процессора: Возможно, графический процессор инициализирован неправильно во время загрузки или из-за аппаратного сбоя, что означает, что
nvidia-smiне может установить с ним связь. -
Конфликтующие версии драйверов: Может быть установлено несколько конфликтующих или несколько драйверов графического процессора (например, драйвер Nouveau с открытым исходным кодом или более старые версии драйверов NVIDIA), что приводит к тому, что системе не удается загрузить правильный драйвер NVIDIA.
-
Неисправное оборудование: Возможно, связана аппаратная проблема с самим графическим процессором, например физическая неисправность, перегрев или неправильное подключение, препятствующее доступу системы.
-
Лицензия NVIDIA отсутствует или срок ее действия истек (для конфигураций с vGPU): В виртуализированных средах отсутствующая или просроченная лицензия NVIDIA vGPU может нарушить правильную работу драйвера, что приведет к сбоям связи.
-
Обновления системы или изменения ядра: Недавние обновления операционной системы или изменения ядра могли повлиять на совместимость или функциональность драйвера NVIDIA, вызвав его сбой.
Для устранения этой проблемы проверьте установку драйвера, убедитесь, что загружен правильный драйвер и совместимы оборудование и программное обеспечение.
Resolution
Пошаговое руководство по включению vGPU в ESXi 7.0 и более поздних версиях:
-
Установите NVIDIA vGPU Manager.
- Скачайте последнюю версию NVIDIA vGPU Manager для VMware ESXi с веб-сайта
NVIDIA.
- Используйте SSH для доступа к хосту ESXi или оболочку ESXi для установки пакета vGPU Manager.
- Скачайте последнюю версию NVIDIA vGPU Manager для VMware ESXi с веб-сайта
-
Установите драйверы NVIDIA vGPU на виртуальных машинах (ВМ).
- Для каждой виртуальной машины, использующей виртуальный графический процессор, установите соответствующий драйвер графического процессора NVIDIA в гостевой операционной системе (например, Windows, Linux).
- Загрузите драйверы с веб-сайта NVIDIA для конкретной операционной системы.
- Устанавливайте драйверы внутри виртуальной машины так же, как на физическом компьютере.
-
Перезагрузите хост ESXi:
- После установки NVIDIA vGPU Manager перезагрузите хост ESXi, чтобы изменения вступили в силу.
-
Проверьте, загружен ли драйвер NVIDIA.
- Выполните команду:
esxcli system module list | grep nvidia
- Это проверка загрузки модуля ядра NVIDIA.
- Выполните команду:
-
Вручную загрузите драйвер NVIDIA (если он не загружен):
- Если модуль NVIDIA не загружен, его можно загрузить вручную, выполнив:
esxcli system module load --module=nvidia
- Если модуль NVIDIA не загружен, его можно загрузить вручную, выполнив:
-
Включить аппаратную виртуализацию (если не включена):
- Войдите на хост ESXi через клиент хоста ESXi или клиент vSphere.
- Убедитесь, что поддержка Intel VT-x или AMD-V включена в BIOS/UEFI физического сервера. Эти параметры необходимы для виртуализации.
-
Проверьте, обнаружен ли графический процессор NVIDIA.
- Выполните команду:
lspci | grep -i nvidia
- Это проверка того, обнаруживается ли графический процессор NVIDIA системой ESXi.
- Выполните команду:
-
Проверьте системные журналы на наличие ошибок:
- Используйте команду, чтобы найти конкретные сообщения об ошибках, связанные с драйвером NVIDIA:
tail -f /var/log/vmkernel.log
- Используйте команду, чтобы найти конкретные сообщения об ошибках, связанные с драйвером NVIDIA:
-
Проверьте журналы, относящиеся к NVIDIA.
- Просмотрите журналы NVIDIA, расположенные по адресу:
/var/log/nvidia-installer.log
- Просмотрите журналы NVIDIA, расположенные по адресу:
-
Настройка виртуального графического процессора в vSphere.
- Откройте клиент vSphere Client и перейдите к хосту ESXi.
- Нажмите правой кнопкой мыши виртуальную машину, использующую виртуальный графический процессор, и выберите Edit Settings.
- На вкладке VM Hardware нажмите Add New Device и выберите PCI Device.
- Выберите графический процессор NVIDIA (vGPU), который необходимо назначить виртуальной машине.
- Выберите нужный профиль vGPU (например, GRID, vComputeServer и т. д.) в зависимости от доступных ресурсов графического процессора и лицензии.
-
Назначение профиля vGPU:
- При настройке виртуальной машины назначьте профиль vGPU , который определяет, какой объем ресурсов физического графического процессора будет выделен для каждой виртуальной машины. Параметры профиля зависят от модели графического процессора.
-
Настройка лицензии NVIDIA
- Убедитесь, что на хосте ESXi установлена правильная лицензия NVIDIA vGPU .
- Чтобы установить или обновить лицензию vGPU, используйте утилиту лицензирования vGPU , которая входит в пакет NVIDIA vGPU.
- Лицензия необходима для правильной работы виртуальных графических процессоров и может быть применена к хосту ESXi через командную строку.
-
Убедитесь, что виртуальный графический процессор включен:
- После настройки виртуального графического процессора убедитесь, что он правильно распознается в виртуальной машине.
- Войдите в виртуальную машину и выполните следующую команду:
nvidia-smi
- Состояние виртуального графического процессора должно отображаться так же, как на физическом компьютере.
Additional Information
Для решения проблем, связанных с виртуальными графическими процессорами, Dell должна предложить заказчику открыть заявку в NVIDIA для решения проблем, связанных с виртуальными графическими процессорами , ОТПРАВИВ электронное письмо enterprisesupport@nvidia.com , ЛИБО отправив заявку через веб-портал, либо связавшись с ними по телефону.
Веб-портал: https://www.nvidia.com/en-us/support/
Поддержка по телефону: