PowerEdge: Помилка драйвера NVIDIA: nvidia-smi зазнала невдачі, оскільки не змогла зв'язатися з драйвером NVIDIA

Summary: Під час виконання команди nvidia-smi ви можете зіткнутися з помилкою драйвера про те, що «nvidia-smi не вдалося встановити, оскільки він не зміг зв'язатися з драйвером NVIDIA.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Об'єкт nvidia-smi Команда не може запуститися і повертає повідомлення про помилку:

nvidia-smi has failed because it could not communicate with the NVIDIA driver.

Інформація про графічний процесор NVIDIA не відображається під час роботи nvidia-smi.

nvidia-smi has failed because it could not communicate with the NVIDIA driver
Повідомлення про помилку NVIDIA-SMI

NVRM: nvidia_ctl_session_announce failed as driver unload is in progress.
nvidia_ctl_session_announce невдале повідомлення

 

Cause

Помилка «nvidia-smi has failed because it could not communicate with the NVIDIA driverМоже бути викликано декількома факторами:

  • Драйвер NVIDIA не встановлено або пошкоджено: Драйвер NVIDIA може бути не встановлений у системі або інсталяція може бути пошкоджена, що спричинило nvidia-smi інструмент для виходу з ладу при спробі взаємодії з графічним процесором.

  • Несумісність драйверів: Версія встановленого драйвера NVIDIA може бути несумісною з графічним процесором або операційною системою, що призведе до проблем зі зв'язком.

  • Модуль ядра NVIDIA не завантажено: Необхідний модуль ядра NVIDIA (nvidia.ko) може не завантажуватися в систему, що перешкоджає належному обміну даними між nvidia-smi інструмент і графічний процесор.

  • Помилка ініціалізації графічного процесора: Можливо, графічний процесор не був ініціалізований належним чином під час завантаження або через апаратний збій, що означає nvidia-smi не може налагодити з ним зв'язок.

  • Конфліктні версії драйверів: Можуть бути встановлені конфліктуючі або кілька драйверів графічного процесора (наприклад, драйвер Nouveau з відкритим вихідним кодом або старіші версії драйверів NVIDIA), через що система не може завантажити правильний драйвер NVIDIA.

  • Несправне обладнання: Може виникнути апаратна проблема з самим графічним процесором, така як фізична несправність, перегрів або неправильне підключення, що перешкоджає доступу системи до нього.

  • Відсутня або прострочена ліцензія NVIDIA (для налаштувань vGPU): У віртуалізованих середовищах відсутня або прострочена ліцензія NVIDIA vGPU може перешкоджати належній роботі драйвера, що призведе до збоїв зв'язку.

  • Оновлення системи або зміни ядра: Нещодавні оновлення операційної системи або зміни ядра могли вплинути на сумісність або функціональність драйвера NVIDIA, спричинивши його збій.

    Щоб вирішити цю проблему, перевірте інсталяцію драйвера, переконайтеся, що завантажено правильний драйвер, і переконайтеся, що апаратне та програмне забезпечення сумісні.

 

Resolution

Покрокова інструкція з увімкнення vGPU в ESXi 7.0 та пізніших версіях:

  • Встановіть менеджер NVIDIA vGPU:

    • Завантажте останню версію NVIDIA vGPU Manager для VMware ESXi з веб-сайтуЦе гіперпосилання веде вас на веб-сайт за межами Dell Technologies. NVIDIA.
    • Використовуйте SSH для доступу до хоста ESXi або оболонку ESXi для встановлення пакета vGPU Manager.
  • Встановіть драйвери NVIDIA vGPU у віртуальні машини (ВМ):

    • Для кожної віртуальної машини, що використовує vGPU, встановіть відповідний драйвер NVIDIA GPU у гостьовій операційній системі (наприклад, Windows, Linux).
    • Завантажте драйвери з веб-сайту NVIDIA для конкретної операційної системи.
    • Встановіть драйвери всередині віртуальної машини так само, як ви б це робили на фізичній машині.
  • Перезавантажте хост ESXi:

    • Після встановлення диспетчера NVIDIA vGPU перезавантажте хост ESXi, щоб зміни набули чинності.
  • Перевірте, чи завантажено драйвер NVIDIA:

    • Виконайте команду:
      esxcli system module list | grep nvidia
    • Це перевіряє, чи завантажено модуль ядра NVIDIA.
  • Вручну завантажте драйвер NVIDIA (якщо він не завантажений):

    • Якщо модуль NVIDIA не завантажується, ви можете завантажити його вручну, виконавши:
      esxcli system module load --module=nvidia
  • Увімкніть апаратну віртуалізацію (якщо не включено):

    • Увійдіть на хост ESXi через хост-клієнт ESXi або клієнт vSphere.
    • Перевірте, чи ввімкнено Intel VT-x або AMD-V у BIOS/UEFI фізичного сервера. Ці параметри необхідні для віртуалізації.
  • Перевірте, чи виявлено графічний процесор NVIDIA:

    • Виконайте команду:
      lspci | grep -i nvidia
    • Це перевіряє, чи виявляється графічний процесор NVIDIA ESXi.
  • Перевірте системні журнали на наявність помилок:

    • Використовуйте команду, щоб знайти конкретні повідомлення про помилки, пов'язані з драйвером NVIDIA:
      tail -f /var/log/vmkernel.log
  • Перевірте журнали, специфічні для NVIDIA:

    • Перегляньте журнали, специфічні для NVIDIA, розташовані за адресою:
      /var/log/nvidia-installer.log
  • Налаштування vGPU у vSphere:

    • Відкрийте клієнт vSphere і перейдіть до хоста ESXi.
    • Клацніть правою кнопкою миші віртуальну машину, яка використовує vGPU, і виберіть «Редагувати налаштування».
    • На вкладці «Апаратне забезпечення віртуальної машини » натисніть «Додати новий пристрій » і виберіть «Пристрій PCI».
    • Виберіть графічний процесор NVIDIA (vGPU), який ви хочете призначити віртуальній машині.
    • Виберіть потрібний профіль vGPU (наприклад, GRID, vComputeServer тощо) залежно від доступних ресурсів графічного процесора та ліцензії.
  • Призначте профіль vGPU:

    • Під час налаштування віртуальної машини призначте профіль vGPU , який визначає, скільки ресурсів фізичного графічного процесора потрібно виділити кожній віртуальній машині. Параметри профілю залежать від моделі графічного процесора.
  • Налаштуйте ліцензію NVIDIA:

    • Переконайтеся, що на хості ESXi встановлено правильну ліцензію NVIDIA vGPU .
    • Щоб інсталювати або оновити ліцензію vGPU, використовуйте утиліту ліцензування vGPU , яка постачається з пакетом NVIDIA vGPU.
    • Ліцензія потрібна для належної роботи функціональності vGPU, і її можна застосувати до хоста ESXi через командний рядок.
  • Переконайтеся, що vGPU увімкнено:

    • Після налаштування vGPU переконайтеся, що він правильно розпізнаний у віртуальній машині.
    • Увійдіть у віртуальну машину та виконайте наступну команду:
      nvidia-smi
    • Це має відображати стан віртуального графічного процесора, подібно до того, як він виглядав би на фізичній машині.

 

Additional Information

Dell повинна запропонувати клієнтам відкрити справу з NVIDIA щодо проблем, пов'язаних із vGPU , надіславши електронний лист до enterprisesupport@nvidia.com АБО надіславши веб-кейс через їхній портал, або зв'язавшись з ними по телефону.

Веб-портал: https://www.nvidia.com/en-us/support/Це гіперпосилання веде вас на веб-сайт за межами Dell Technologies.

Підтримка по телефону:
Підтримка телефонів NVIDIA

Примітка: Хоча Dell може ініціювати справу з NVIDIA для отримання додаткової допомоги, однак, якщо ліцензію не видає Dell, NVIDIA зазвичай вважає за краще працювати безпосередньо з клієнтом.

 

Affected Products

C Series, Rack Servers, Tower Servers, XE Servers, VMware ESXi 7.x, VMware ESXi 8.x, VMware OEM Products with ProSupport

Products

HS Series, OEM Server Solutions
Article Properties
Article Number: 000252982
Article Type: Solution
Last Modified: 08 Nov 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.