PowerEdge: Помилка драйвера NVIDIA: nvidia-smi зазнала невдачі, оскільки не змогла зв'язатися з драйвером NVIDIA
Summary: Під час виконання команди nvidia-smi ви можете зіткнутися з помилкою драйвера про те, що «nvidia-smi не вдалося встановити, оскільки він не зміг зв'язатися з драйвером NVIDIA.
Symptoms
Об'єкт nvidia-smi Команда не може запуститися і повертає повідомлення про помилку:
nvidia-smi has failed because it could not communicate with the NVIDIA driver.
Інформація про графічний процесор NVIDIA не відображається під час роботи nvidia-smi.
nvidia-smi has failed because it could not communicate with the NVIDIA driver
NVRM: nvidia_ctl_session_announce failed as driver unload is in progress.
Cause
Помилка «nvidia-smi has failed because it could not communicate with the NVIDIA driverМоже бути викликано декількома факторами:
-
Драйвер NVIDIA не встановлено або пошкоджено: Драйвер NVIDIA може бути не встановлений у системі або інсталяція може бути пошкоджена, що спричинило
nvidia-smiінструмент для виходу з ладу при спробі взаємодії з графічним процесором. -
Несумісність драйверів: Версія встановленого драйвера NVIDIA може бути несумісною з графічним процесором або операційною системою, що призведе до проблем зі зв'язком.
-
Модуль ядра NVIDIA не завантажено: Необхідний модуль ядра NVIDIA (
nvidia.ko) може не завантажуватися в систему, що перешкоджає належному обміну даними міжnvidia-smiінструмент і графічний процесор. -
Помилка ініціалізації графічного процесора: Можливо, графічний процесор не був ініціалізований належним чином під час завантаження або через апаратний збій, що означає
nvidia-smiне може налагодити з ним зв'язок. -
Конфліктні версії драйверів: Можуть бути встановлені конфліктуючі або кілька драйверів графічного процесора (наприклад, драйвер Nouveau з відкритим вихідним кодом або старіші версії драйверів NVIDIA), через що система не може завантажити правильний драйвер NVIDIA.
-
Несправне обладнання: Може виникнути апаратна проблема з самим графічним процесором, така як фізична несправність, перегрів або неправильне підключення, що перешкоджає доступу системи до нього.
-
Відсутня або прострочена ліцензія NVIDIA (для налаштувань vGPU): У віртуалізованих середовищах відсутня або прострочена ліцензія NVIDIA vGPU може перешкоджати належній роботі драйвера, що призведе до збоїв зв'язку.
-
Оновлення системи або зміни ядра: Нещодавні оновлення операційної системи або зміни ядра могли вплинути на сумісність або функціональність драйвера NVIDIA, спричинивши його збій.
Щоб вирішити цю проблему, перевірте інсталяцію драйвера, переконайтеся, що завантажено правильний драйвер, і переконайтеся, що апаратне та програмне забезпечення сумісні.
Resolution
Покрокова інструкція з увімкнення vGPU в ESXi 7.0 та пізніших версіях:
-
Встановіть менеджер NVIDIA vGPU:
- Завантажте останню версію NVIDIA vGPU Manager для VMware ESXi з веб-сайту
NVIDIA.
- Використовуйте SSH для доступу до хоста ESXi або оболонку ESXi для встановлення пакета vGPU Manager.
- Завантажте останню версію NVIDIA vGPU Manager для VMware ESXi з веб-сайту
-
Встановіть драйвери NVIDIA vGPU у віртуальні машини (ВМ):
- Для кожної віртуальної машини, що використовує vGPU, встановіть відповідний драйвер NVIDIA GPU у гостьовій операційній системі (наприклад, Windows, Linux).
- Завантажте драйвери з веб-сайту NVIDIA для конкретної операційної системи.
- Встановіть драйвери всередині віртуальної машини так само, як ви б це робили на фізичній машині.
-
Перезавантажте хост ESXi:
- Після встановлення диспетчера NVIDIA vGPU перезавантажте хост ESXi, щоб зміни набули чинності.
-
Перевірте, чи завантажено драйвер NVIDIA:
- Виконайте команду:
esxcli system module list | grep nvidia
- Це перевіряє, чи завантажено модуль ядра NVIDIA.
- Виконайте команду:
-
Вручну завантажте драйвер NVIDIA (якщо він не завантажений):
- Якщо модуль NVIDIA не завантажується, ви можете завантажити його вручну, виконавши:
esxcli system module load --module=nvidia
- Якщо модуль NVIDIA не завантажується, ви можете завантажити його вручну, виконавши:
-
Увімкніть апаратну віртуалізацію (якщо не включено):
- Увійдіть на хост ESXi через хост-клієнт ESXi або клієнт vSphere.
- Перевірте, чи ввімкнено Intel VT-x або AMD-V у BIOS/UEFI фізичного сервера. Ці параметри необхідні для віртуалізації.
-
Перевірте, чи виявлено графічний процесор NVIDIA:
- Виконайте команду:
lspci | grep -i nvidia
- Це перевіряє, чи виявляється графічний процесор NVIDIA ESXi.
- Виконайте команду:
-
Перевірте системні журнали на наявність помилок:
- Використовуйте команду, щоб знайти конкретні повідомлення про помилки, пов'язані з драйвером NVIDIA:
tail -f /var/log/vmkernel.log
- Використовуйте команду, щоб знайти конкретні повідомлення про помилки, пов'язані з драйвером NVIDIA:
-
Перевірте журнали, специфічні для NVIDIA:
- Перегляньте журнали, специфічні для NVIDIA, розташовані за адресою:
/var/log/nvidia-installer.log
- Перегляньте журнали, специфічні для NVIDIA, розташовані за адресою:
-
Налаштування vGPU у vSphere:
- Відкрийте клієнт vSphere і перейдіть до хоста ESXi.
- Клацніть правою кнопкою миші віртуальну машину, яка використовує vGPU, і виберіть «Редагувати налаштування».
- На вкладці «Апаратне забезпечення віртуальної машини » натисніть «Додати новий пристрій » і виберіть «Пристрій PCI».
- Виберіть графічний процесор NVIDIA (vGPU), який ви хочете призначити віртуальній машині.
- Виберіть потрібний профіль vGPU (наприклад, GRID, vComputeServer тощо) залежно від доступних ресурсів графічного процесора та ліцензії.
-
Призначте профіль vGPU:
- Під час налаштування віртуальної машини призначте профіль vGPU , який визначає, скільки ресурсів фізичного графічного процесора потрібно виділити кожній віртуальній машині. Параметри профілю залежать від моделі графічного процесора.
-
Налаштуйте ліцензію NVIDIA:
- Переконайтеся, що на хості ESXi встановлено правильну ліцензію NVIDIA vGPU .
- Щоб інсталювати або оновити ліцензію vGPU, використовуйте утиліту ліцензування vGPU , яка постачається з пакетом NVIDIA vGPU.
- Ліцензія потрібна для належної роботи функціональності vGPU, і її можна застосувати до хоста ESXi через командний рядок.
-
Переконайтеся, що vGPU увімкнено:
- Після налаштування vGPU переконайтеся, що він правильно розпізнаний у віртуальній машині.
- Увійдіть у віртуальну машину та виконайте наступну команду:
nvidia-smi
- Це має відображати стан віртуального графічного процесора, подібно до того, як він виглядав би на фізичній машині.
Additional Information
Dell повинна запропонувати клієнтам відкрити справу з NVIDIA щодо проблем, пов'язаних із vGPU , надіславши електронний лист до enterprisesupport@nvidia.com АБО надіславши веб-кейс через їхній портал, або зв'язавшись з ними по телефону.
Веб-портал: https://www.nvidia.com/en-us/support/
Підтримка по телефону: