PowerEdge: Cómo instalar el controlador NVIDIA en Red Hat Enterprise Linux
Summary: En este artículo, se analiza la compilación y la instalación de un controlador NVIDIA con soporte de módulo de kernel dinámico (DKMS) en Red Hat Enterprise Linux que tiene el "arranque seguro" deshabilitado. ...
Instructions
En este artículo, se explica cómo compilar e instalar un controlador NVIDIA con DKMS en Red Hat Enterprise Linux que tiene el "arranque seguro" deshabilitado.
Antes de comenzar, asegúrese de que la opción Arranque seguro esté deshabilitada en el BIOS. Esto se debe a que esta opción de instalación utiliza DKMS para compilar el controlador NVIDIA a partir del código fuente para cualquier kernel en ejecución actual. No hay ninguna firma de proveedor para el controlador compilado. Si el arranque seguro está habilitado, el controlador autocompilado no se carga y muestra el error Required key not available. Verifique el estado actual mediante un comando mokutil --sb-state en Red Hat Enterprise Linux y presione F2 durante la POST del servidor para cambiarlo en el BIOS.
Si se requiere el arranque seguro , o si prefiere un controlador precompilado, consulte el siguiente artículo para instalarlo. Cómo instalar el controlador NVIDIA en línea en Red Hat Enterprise Linux con el arranque seguro habilitado.
- Descargue el controlador necesario desde el sitio de NVIDIA .
- Seleccione la versión correcta de Red Hat Enterprise Linux, por ejemplo, Red Hat Enterprise Linux 8.
- Seleccione la versión correcta de Compute Unified Device Architecture (CUDA) necesaria con el kit de herramientas CUDA que va a instalar, por ejemplo, 12.2.
- El paquete de descarga es un RPM, por ejemplo, nvidia-driver-local-repo-rhel8-535.54.03-1.0-1.x86_64.rpm
- Instale el RPM. Eso crea un repositorio local.
[root@rhel87 ~]# ls anaconda-ks.cfg nvidia-driver-local-repo-rhel8-535.54.03-1.0-1.x86_64.rpm [root@rhel87 ~]# yum localinstall ./nvidia-driver-local-repo-rhel8-535.54.03-1.0-1.x86_64.rpm ...output skipped... [root@rhel87 ~]# yum repolist Updating Subscription Management repositories. Unable to read consumer identity This system is not registered with an entitlement server. You can use subscription-manager to register. repo id repo name my-rhel-87-AppStream-iso my RHEL 87 AppStream iso my-rhel-87-BaseOS-iso my RHEL 87 BaseOS iso my-rhel-extra-rpms my RHEL extra rpms nvidia-driver-local-rhel8-535.54.03 nvidia-driver-local-rhel8-535.54.03 [root@rhel87 ~]#
- Instalar DKMS. DKMS no está en Red Hat Enterprise Linux. Está disponible en paquetes adicionales para Enterprise Linux (EPEL).
Para obtener más detalles acerca de DKMS, consulte el artículo de Red Hat ¿Se proporciona DKMS en Red Hat Enterprise Linux?
[root@rhel87 ~]# yum install https://dl.fedoraproject.org/pub/epel/epel-release-latest-8.noarch.rpm [root@rhel87 ~]# yum install dkms
- Puede desactivar o eliminar EPEL si es necesario.
# to disable epel, edit the following configuration and change to "enabled=0" [root@rhel87 ~]# vi /etc/yum.repos.d/epel.repo # to remove the epel [root@rhel87 ~]# yum remove epel-release
- Instale las herramientas de compilación y el encabezado del kernel. Asegúrese de que la suscripción a Red Hat esté adjunta.
[root@rhel87 ~]# yum groupinstall "Development Tools" [root@rhel87 ~]# yum install kernel-devel-$(uname -r)
- Instale cuda-driver
[root@rhel87 ~]# yum install cuda-driver
- Confirme que el controlador se haya instalado correctamente.
[root@rhel87 ~]# dkms status
nvidia/535.54.03, 4.18.0-425.3.1.el8.x86_64, x86_64: installed
[root@rhel87 ~]#
- Si el estado designado anteriormente no es instalado, sino que es Agregado, puede crearlo.
[root@rhel87 ~]# dkms build nvidia/535.54.03
- Si el estado designado es Built, puede instalarlo.
[root@rhel87 ~]# dkms install nvidia/535.54.03
- Si el estado falló en la compilación o en la instalación, revise los registros en la siguiente ruta:
[root@rhel87 ~]# ls /var/lib/dkms/nvidia/535.54.03/4.18.0-425.3.1.el8.x86_64/x86_64/log/make.log [root@rhel87 ~]#
- Reinicie el servidor después de instalar el controlador NVIDIA.
[root@rhel87 ~]# systemctl reboot
- Verifique que el controlador esté en funcionamiento.
[root@rhel87 ~]# lsmod | grep nvidia nvidia_drm 73728 0 nvidia_modeset 1306624 1 nvidia_drm nvidia_uvm 1523712 0 nvidia 56426496 2 nvidia_uvm,nvidia_modeset drm_kms_helper 176128 4 qxl,nvidia_drm drm 565248 7 drm_kms_helper,qxl,nvidia,drm_ttm_helper,nvidia_drm,ttm [root@rhel87 ~]# nvidia-smi Tue Jul 25 12:00:29 2023 +---------------------------------------------------------------------------------------+ | NVIDIA-SMI 535.54.03 Driver Version: 535.54.03 CUDA Version: 12.2 | |-----------------------------------------+----------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+======================+======================| | 0 Tesla P100-PCIE-12GB Off | 00000000:07:00.0 Off | 0 | | N/A 33C P0 29W / 250W | 0MiB / 12288MiB | 2% Default | | | | N/A | +-----------------------------------------+----------------------+----------------------+ +---------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=======================================================================================| | No running processes found | +---------------------------------------------------------------------------------------+ [root@rhel87 ~]# modinfo nvidia filename: /lib/modules/4.18.0-425.3.1.el8.x86_64/extra/nvidia.ko.xz firmware: nvidia/535.54.03/gsp_tu10x.bin firmware: nvidia/535.54.03/gsp_ga10x.bin alias: char-major-195-* version: 535.54.03 supported: external license: NVIDIA rhelversion: 8.7 srcversion: EA9C7EF32617E104C8240C4
Si hay algún problema, recopile los siguientes registros y comuníquese con el soporte de Dell:
sosreport- Los archivos de registro mencionados anteriormente en la compilación o la creación si la compilación del controlador falló
- Cualquiera
/var/log/nvidia-installer.logo cualquier registro mencionado en la salida durante la instalación
Otra información a tener en cuenta:
- Si Red Hat Enterprise Linux se instaló y arrancó con graphical.target, es posible que vea una pantalla negra después del reinicio. La solución es mover /etc/X11/xorg.conf.d/10-nvidia.conf fuera de la carpeta X11 y reiniciar el servidor.
- Si desea pasar a través de la GPU a una VM en KVM con graphical.target, fallará. La solución es arrancar el hipervisor Red Hat Enterprise Linux en multiusuario.objetivo, ya que entonces graphical.target evita que el controlador NVIDIA se descargue antes de pasar a la máquina virtual.