PowerEdge: Cómo instalar el controlador NVIDIA en Red Hat Enterprise Linux

Summary: En este artículo, se analiza la compilación y la instalación de un controlador NVIDIA con soporte de módulo de kernel dinámico (DKMS) en Red Hat Enterprise Linux que tiene el "arranque seguro" deshabilitado. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

En este artículo, se explica cómo compilar e instalar un controlador NVIDIA con DKMS en Red Hat Enterprise Linux que tiene el "arranque seguro" deshabilitado.

Antes de comenzar, asegúrese de que la opción Arranque seguro esté deshabilitada en el BIOS. Esto se debe a que esta opción de instalación utiliza DKMS para compilar el controlador NVIDIA a partir del código fuente para cualquier kernel en ejecución actual. No hay ninguna firma de proveedor para el controlador compilado. Si el arranque seguro está habilitado, el controlador autocompilado no se carga y muestra el error Required key not available. Verifique el estado actual mediante un comando mokutil --sb-state en Red Hat Enterprise Linux y presione F2 durante la POST del servidor para cambiarlo en el BIOS.

Si se requiere el arranque seguro , o si prefiere un controlador precompilado, consulte el siguiente artículo para instalarlo.  Cómo instalar el controlador NVIDIA en línea en Red Hat Enterprise Linux con el arranque seguro habilitado.

  1. Descargue el controlador necesario desde el sitio de NVIDIA .Este hipervínculo lo redirige a un sitio web fuera de Dell Technologies.
    1. Seleccione la versión correcta de Red Hat Enterprise Linux, por ejemplo, Red Hat Enterprise Linux 8.
    2. Seleccione la versión correcta de Compute Unified Device Architecture (CUDA) necesaria con el kit de herramientas CUDA que va a instalar, por ejemplo, 12.2.
    3. El paquete de descarga es un RPM, por ejemplo, nvidia-driver-local-repo-rhel8-535.54.03-1.0-1.x86_64.rpm
  2. Instale el RPM. Eso crea un repositorio local.
[root@rhel87 ~]# ls
anaconda-ks.cfg  nvidia-driver-local-repo-rhel8-535.54.03-1.0-1.x86_64.rpm
[root@rhel87 ~]# yum localinstall ./nvidia-driver-local-repo-rhel8-535.54.03-1.0-1.x86_64.rpm
...output skipped...
[root@rhel87 ~]# yum repolist
Updating Subscription Management repositories.
Unable to read consumer identity

This system is not registered with an entitlement server. You can use subscription-manager to register.

repo id                              repo name
my-rhel-87-AppStream-iso             my RHEL 87 AppStream iso
my-rhel-87-BaseOS-iso                my RHEL 87 BaseOS iso
my-rhel-extra-rpms                   my RHEL extra rpms
nvidia-driver-local-rhel8-535.54.03  nvidia-driver-local-rhel8-535.54.03
[root@rhel87 ~]#
  1. Instalar DKMS. DKMS no está en Red Hat Enterprise Linux. Está disponible en paquetes adicionales para Enterprise Linux (EPEL).Este hipervínculo lo redirige a un sitio web fuera de Dell Technologies.  Para obtener más detalles acerca de DKMS, consulte el artículo de Red Hat ¿Se proporciona DKMS en Red Hat Enterprise LinuxEste hipervínculo lo redirige a un sitio web fuera de Dell Technologies.
[root@rhel87 ~]# yum install https://dl.fedoraproject.org/pub/epel/epel-release-latest-8.noarch.rpm
[root@rhel87 ~]# yum install dkms
  1. Puede desactivar o eliminar EPEL si es necesario.
# to disable epel, edit the following configuration and change to "enabled=0" 
[root@rhel87 ~]# vi /etc/yum.repos.d/epel.repo 

# to remove the epel 
[root@rhel87 ~]# yum remove epel-release
  1. Instale las herramientas de compilación y el encabezado del kernel. Asegúrese de que la suscripción a Red Hat esté adjunta.
[root@rhel87 ~]# yum groupinstall "Development Tools"
[root@rhel87 ~]# yum install kernel-devel-$(uname -r)
  1. Instale cuda-driver
[root@rhel87 ~]# yum install cuda-driver
  1. Confirme que el controlador se haya instalado correctamente.
[root@rhel87 ~]# dkms status
nvidia/535.54.03, 4.18.0-425.3.1.el8.x86_64, x86_64: installed
[root@rhel87 ~]#
  1. Si el estado designado anteriormente no es instalado, sino que es Agregado, puede crearlo.
[root@rhel87 ~]# dkms build nvidia/535.54.03
  1. Si el estado designado es Built, puede instalarlo.
[root@rhel87 ~]# dkms install nvidia/535.54.03
  1. Si el estado falló en la compilación o en la instalación, revise los registros en la siguiente ruta:
[root@rhel87 ~]# ls /var/lib/dkms/nvidia/535.54.03/4.18.0-425.3.1.el8.x86_64/x86_64/log/make.log
[root@rhel87 ~]#
  1. Reinicie el servidor después de instalar el controlador NVIDIA.
[root@rhel87 ~]# systemctl reboot
  1. Verifique que el controlador esté en funcionamiento.
[root@rhel87 ~]# lsmod | grep nvidia
nvidia_drm             73728  0
nvidia_modeset       1306624  1 nvidia_drm
nvidia_uvm           1523712  0
nvidia              56426496  2 nvidia_uvm,nvidia_modeset
drm_kms_helper        176128  4 qxl,nvidia_drm
drm                   565248  7 drm_kms_helper,qxl,nvidia,drm_ttm_helper,nvidia_drm,ttm
[root@rhel87 ~]# nvidia-smi
Tue Jul 25 12:00:29 2023
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.54.03              Driver Version: 535.54.03    CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  Tesla P100-PCIE-12GB           Off | 00000000:07:00.0 Off |                    0 |
| N/A   33C    P0              29W / 250W |      0MiB / 12288MiB |      2%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+

+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|  No running processes found                                                           |
+---------------------------------------------------------------------------------------+
[root@rhel87 ~]# modinfo nvidia
filename:       /lib/modules/4.18.0-425.3.1.el8.x86_64/extra/nvidia.ko.xz
firmware:       nvidia/535.54.03/gsp_tu10x.bin
firmware:       nvidia/535.54.03/gsp_ga10x.bin
alias:          char-major-195-*
version:        535.54.03
supported:      external
license:        NVIDIA
rhelversion:    8.7
srcversion:     EA9C7EF32617E104C8240C4



Si hay algún problema, recopile los siguientes registros y comuníquese con el soporte de Dell:

  • sosreport
  • Los archivos de registro mencionados anteriormente en la compilación o la creación si la compilación del controlador falló
  • Cualquiera /var/log/nvidia-installer.logo cualquier registro mencionado en la salida durante la instalación

Otra información a tener en cuenta:

  • Si Red Hat Enterprise Linux se instaló y arrancó con graphical.target, es posible que vea una pantalla negra después del reinicio. La solución es mover /etc/X11/xorg.conf.d/10-nvidia.conf fuera de la carpeta X11 y reiniciar el servidor.
  • Si desea pasar a través de la GPU a una VM en KVM con graphical.target, fallará. La solución es arrancar el hipervisor Red Hat Enterprise Linux en multiusuario.objetivo, ya que entonces graphical.target evita que el controlador NVIDIA se descargue antes de pasar a la máquina virtual.

Affected Products

Red Hat Enterprise Linux Version 7, Red Hat Enterprise Linux Version 9, Red Hat Enterprise Linux Version 8

Products

DSS 8440, Poweredge C4140, PowerEdge C6525, PowerEdge R640, PowerEdge R650, PowerEdge R6515, PowerEdge R6525, PowerEdge R740, PowerEdge R740XD, PowerEdge R7425, PowerEdge R750, PowerEdge R750XA, PowerEdge R7515, PowerEdge R7525, PowerEdge R840 , PowerEdge R940xa, PowerEdge T550, PowerEdge T640, PowerEdge XE2420, PowerEdge XE7420, PowerEdge XE9680 ...
Article Properties
Article Number: 000216077
Article Type: How To
Last Modified: 06 Dec 2024
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.