PowerEdge: Como instalar o driver NVIDIA no Red Hat Enterprise Linux

Summary: Este artigo discute a compilação e a instalação de um driver NVIDIA com o Dynamic Kernel Module Support (DKMS) no Red Hat Enterprise Linux que tem a "inicialização segura" desativada.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Este artigo discute como compilar e instalar um driver NVIDIA com DKMS no Red Hat Enterprise Linux que tem a "inicialização segura" desativada.

Antes de começar, certifique-se de que a opção Secure Boot esteja desativada no BIOS. Isso ocorre porque essa opção de instalação está usando o DKMS para compilar o driver NVIDIA a partir do código-fonte de qualquer kernel em execução atualmente. Não há nenhuma assinatura de fornecedor para o driver compilado. Se a inicialização segura estiver ativada, o driver autocompilado não será carregado com o erro Required key not available. Verificar o status atual por comando mokutil --sb-state no Red Hat Enterprise Linux e altere-o no BIOS pressionando F2 durante o POST do servidor.

Se o Secure Boot for necessário ou se você preferir um driver pré-compilado, consulte o seguinte artigo para instalar. Como instalar o driver NVIDIA on-line no Red Hat Enterprise Linux com a inicialização segura ativada.

  1. Faça download do driver necessário no site da NVIDIA .Esse hiperlink direcionará você para um site fora da Dell Technologies.
    1. Selecione a versão correta do Red Hat Enterprise Linux, por exemplo, Red Hat Enterprise Linux 8.
    2. Selecione a versão correta da Arquitetura de Dispositivo Unificado de Computação (CUDA) necessária com o kit de ferramentas CUDA que você vai instalar, por exemplo, 12.2.
    3. O pacote de download é um RPM, por exemplo, nvidia-driver-local-repo-rhel8-535.54.03-1.0-1.x86_64.rpm
  2. Instale o RPM. Isso cria um repositório local.
[root@rhel87 ~]# ls
anaconda-ks.cfg  nvidia-driver-local-repo-rhel8-535.54.03-1.0-1.x86_64.rpm
[root@rhel87 ~]# yum localinstall ./nvidia-driver-local-repo-rhel8-535.54.03-1.0-1.x86_64.rpm
...output skipped...
[root@rhel87 ~]# yum repolist
Updating Subscription Management repositories.
Unable to read consumer identity

This system is not registered with an entitlement server. You can use subscription-manager to register.

repo id                              repo name
my-rhel-87-AppStream-iso             my RHEL 87 AppStream iso
my-rhel-87-BaseOS-iso                my RHEL 87 BaseOS iso
my-rhel-extra-rpms                   my RHEL extra rpms
nvidia-driver-local-rhel8-535.54.03  nvidia-driver-local-rhel8-535.54.03
[root@rhel87 ~]#
  1. Instalar DKMS. O DKMS não está no Red Hat Enterprise Linux. Ele está disponível em Pacotes Extras para Linux Empresarial (EPEL).Esse hiperlink direcionará você para um site fora da Dell Technologies.  Para obter mais detalhes sobre o DKMS, consulte o artigo da Red Hat O DKMS é fornecido no Red Hat Enterprise Linux Esse hiperlink direcionará você para um site fora da Dell Technologies.
[root@rhel87 ~]# yum install https://dl.fedoraproject.org/pub/epel/epel-release-latest-8.noarch.rpm
[root@rhel87 ~]# yum install dkms
  1. Você pode desativar ou remover o EPEL, se necessário.
# to disable epel, edit the following configuration and change to "enabled=0" 
[root@rhel87 ~]# vi /etc/yum.repos.d/epel.repo 

# to remove the epel 
[root@rhel87 ~]# yum remove epel-release
  1. Instale as ferramentas de compilação e o cabeçalho do kernel. Certifique-se de que a assinatura do Red Hat esteja anexada.
[root@rhel87 ~]# yum groupinstall "Development Tools"
[root@rhel87 ~]# yum install kernel-devel-$(uname -r)
  1. Instale o cuda-driver
[root@rhel87 ~]# yum install cuda-driver
  1. Confirme se o driver foi instalado com sucesso.
[root@rhel87 ~]# dkms status
nvidia/535.54.03, 4.18.0-425.3.1.el8.x86_64, x86_64: installed
[root@rhel87 ~]#
  1. Se o status designado acima não estiver Instalado, mas, em vez disso, for Adicionado, você poderá criá-lo.
[root@rhel87 ~]# dkms build nvidia/535.54.03
  1. Se o status designado for criado, você poderá instalá-lo.
[root@rhel87 ~]# dkms install nvidia/535.54.03
  1. Se o status falhou na criação ou na instalação, analise os logs no seguinte caminho:
[root@rhel87 ~]# ls /var/lib/dkms/nvidia/535.54.03/4.18.0-425.3.1.el8.x86_64/x86_64/log/make.log
[root@rhel87 ~]#
  1. Reinicialize o servidor após a instalação do driver NVIDIA.
[root@rhel87 ~]# systemctl reboot
  1. Verifique se o driver está ativo e em execução.
[root@rhel87 ~]# lsmod | grep nvidia
nvidia_drm             73728  0
nvidia_modeset       1306624  1 nvidia_drm
nvidia_uvm           1523712  0
nvidia              56426496  2 nvidia_uvm,nvidia_modeset
drm_kms_helper        176128  4 qxl,nvidia_drm
drm                   565248  7 drm_kms_helper,qxl,nvidia,drm_ttm_helper,nvidia_drm,ttm
[root@rhel87 ~]# nvidia-smi
Tue Jul 25 12:00:29 2023
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.54.03              Driver Version: 535.54.03    CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  Tesla P100-PCIE-12GB           Off | 00000000:07:00.0 Off |                    0 |
| N/A   33C    P0              29W / 250W |      0MiB / 12288MiB |      2%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+

+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|  No running processes found                                                           |
+---------------------------------------------------------------------------------------+
[root@rhel87 ~]# modinfo nvidia
filename:       /lib/modules/4.18.0-425.3.1.el8.x86_64/extra/nvidia.ko.xz
firmware:       nvidia/535.54.03/gsp_tu10x.bin
firmware:       nvidia/535.54.03/gsp_ga10x.bin
alias:          char-major-195-*
version:        535.54.03
supported:      external
license:        NVIDIA
rhelversion:    8.7
srcversion:     EA9C7EF32617E104C8240C4



Se houver algum problema, colete os seguintes logs e entre em contato com o Suporte Dell:

  • sosreport
  • Os arquivos de registros mencionados acima na compilação ou make se a compilação do driver falhou
  • Qualquer um /var/log/nvidia-installer.log, ou quaisquer logs mencionados na saída durante a instalação

Outras informações a saber:

  • Se o Red Hat Enterprise Linux tiver sido instalado e inicializado com graphical.target, você poderá ver uma tela preta após a reinicialização. A solução é mover /etc/X11/xorg.conf.d/10-nvidia.conf para fora da pasta X11 e reinicializar o servidor.
  • Se você quiser passar a GPU para uma VM no KVM com graphical.target, isso apresentará falha. A solução é inicializar o hypervisor Red Hat Enterprise Linux em multi-user.target porque, em seguida, graphical.target impede que o driver NVIDIA descarregue antes de passar para a VM.

Affected Products

Red Hat Enterprise Linux Version 7, Red Hat Enterprise Linux Version 9, Red Hat Enterprise Linux Version 8

Products

DSS 8440, Poweredge C4140, PowerEdge C6525, PowerEdge R640, PowerEdge R650, PowerEdge R6515, PowerEdge R6525, PowerEdge R740, PowerEdge R740XD, PowerEdge R7425, PowerEdge R750, PowerEdge R750XA, PowerEdge R7515, PowerEdge R7525, PowerEdge R840 , PowerEdge R940xa, PowerEdge T550, PowerEdge T640, PowerEdge XE2420, PowerEdge XE7420, PowerEdge XE9680 ...
Article Properties
Article Number: 000216077
Article Type: How To
Last Modified: 06 Dec 2024
Version:  5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.