PowerEdge: Como instalar o driver NVIDIA no Red Hat Enterprise Linux
Summary: Este artigo discute a compilação e a instalação de um driver NVIDIA com o Dynamic Kernel Module Support (DKMS) no Red Hat Enterprise Linux que tem a "inicialização segura" desativada.
Instructions
Este artigo discute como compilar e instalar um driver NVIDIA com DKMS no Red Hat Enterprise Linux que tem a "inicialização segura" desativada.
Antes de começar, certifique-se de que a opção Secure Boot esteja desativada no BIOS. Isso ocorre porque essa opção de instalação está usando o DKMS para compilar o driver NVIDIA a partir do código-fonte de qualquer kernel em execução atualmente. Não há nenhuma assinatura de fornecedor para o driver compilado. Se a inicialização segura estiver ativada, o driver autocompilado não será carregado com o erro Required key not available. Verificar o status atual por comando mokutil --sb-state no Red Hat Enterprise Linux e altere-o no BIOS pressionando F2 durante o POST do servidor.
Se o Secure Boot for necessário ou se você preferir um driver pré-compilado, consulte o seguinte artigo para instalar. Como instalar o driver NVIDIA on-line no Red Hat Enterprise Linux com a inicialização segura ativada.
- Faça download do driver necessário no site da NVIDIA .
- Selecione a versão correta do Red Hat Enterprise Linux, por exemplo, Red Hat Enterprise Linux 8.
- Selecione a versão correta da Arquitetura de Dispositivo Unificado de Computação (CUDA) necessária com o kit de ferramentas CUDA que você vai instalar, por exemplo, 12.2.
- O pacote de download é um RPM, por exemplo, nvidia-driver-local-repo-rhel8-535.54.03-1.0-1.x86_64.rpm
- Instale o RPM. Isso cria um repositório local.
[root@rhel87 ~]# ls anaconda-ks.cfg nvidia-driver-local-repo-rhel8-535.54.03-1.0-1.x86_64.rpm [root@rhel87 ~]# yum localinstall ./nvidia-driver-local-repo-rhel8-535.54.03-1.0-1.x86_64.rpm ...output skipped... [root@rhel87 ~]# yum repolist Updating Subscription Management repositories. Unable to read consumer identity This system is not registered with an entitlement server. You can use subscription-manager to register. repo id repo name my-rhel-87-AppStream-iso my RHEL 87 AppStream iso my-rhel-87-BaseOS-iso my RHEL 87 BaseOS iso my-rhel-extra-rpms my RHEL extra rpms nvidia-driver-local-rhel8-535.54.03 nvidia-driver-local-rhel8-535.54.03 [root@rhel87 ~]#
- Instalar DKMS. O DKMS não está no Red Hat Enterprise Linux. Ele está disponível em Pacotes Extras para Linux Empresarial (EPEL).
Para obter mais detalhes sobre o DKMS, consulte o artigo da Red Hat O DKMS é fornecido no Red Hat Enterprise Linux
[root@rhel87 ~]# yum install https://dl.fedoraproject.org/pub/epel/epel-release-latest-8.noarch.rpm [root@rhel87 ~]# yum install dkms
- Você pode desativar ou remover o EPEL, se necessário.
# to disable epel, edit the following configuration and change to "enabled=0" [root@rhel87 ~]# vi /etc/yum.repos.d/epel.repo # to remove the epel [root@rhel87 ~]# yum remove epel-release
- Instale as ferramentas de compilação e o cabeçalho do kernel. Certifique-se de que a assinatura do Red Hat esteja anexada.
[root@rhel87 ~]# yum groupinstall "Development Tools" [root@rhel87 ~]# yum install kernel-devel-$(uname -r)
- Instale o cuda-driver
[root@rhel87 ~]# yum install cuda-driver
- Confirme se o driver foi instalado com sucesso.
[root@rhel87 ~]# dkms status
nvidia/535.54.03, 4.18.0-425.3.1.el8.x86_64, x86_64: installed
[root@rhel87 ~]#
- Se o status designado acima não estiver Instalado, mas, em vez disso, for Adicionado, você poderá criá-lo.
[root@rhel87 ~]# dkms build nvidia/535.54.03
- Se o status designado for criado, você poderá instalá-lo.
[root@rhel87 ~]# dkms install nvidia/535.54.03
- Se o status falhou na criação ou na instalação, analise os logs no seguinte caminho:
[root@rhel87 ~]# ls /var/lib/dkms/nvidia/535.54.03/4.18.0-425.3.1.el8.x86_64/x86_64/log/make.log [root@rhel87 ~]#
- Reinicialize o servidor após a instalação do driver NVIDIA.
[root@rhel87 ~]# systemctl reboot
- Verifique se o driver está ativo e em execução.
[root@rhel87 ~]# lsmod | grep nvidia nvidia_drm 73728 0 nvidia_modeset 1306624 1 nvidia_drm nvidia_uvm 1523712 0 nvidia 56426496 2 nvidia_uvm,nvidia_modeset drm_kms_helper 176128 4 qxl,nvidia_drm drm 565248 7 drm_kms_helper,qxl,nvidia,drm_ttm_helper,nvidia_drm,ttm [root@rhel87 ~]# nvidia-smi Tue Jul 25 12:00:29 2023 +---------------------------------------------------------------------------------------+ | NVIDIA-SMI 535.54.03 Driver Version: 535.54.03 CUDA Version: 12.2 | |-----------------------------------------+----------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+======================+======================| | 0 Tesla P100-PCIE-12GB Off | 00000000:07:00.0 Off | 0 | | N/A 33C P0 29W / 250W | 0MiB / 12288MiB | 2% Default | | | | N/A | +-----------------------------------------+----------------------+----------------------+ +---------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=======================================================================================| | No running processes found | +---------------------------------------------------------------------------------------+ [root@rhel87 ~]# modinfo nvidia filename: /lib/modules/4.18.0-425.3.1.el8.x86_64/extra/nvidia.ko.xz firmware: nvidia/535.54.03/gsp_tu10x.bin firmware: nvidia/535.54.03/gsp_ga10x.bin alias: char-major-195-* version: 535.54.03 supported: external license: NVIDIA rhelversion: 8.7 srcversion: EA9C7EF32617E104C8240C4
Se houver algum problema, colete os seguintes logs e entre em contato com o Suporte Dell:
sosreport- Os arquivos de registros mencionados acima na compilação ou make se a compilação do driver falhou
- Qualquer um
/var/log/nvidia-installer.log, ou quaisquer logs mencionados na saída durante a instalação
Outras informações a saber:
- Se o Red Hat Enterprise Linux tiver sido instalado e inicializado com graphical.target, você poderá ver uma tela preta após a reinicialização. A solução é mover /etc/X11/xorg.conf.d/10-nvidia.conf para fora da pasta X11 e reinicializar o servidor.
- Se você quiser passar a GPU para uma VM no KVM com graphical.target, isso apresentará falha. A solução é inicializar o hypervisor Red Hat Enterprise Linux em multi-user.target porque, em seguida, graphical.target impede que o driver NVIDIA descarregue antes de passar para a VM.