PowerEdge: Anleitung zur Installation des NVIDIA-Treibers unter Red Hat Enterprise Linux
Summary: In diesem Artikel wird das Kompilieren und Installieren eines NVIDIA-Treibers mit Dynamic Kernel Module Support (DKMS) unter Red Hat Enterprise Linux beschrieben, bei dem "Secure Boot" deaktiviert ist. ...
Instructions
In diesem Artikel wird beschrieben, wie Sie einen NVIDIA-Treiber mit DKMS unter Red Hat Enterprise Linux kompilieren und installieren, bei dem "Secure Boot" deaktiviert ist.
Bevor Sie beginnen, stellen Sie sicher, dass die Option "Secure Boot " im BIOS deaktiviert ist. Dies liegt daran, dass diese Installationsoption DKMS verwendet, um den NVIDIA-Treiber aus dem Quellcode für jeden aktuell ausgeführten Kernel zu kompilieren. Es gibt keine Herstellersignatur für den kompilierten Treiber. Wenn Secure Boot aktiviert ist, kann der selbstkompilierte Treiber nicht geladen werden, mit dem Fehler Required key not available. Überprüfen des aktuellen Status per Befehl mokutil --sb-state unter Red Hat Enterprise Linux und ändern Sie es im BIOS, indem Sie während des Server-POST F2 drücken.
Wenn Secure Boot erforderlich ist oder Sie einen vorkompilierten Treiber bevorzugen, lesen Sie den folgenden Artikel zur Installation. Anleitung zur Online-Installation des NVIDIA-Treibers unter Red Hat Enterprise Linux mit aktiviertem Secure Boot.
- Laden Sie den erforderlichen Treiber von der NVIDIA-Website herunter.
- Wählen Sie die richtige Version von Red Hat Enterprise Linux aus, z. B. Red Hat Enterprise Linux 8.
- Wählen Sie die richtige CUDA-Version (Compute Unified Device Architecture) aus, die mit dem CUDA-Toolkit erforderlich ist, das Sie installieren möchten, z. B. 12.2.
- Das Downloadpaket ist ein RPM, z. B. nvidia-driver-local-repo-rhel8-535.54.03-1.0-1.x86_64.rpm
- Installieren Sie das RPM. Dadurch wird ein lokales Repository erstellt.
[root@rhel87 ~]# ls anaconda-ks.cfg nvidia-driver-local-repo-rhel8-535.54.03-1.0-1.x86_64.rpm [root@rhel87 ~]# yum localinstall ./nvidia-driver-local-repo-rhel8-535.54.03-1.0-1.x86_64.rpm ...output skipped... [root@rhel87 ~]# yum repolist Updating Subscription Management repositories. Unable to read consumer identity This system is not registered with an entitlement server. You can use subscription-manager to register. repo id repo name my-rhel-87-AppStream-iso my RHEL 87 AppStream iso my-rhel-87-BaseOS-iso my RHEL 87 BaseOS iso my-rhel-extra-rpms my RHEL extra rpms nvidia-driver-local-rhel8-535.54.03 nvidia-driver-local-rhel8-535.54.03 [root@rhel87 ~]#
- Installieren DKMS. DKMS befindet sich nicht in Red Hat Enterprise Linux. Es ist in Extra Packages for Enterprise Linux (EPEL)
verfügbar. Weitere Informationen zu DKMS finden Sie im Red Hat-Artikel Wird DKMS in Red Hat Enterprise Linux bereitgestellt?
[root@rhel87 ~]# yum install https://dl.fedoraproject.org/pub/epel/epel-release-latest-8.noarch.rpm [root@rhel87 ~]# yum install dkms
- Sie können das EPEL bei Bedarf deaktivieren oder entfernen.
# to disable epel, edit the following configuration and change to "enabled=0" [root@rhel87 ~]# vi /etc/yum.repos.d/epel.repo # to remove the epel [root@rhel87 ~]# yum remove epel-release
- Installieren Sie Kompilierungstools und den Kernel-Header. Stellen Sie sicher, dass das Red Hat-Abonnement angefügt ist.
[root@rhel87 ~]# yum groupinstall "Development Tools" [root@rhel87 ~]# yum install kernel-devel-$(uname -r)
- Installieren Sie den cuda-Treiber.
[root@rhel87 ~]# yum install cuda-driver
- Vergewissern Sie sich, dass der Treiber erfolgreich installiert wurde.
[root@rhel87 ~]# dkms status
nvidia/535.54.03, 4.18.0-425.3.1.el8.x86_64, x86_64: installed
[root@rhel87 ~]#
- Wenn der oben angegebene Status nicht installiert ist, sondern stattdessen hinzugefügt wird, können Sie es erstellen.
[root@rhel87 ~]# dkms build nvidia/535.54.03
- Wenn der angegebene Status "Build" lautet, können Sie es installieren.
[root@rhel87 ~]# dkms install nvidia/535.54.03
- Wenn der Status beim Erstellen oder Installieren fehlgeschlagen ist, überprüfen Sie die Protokolle unter dem folgenden Pfad:
[root@rhel87 ~]# ls /var/lib/dkms/nvidia/535.54.03/4.18.0-425.3.1.el8.x86_64/x86_64/log/make.log [root@rhel87 ~]#
- Starten Sie den Server neu, nachdem der NVIDIA-Treiber installiert wurde.
[root@rhel87 ~]# systemctl reboot
- Stellen Sie sicher , dass der Treiber ausgeführt wird.
[root@rhel87 ~]# lsmod | grep nvidia nvidia_drm 73728 0 nvidia_modeset 1306624 1 nvidia_drm nvidia_uvm 1523712 0 nvidia 56426496 2 nvidia_uvm,nvidia_modeset drm_kms_helper 176128 4 qxl,nvidia_drm drm 565248 7 drm_kms_helper,qxl,nvidia,drm_ttm_helper,nvidia_drm,ttm [root@rhel87 ~]# nvidia-smi Tue Jul 25 12:00:29 2023 +---------------------------------------------------------------------------------------+ | NVIDIA-SMI 535.54.03 Driver Version: 535.54.03 CUDA Version: 12.2 | |-----------------------------------------+----------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+======================+======================| | 0 Tesla P100-PCIE-12GB Off | 00000000:07:00.0 Off | 0 | | N/A 33C P0 29W / 250W | 0MiB / 12288MiB | 2% Default | | | | N/A | +-----------------------------------------+----------------------+----------------------+ +---------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=======================================================================================| | No running processes found | +---------------------------------------------------------------------------------------+ [root@rhel87 ~]# modinfo nvidia filename: /lib/modules/4.18.0-425.3.1.el8.x86_64/extra/nvidia.ko.xz firmware: nvidia/535.54.03/gsp_tu10x.bin firmware: nvidia/535.54.03/gsp_ga10x.bin alias: char-major-195-* version: 535.54.03 supported: external license: NVIDIA rhelversion: 8.7 srcversion: EA9C7EF32617E104C8240C4
Wenn ein Problem vorliegt, sammeln Sie die folgenden Protokolle und wenden Sie sich an den Dell Support:
sosreport- Die oben erwähnten Protokolldateien in built oder make, wenn der Treiber-Build fehlgeschlagen ist
- Alle
/var/log/nvidia-installer.logoder alle Protokolle, die in der Ausgabe während der Installation erwähnt werden
Weitere wichtige Informationen:
- Wenn Red Hat Enterprise Linux mit graphical.target installiert und gestartet wurde, wird nach dem Neustart möglicherweise ein schwarzer Bildschirm angezeigt. Die Lösung besteht darin, /etc/X11/xorg.conf.d/10-nvidia.conf aus dem X11-Ordner zu verschieben und den Server neu zu starten.
- Wenn Sie die GPU über graphical.target an eine VM in KVM mit graphical.target übergeben möchten, schlägt dies fehl. Die Lösung besteht darin, den Hypervisor Red Hat Enterprise Linux in multi-user.target zu starten, da graphical.target dann verhindert, dass der NVIDIA-Treiber vor der Übertragung an die VM entladen wird.