PowerEdge: Linux系统收集GPU Debug Log教程

摘要: 文章介绍了Linux系统收集GPU Debug Log的教程。

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

说明

NVIDIA系统管理界面(NVIDIA-smi)是一个基于NVIDIA管理库(NVIDIA Management Library-NVML)的命令行实用程序,旨在帮助管理和监控NVIDIA GPU设备。
此实用程序允许管理员查询GPU设备状态,并允许管理员使用适当的权限修改GPU设备状态。它针对TeslaTM、GRIDTM、QuadroTM和Titan X产品,但其他NVIDIA GPU也提供有限的支持。通常Linux系统或者64位Windows Sever 2008R2以上的系统,安装驱动后就可以使用。
当碰到GPU卡异常问题的时候,可以使用此工具输出GPU卡的信息以及收集Debug日志,步骤如下:

  1. GPU运行性能数据,运行命令:
    nvidia-smi
图例image.png
  1. 列出GPU的详细信息,运行命令:
nvidia-smi --query

 

图例image.png
  1. 收集GPU卡日志,运行命令:
nvidia-bug-report.sh
 
  1. 命令运行完成后会在当前的工作目录中创建一个名为nvidia-bg-report.log的文件。
图例
  1. 使用WinSCP等工具将文件转出即可,登录主机的IP,输入用户名和密码。
图

6.右边找到文件所在位置,左边选择系统中需要存放的位置,即可导出。

图例

受影响的产品

SUSE Linux Enterprise Server 12, Red Hat Enterprise Linux Version 10, Red Hat Enterprise Linux Version 9, Red Hat Enterprise Linux Version 8, SUSE Linux Enterprise Server 15, SUSE Linux Enterprise Server 16, Ubuntu Server LTS
文章属性
文章编号: 000206316
文章类型: How To
上次修改时间: 27 1月 2026
版本:  4
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。