PowerEdge: Linux系统收集GPU Debug Log教程

摘要: 文章介绍了Linux系统收集GPU Debug Log的教程。

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

说明

NVIDIA系统管理界面(NVIDIA-smi)是一个基于NVIDIA管理库(NVIDIA Management Library-NVML)的命令行实用程序,旨在帮助管理和监控NVIDIA GPU设备。
此实用程序允许管理员查询GPU设备状态,并允许管理员使用适当的权限修改GPU设备状态。它针对TeslaTM、GRIDTM、QuadroTM和Titan X产品,但其他NVIDIA GPU也提供有限的支持。通常Linux系统或者64位Windows Sever 2008R2以上的系统,安装驱动后就可以使用。
当碰到GPU卡异常问题的时候,可以使用此工具输出GPU卡的信息以及收集Debug日志,步骤如下:

  1. GPU运行性能数据,运行命令:
    nvidia-smi
图例image.png
  1. 列出GPU的详细信息,运行命令:
nvidia-smi --query

 

图例image.png
  1. 收集GPU卡日志,运行命令:
nvidia-bug-report.sh
 
  1. 命令运行完成后会在当前的工作目录中创建一个名为nvidia-bg-report.log的文件。
图例
  1. 使用WinSCP等工具将文件转出即可,登录主机的IP,输入用户名和密码。
图

6.右边找到文件所在位置,左边选择系统中需要存放的位置,即可导出。

图例

受影响的产品

PowerEdge
文章属性
文章编号: 000206316
文章类型: How To
上次修改时间: 15 9月 2025
版本:  3
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。