PowerEdge:配备 NVIDIA A100/80G 4 GPU 的 XE8545 由于温度导致性能节流

摘要: 本文提供有关 NVIDIA A100/80G 4 GPU (Redstone+) 上由于环境温度较高而出现的性能限制的信息。

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

症状

如果系统配备了 NVIDIA A100/80G 4-GPU (Redstone+),并且环境温度达到 28°C (82.4°F),则 GPU 性能可能会下降,以保护系统免受损坏。

原因

当环境温度高于 28°C (82.4°F) 时,GPU 完全压力可能会达到 85°C (185°F) 并触发限制。


检查 GPU 限制状态:

  • 使用命令”nvidia-smi -q -d performance“,按如下所示检查限制状态:
    nvidia-smi 命令的输出示例 

 

时钟限制原因:

  • 检索有关降低时钟频率的因素的信息,仅在 Kepler 系列中受支持的 Tesla 设备上 
  • 如果所有限制原因都返回为“Not Active”,则表示时钟正在以尽可能高的速度运行。 

 


检查 iDRAC 入口温度:

  • iDRAC 系统事件日志 (SEL) 和生命周期日志显示”The system inlet temperature is greater than the upper warning threshold“的消息。
    IDRAC WebUI 中的系统事件日志 
    iDRAC WebUI 中的生命周期日志 
  • Temperature Overview 的温度状态和温度探测器显示警告符号。
    IDRAC 中的温度概览 
    iDRAC Webui 中的温度探测器 
     

解决方案

要清除该错误,您必须将环境温度降低到 28°C (82.4°F) 以下

受影响的产品

PowerEdge XE8545

产品

PowerEdge XE9680
文章属性
文章编号: 000182430
文章类型: Solution
上次修改时间: 08 5月 2026
版本:  4
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。