PowerEdge:配备 NVIDIA A100/80G 4 GPU 的 XE8545 由于温度导致性能节流
摘要: 本文提供有关 NVIDIA A100/80G 4 GPU (Redstone+) 上由于环境温度较高而出现的性能限制的信息。
本文适用于
本文不适用于
本文并非针对某种特定的产品。
本文并非包含所有产品版本。
症状
如果系统配备了 NVIDIA A100/80G 4-GPU (Redstone+),并且环境温度达到 28°C (82.4°F),则 GPU 性能可能会下降,以保护系统免受损坏。
原因
当环境温度高于 28°C (82.4°F) 时,GPU 完全压力可能会达到 85°C (185°F) 并触发限制。
检查 GPU 限制状态:
- 使用命令”
nvidia-smi -q -d performance“,按如下所示检查限制状态:
时钟限制原因:
- 检索有关降低时钟频率的因素的信息,仅在 Kepler 系列中受支持的 Tesla 设备上
- 如果所有限制原因都返回为“Not Active”,则表示时钟正在以尽可能高的速度运行。
检查 iDRAC 入口温度:
- iDRAC 系统事件日志 (SEL) 和生命周期日志显示”
The system inlet temperature is greater than the upper warning threshold“的消息。
- Temperature Overview 的温度状态和温度探测器显示警告符号。
解决方案
要清除该错误,您必须将环境温度降低到 28°C (82.4°F) 以下。
受影响的产品
PowerEdge XE8545产品
PowerEdge XE9680文章属性
文章编号: 000182430
文章类型: Solution
上次修改时间: 08 5月 2026
版本: 4
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。