说明
- 风扇故障、风扇缺失、风扇损坏
- 固件过时
- 与 Integrated Dell Remote Access Controller (iDRAC)、Baseboard Management Chip (BMC) 或 Chassis Management Controller(CMC,适用于 MX 机箱的 OME-M)的通信中断
- 安装了不受支持的硬件
- 需要安装不同类型风扇的计算机第二个 CPU 升级(取决于系统类型)或常规升级未完成
- 温度超出正常风扇速度范围(繁重的工作负载导致 CPU 利用率和温度升高、通风不畅)
- 系统护盖打开或安装不正确。防盗开关可能被触发或不起作用。
- 配置设置
- 进气口温度传感器故障,读数错误
在这种情况下,至少一个风扇或风扇总成(包含两个风扇)损坏(接头、风扇叶片、风扇叶框架)、缺失或发生故障。
要确认导致问题的风扇总成或风扇,请按顺序执行以下步骤:
- 检查正面液晶屏或系统事件日志,以查看报告了哪个风扇。
- 在知道哪个风扇被报告为发生故障后,请检查盖子上的风扇编号(或查阅您的服务器用户指南),并查看风扇是否正在运行。
注意:在不关闭服务器以检查风扇的情况下打开服务器的盖子时,请务必小心操作。内部组件可能很热或很锋利,或是两者兼而有之。
- 如果风扇转动较慢、完全不转动或发出不规则的噪音(刮擦、磨损),请关闭机器并拆下风扇总成进行检查。
- 风扇磨损和刮擦应留下明显的划痕。
- 有时碎屑或灰尘会导致风扇变得不规则,在这种情况下,清洁风扇可能会有所帮助。
- 检查主板或风扇控制板上的接头以及风扇上的接头,查看是否有任何损坏。
- 如果没有风扇损坏或连接问题,请重新安装风扇、导流罩(如果有)、机箱盖,然后重新开启机器。
提醒:模块化机箱 M1000E 和 VRTX 的所有风扇均可从外部检查。有关详情,请参阅
您的用户指南。
如果风扇仍报告为故障,请检查此
列表中的下一个可能原因。
过时的固件可能会导致风扇在没有其他问题出现的时候高速旋转(发出噪音)。当固件的某些部分已更新并且传感器数据收集链中的某些元素被忽略而未更新时,这是很常见的情况。
以下是在下一步调查中应检查是否有更新的固件版本列表:
- iDRAC、CPLD、BIOS
- PERC、BOSS、背板、NVME 驱动器、SAS/SATA 驱动器
- NIC、任何其他 PCIe 卡
- 电源 (PSU)
- 任何其他硬件
提醒:第一组更新(iDRAC、BIOS、CPLD)必须作为单个更新完成,并且不应与任何其他更新一起进行。
当您想要使用 iDRAC 更新固件时(在
此处了解具体方法),更新将按导入顺序从左到右和从上到下列出。
每个列表项都应用作更新是否可同时进行的指南(但
不包括第一组项目)。
固件更新到最新版本后,继续进行
列表中的下一项。
当 iDRAC、BMC 或 CMC/OME-M 失去与传感器套件的连接时,风扇会恢复到非托管速度(全速),以防止系统过热。
这就是为什么首先打开风扇时,您会听到风扇加速旋转然后又停下。iDRAC、BMC 或 CMC/OME-M 启动并开始调节风扇速度需要几分钟时间。
提醒:当 iDRAC 或 BMC 未就绪时,开机自检过程中应显示超时消息。
液晶屏(如有)将保持无文本状态。如果系统类型为模块化,则它可能无法在机箱中开机,因为它无法与 CMC 通信。
在这种情况下,请
联系我们的支持团队。
要对此问题进行故障处理,请执行以下操作:
- 对于所有 iDRAC 系统,按住 i 按钮 16 秒钟。
- 对于具有 BMC 的系统,或者在步骤 1 不起作用的情况下:
- 关闭服务器电源
- 拔下电源线
- 按住开机按钮 10 秒钟
- 重新连接电源线
- 等待大约2分钟
- 将服务器重新开机
- 对于具有 CMC 或 OME-M 的系统:
- 如果安装了两个 CMC 或 OME-M,请按照故障切换过程故障切换到另一个设备。
- 如果仅安装了一个 CMC 或 OME-M,请从机箱中卸下模块,等待 2 分钟,然后重新插入模块,等待 20 分钟。
- 如果重新拔插模块或故障切换不起作用,则需要重新启动机箱才能完全重新初始化。
- 为所有依赖于机箱正常运行的服务器和连接的设备计划停机时间。
- 关闭服务器电源,然后关闭机箱电源
- 拔下电源线。
- 等待至少 10 分钟或按住开机按钮(如果有)。
- 重新连接电源线。
- 重新启动机箱,等待 20-30 分钟。
- 重新启动服务器。
- 全部恢复运行且没有任何错误或风扇噪音后,从外部重新连接到机箱。
如果您仍然遇到相同的风扇噪音,请继续浏览
列表。
不受支持的硬件或尚未经过认证的第三方供应商硬件可能会导致系统以高于正常速度甚至最大速度运行风扇。
要对此问题进行故障处理,请执行以下操作:
- 检查设备是否正常工作。
- 检查设备是否正确安装[在正确类型的插槽中(如果适用)]
- iDRAC 可能会为特定设备提高风扇速度或在未知时采用默认速度。
- 要在此处继续,请卸下第三方设备并查看风扇噪音是否恢复正常。
- 如果是,请咨询您的第三方供应商,询问是否有任何缓解措施,或者对在 Dell PowerEdge 服务器中使用该设备有任何建议。
提醒:戴尔无法支持您的第三方设备,也无法保证其在系统中的功能。
如果您遵循
列表一直到现在,但仍需要更多支持,请继续遵循列表。
如果您已升级系统或正在升级系统,某些升级需要额外的部件(风扇、内存 DIMM)或不同的风扇类型(从标准升级到银牌级甚至金牌级风扇)。
这些升级包括(并非详尽列表,请咨询您的销售代表):
- 可购买单个 CPU 且可容纳两个 CPU 的系统的第二个 CPU 升级(取决于系统类型)
- 这可能需要移除挡片,需要相同步进的额外 CPU、额外的内存,并且通常还需要一个额外的风扇
- 某些系统甚至可能需要将所有风扇从标准升级到银牌级或金牌级风扇(特定于系统和升级的要求)
- 支持 GPU 或 GPGPU 升级的系统的 GPU 或 GPGPU 升级
- 这可能需要额外的转接卡和支持布线,但也需要额外的冷却,具体取决于原始布局和已安装的风扇。
- 其他 PCIe 卡或 NVME 驱动器
- 在安装新部件后,可能需要进一步检查以确保一切都符合冷却预期,因为冷却要求可能需要额外的风扇或其他功能更强大的风扇类型。
如果您已遵循这些要求,并确保到目前为止未列出相关问题,请继续遵循
列表。
当系统的 CPU 处于高负载下时,其他部件也会使用更多功率,这会导致比正常水平更高的冷却要求。
此外,如果机器位于通风不良的空间中或者是灰尘堆积,风扇速度有可能会逐渐提高。
按照以下步骤进行检查,以了解此处存在的问题,以及可以采取哪些步骤来缓解或消除问题:
- 检查 CPU 利用率是否处于持续的高负载 (90-100%) 下
- 如果是这样,建议您检查为什么会出现这种情况,以及这是否是预期行为(这是正常工作负载导致的,还是未知原因,例如,在最近更新或升级操作系统后开始出现此情况)
- 如果行为不正常,请通过了解是哪个应用程序或服务导致高负载来进一步调查负载。
- 如果该行为是由于看似正常的操作导致的,并且最近没有对机器软件进行更新(或重新启动,有意或无意),则您的机器可能已达到其设计性能的上限,并且您的工作负载已超出其硬件的性能。特别是如果您有多个系统具有相似负载、运行相似工作负载类型并且具有相同问题,您需要与销售代表交谈,看看在扩展或升级方面可以采取哪些措施来解决这个问题。
- 检查进气口是否被阻塞或限制,或者风扇本身是否受到任何形式的阻塞或限制
- 灰尘随着时间的推移而堆积是相对正常的。根据具体情况,100% 无尘环境有时很难维持甚至不切实际。因此,必须对机器进行定期维护,给机器环境除尘并保持空气流动,并且应将此工作加入所有维护计划中,每年至少进行一次(机器暴露在灰尘中越多就越频繁)。
- 如果您发现通风口或风扇被阻塞,请为机器安排维护并清除所有灰尘和障碍物。您可以在保持 Dell Technologies 设备清洁的指南中找到一些详细信息。
如果在执行此步骤后问题仍然存在,请继续浏览
列表。
某些系统要求关闭系统护盖,并使防盗开关处于关闭状态(按下)。如果未安装护盖并因此触发防盗开关,则作为预防措施,风扇速度将提高到最大值。
这也可能是由于这些系统的防盗开关出现故障所致,因为损坏的开关始终处于打开状态,因此在这种情况下一直被触发,指示系统护盖已打开。
检查以下内容:
- 卸下系统护盖并重新安装,同时确保正确贴合。
- 建议在机架外有电源的测试台或工作台上进行测试,以保证安全的环境。
- 这样还可以更好地查看系统护盖的贴合情况以及防盗开关固定器或防盗开关本身的任何损坏情况。
- 检查开关是否正确就位,弹回时是否触发,按下时是否禁用。
- 触发防盗开关会在系统事件日志中生成一个条目(可在系统的 iDRAC 中找到)
- 正确合上系统护盖,检查是否贴合,并确保所有部件正确安装在一起。
如果在执行此步骤后仍需要进一步帮助,请查看
列表中的下一个主题。
iDRAC 控制机器的散热设置,确保所有部件均正确冷却。您可以手动更改这些设置,以提高或降低风扇速度的偏移量或更改默认散热配置文件。更改默认配置文件也可以提高风扇速度。
如果您不确定使用的设置,可以按照以下步骤重置设置:
- 在开机自检过程中,按 F2 键
- 选择 System Services
- 在右下角找到 Defaults 并按下它
- 选择 Exit
- 出现提示时,选择 Save and Reboot
- 重新启动后,在开机自检过程中再次按 F2 键
- 选择 iDRAC settings > Thermal
- 确保未设置或选择任何设置,并且配置文件显示 default Thermal Profile Settings (Max Performance)。
- 完成并重新启动。
如果您已经完成了这部分并且还没有找到解决方案,请考虑检查上面的
列表。如果您已执行完此列表,请
收集支持日志文件 [TSR](技术支持报告)并
联系我们的支持团队。
您可能会在 iDRAC 的系统事件日志 (SEL) 中看到一条警告消息,提示进气口温度传感器发生故障或读数高于预期(测量时的环境温度与传感器输出差距较大)。传感器测量机器前端的温度,iDRAC 根据提供的数据来计算冷却需求。因此,发生故障或测量不正确的传感器将导致更高或最大的风扇速度。
提醒:对于默认设置下的较低风扇速度和正常工作负载,典型进气口温度范围介于 21 °C 至 26 °C(70 °F 至 79 °F)之间。服务器可以在更高温度下运行,但必须提高风扇速度以加强散热。
要对此问题进行故障处理,请执行以下操作:
- 检查 SEL 中的警告或错误消息
- 如果您尚未执行固件部分中概述的操作,请按照该部分操作以排除信息不匹配的固件原因。
- 所有固件更新完成后,再次检查 SEL。
- 在 iDRAC Web 界面中检查进气口温度,查看它是否仍高于预期或完全没有读数。
- 如果问题仍然存在,请收集新的 TSR 并联系我们的支持团队。
在这里,您可以返回到
列表。
受影响的产品
PowerEdge FX2/FX2s, PowerEdge M1000E, PowerEdge MX7000, PowerEdge R230, PowerEdge R240, PowerEdge R250, PowerEdge R260, PowerEdge R330, PowerEdge R340, PowerEdge R350, PowerEdge R360, PowerEdge R430, PowerEdge R440, PowerEdge R450, PowerEdge R530
, PowerEdge R530xd, PowerEdge R540, PowerEdge R550, PowerEdge R630, PowerEdge R640, PowerEdge R6415, PowerEdge R650, PowerEdge R650xs, PowerEdge R6515, PowerEdge R6525, PowerEdge R660, PowerEdge R660xs, PowerEdge R6615, PowerEdge R6625, PowerEdge R730, PowerEdge R730xd, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R7415, PowerEdge R7425, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R7515, PowerEdge R7525, PowerEdge R760, PowerEdge R760XA, PowerEdge R760xd2, PowerEdge R760xs, PowerEdge R7615, PowerEdge R7625, PowerEdge R830, PowerEdge R840, PowerEdge R860, PowerEdge R930, PowerEdge R940, PowerEdge R940xa, PowerEdge R960, PowerEdge T130, PowerEdge T140, PowerEdge T150, PowerEdge T160, PowerEdge T330, PowerEdge T340, PowerEdge T350, PowerEdge T360, PowerEdge T430, PowerEdge T440, PowerEdge T550, PowerEdge T560, PowerEdge T630, PowerEdge T640, POWEREDGE VRTX
...