PowerEdge:如何识别风扇噪音的一些常见原因并进行故障处理
摘要: 本文介绍了 PowerEdge 服务器中风扇噪音的一些常见的可能原因以及故障处理方法。 它还与 100% 风扇速度有关。
说明
PowerEdge 服务器中风扇噪音的常见原因是什么?
- 风扇故障、风扇缺失、风扇损坏
- 固件过时
- 与 Integrated Dell Remote Access Controller (iDRAC)、Baseboard Management Chip (BMC) 或 Chassis Management Controller(CMC、MX 机箱的 OME-M)之间的通信中断
- 安装了不受支持的硬件
- 需要安装不同类型风扇的计算机第二个 CPU 升级(取决于系统类型)或常规升级未完成
- 温度超出正常风扇速度范围(繁重的工作负载导致 CPU 利用率和温度升高、通风不畅)
- 系统护盖打开或安装不正确。防盗开关可能被触发或不起作用。
- 配置设置
- 进气口温度传感器故障,读数错误
风扇故障、风扇缺失、风扇损坏
在这种情况下,至少一个风扇或风扇总成(包含两个风扇)损坏(接头、风扇叶片、风扇叶框架)、缺失或发生故障。
要确认导致问题的风扇总成或风扇,请按顺序执行以下步骤:
- 检查正面液晶屏或系统事件日志,以查看报告了哪个风扇。
- 一旦已知哪个风扇报告故障,请检查风扇编号在盖子上的位置(或查阅 服务器用户指南),并查看风扇是否在运行。
注意:在不关闭服务器以检查风扇的情况下打开服务器的盖子时,请务必小心操作。内部组件可能很热或很锋利,或是两者兼而有之。
- 如果风扇转动较慢、完全不转动或发出不规则的噪音(刮擦、磨损),请关闭机器并拆下风扇总成进行检查。
- 风扇磨损和刮擦应留下明显的划痕。
- 有时碎屑或灰尘会导致风扇变得不规则,在这种情况下,清洁风扇可能会有所帮助。
- 检查主板或风扇控制板上的接头以及风扇上的接头,查看是否有任何损坏。
- 如果没有风扇损坏或连接问题,请重新安装风扇、导流罩(如果有)、机箱盖,然后重新开启机器。
如果风扇仍报告为故障,请检查此列表中的下一个可能原因。
视频
识别 PowerEdge 风扇问题。
持续时间:00:00:00 (hh:02:31)
如果可用,可以使用此视频播放器上的 CC 图标选择隐藏式字幕(字幕)语言设置。
如何更换 PowerEdge R740 的风扇。
持续时间:00:00:53 (hh:mm:ss)
如果可用,可以使用此视频播放器上的 CC 图标选择隐藏式字幕(字幕)语言设置。
固件过时
过时的固件可能会导致风扇在没有其他问题出现的时候高速旋转(发出噪音)。当固件的某些部分已更新并且传感器数据收集链中的某些元素被忽略而未更新时,这是很常见的情况。
以下是在下一步调查中应检查是否有更新的固件版本列表:
- iDRAC、CPLD、BIOS
- PERC、BOSS、背板、NVMe 驱动器、SAS/SATA 驱动器
- NIC、任何其他 PCIe 卡
- 电源 (PSU)
- 任何其他硬件
当您想要使用 iDRAC 更新固件时(使用此文章了解如何更新, PowerEdge:如何使用 iDRAC Web 界面远程更新固件),更新按从左到右和从上到下的导入顺序列出。
每个列表项都应用作一次更新的指南(但不是第一项)。
固件更新到最新版本后,继续进行列表中的下一项。
视频
如何使用 iDRAC9 更新固件。
持续时间:00:01:16 (hh:mm:ss)
如果可用,可以使用此视频播放器上的 CC 图标选择隐藏式字幕(字幕)语言设置。
与 Integrated Dell Remote Access Controller (iDRAC)、Baseboard Management Chip (BMC) 或 Chassis Management Controller(CMC、MX 机箱的 OME-M)之间的通信中断
当 iDRAC、BMC 或 CMC/OME-M 失去与传感器套件的连接时,风扇会恢复到非托管速度(全速),以防止系统过热。
这就是为什么首先打开风扇时,您会听到风扇加速旋转然后又停下。iDRAC、BMC 或 CMC/OME-M 启动并开始调节风扇速度需要几分钟时间。
液晶屏(如有)将保持无文本状态。如果系统类型为模块化,则它可能无法在机箱中开机,因为它无法与 CMC 通信。
在这种情况下,请联系我们的支持团队。
要对此问题进行故障处理,请执行以下操作:
- 对于所有 iDRAC 系统,按住 i 按钮 16 秒钟。
- 对于具有 BMC 的系统,或者在步骤 1 不起作用的情况下:
- 关闭服务器电源
- 拔下电源线
- 按住开机按钮 10 秒钟
- 重新连接电源线
- 等待大约2分钟
- 将服务器重新开机
- 对于具有 CMC 或 OME-M 的系统:
- 如果安装了两个 CMC 或 OME-M,请按照故障切换过程故障切换到另一个设备。
- 如果仅安装了一个 CMC 或 OME-M,请从机箱中卸下模块,等待 2 分钟,然后重新插入模块,等待 20 分钟。
- 如果重新拔插模块或故障切换不起作用,则需要重新启动机箱才能完全重新初始化。
- 为所有依赖于机箱正常运行的服务器和连接的设备计划停机时间。
- 关闭服务器电源,然后关闭机箱电源
- 拔下电源线。
- 等待至少 10 分钟或按住开机按钮(如果有)。
- 重新连接电源线。
- 重新启动机箱,等待 20-30 分钟。
- 重新启动服务器。
- 一切正常并运行且没有任何错误或风扇噪音后,从外部重新连接到机箱。
如果您仍然遇到相同的风扇噪音,请继续浏览列表。
视频
PowerEdge:失去与传感器套件的连接导致的风扇问题
持续时间:00:02:53 (hh:mm:ss)
如果可用,可以使用此视频播放器上的 CC 图标选择隐藏式字幕(字幕)语言设置。
安装了不受支持的硬件
不受支持的硬件或尚未经过认证的第三方供应商硬件可能会导致系统以高于正常速度甚至最大速度运行风扇。
要对此问题进行故障处理,请执行以下操作:
- 检查设备是否正常工作。
- 检查设备是否正确安装[在正确类型的插槽中(如果适用)]
- iDRAC 可能会为特定设备或在未知时以默认方式旋转风扇。
- 为了继续,请卸下第三方设备,并查看风扇噪音是否恢复正常。
- 如果是,请咨询您的第三方供应商,询问是否有任何缓解措施,或者对在 Dell PowerEdge 服务器中使用该设备有任何建议。
如果您遵循列表一直到现在,但仍需要更多支持,请继续遵循列表。
视频
不受支持的硬件导致风扇噪音过大。
持续时间:00:00:38 (hh:mm:ss)
如果可用,可以使用此视频播放器上的 CC 图标选择隐藏式字幕(字幕)语言设置。
需要安装不同类型风扇的计算机第二个 CPU 升级(取决于系统类型)或常规升级未完成
如果您已升级系统或正在升级系统,则某些升级需要额外的部件(风扇、内存 DIMM)或不同的风扇类型(从标准升级到银牌甚至金牌风扇)。
这些升级(非详尽列表,请咨询您的销售代表):
- 可购买单个 CPU 并可容纳两个 CPU 的系统的第二次 CPU 升级(取决于系统类型)
- 这可能需要移除挡片,需要相同步进的额外 CPU、额外的内存,并且通常还需要一个额外的风扇
- 某些系统甚至可能需要将所有风扇从标准升级到银牌级或金牌级风扇(特定于系统和升级的要求)
- 支持 GPU 或 GPGPU 升级的系统的 GPU 或 GPGPU 升级
- 这可能需要额外的转接卡和支持布线,但也需要额外的冷却,具体取决于原始布局和已安装的风扇。
- 其他 PCIe 卡或 NVMe 驱动器
- 在安装新部件后,可能需要进一步检查以确保一切都符合冷却预期,因为冷却要求可能需要额外的风扇或其他功能更强大的风扇类型。
如果您已遵循这些要求,并确保到目前为止未列出相关问题,请继续遵循列表。
视频
升级后的 PowerEdge 服务器中的冷却
持续时间:00:01:49 (hh:mm:ss)
如果可用,可以使用此视频播放器上的 CC 图标选择隐藏式字幕(字幕)语言设置。
温度超出正常风扇速度范围(繁重的工作负载导致 CPU 利用率和温度升高、通风不畅)
当系统处于高负载 CPU 下时,其他部件也会使用更多功率,这会导致比正常水平更高的冷却要求。
此外,如果空气流通受到通风不良或通常视为灰尘堆积的障碍物的限制,则风扇速度可能会随着时间的推移而增加。
检查以下步骤以查看存在的问题,以及可以采取哪些步骤来缓解或消除此问题:
- 检查 CPU 利用率是否处于持续的高负载 (90-100%) 下
- 如果是这样,建议您检查为什么会出现这种情况,以及这是否是预期行为(这是正常工作负载导致的,还是未知原因,例如,在最近更新或升级操作系统后开始出现此情况)
- 如果行为不正常,请通过了解是哪个应用程序或服务导致高负载来进一步调查负载。
- 如果该行为是由于看似正常的操作导致的,并且最近没有对机器软件进行更新(或重新启动,有意或无意),则您的机器可能已达到其设计性能的上限,并且您的工作负载已超出其硬件的性能。特别是如果您有多个系统具有相似负载、运行相似工作负载类型并且具有相同问题,您需要与销售代表交谈,看看在扩展或升级方面可以采取哪些措施来解决这个问题。
- 检查进气口是否被阻塞或限制,或者风扇本身是否受到任何形式的阻塞或限制
- 灰尘随着时间的推移而堆积是相对正常的。根据具体情况,100% 无尘环境有时很难维持甚至不切实际。因此,必须对机器进行定期维护,给机器环境除尘并保持空气流动,并且应将此工作加入所有维护计划中,每年至少进行一次(机器暴露在灰尘中越多就越频繁)。
- 如果您发现通风口或风扇被阻塞,请为机器安排维护并清除所有灰尘和障碍物。您可以在保持 Dell Technologies 设备清洁的指南中找到一些详细信息。
如果在执行此步骤后问题仍然存在,请继续浏览列表。
视频
PowerEdge:温度超出正常风扇速度范围。
持续时间:00:02:36 (hh:mm:ss)
如果可用,可以使用此视频播放器上的 CC 图标选择隐藏式字幕(字幕)语言设置。
系统护盖打开或安装不正确。防盗开关可能被触发或不起作用。
某些系统要求关闭系统护盖,并使防盗开关处于关闭状态(按下)。如果未安装护盖,并因此触发了防盗开关,则作为预防措施,风扇速度将增加到最大值。
这也可能是由于这些系统的防盗开关出现故障所致,因为损坏的开关始终处于打开状态,因此在这种情况下,总是会触发该事件,指示系统护盖已打开。
检查以下内容:
- 卸下系统护盖并重新安装,同时确保正确贴合。
- 建议在机架外有电源的测试台或工作台上进行测试,以保证安全的环境。
- 这样还可以更好地了解系统护盖的贴合情况以及防盗开关固定器或开关本身的任何损坏情况。
- 检查开关是否正确就位,弹回时是否触发,按下时是否禁用。
- 触发防盗开关会在系统事件日志中生成一个条目(可在系统的 iDRAC 中找到)
- 正确合上系统护盖,检查是否贴合,并确保所有部件正确安装在一起。
如果在执行此步骤后仍需要进一步帮助,请查看列表中的下一个主题。
视频
如何更换 PowerEdge R750 的防盗开关。
持续时间:00:01:28 (hh:mm:ss)
如果可用,可以使用此视频播放器上的 CC 图标选择隐藏式字幕(字幕)语言设置。
配置设置
iDRAC 控制机器的散热设置,确保所有部件均正确冷却。您可以手动更改这些设置,以提高或降低风扇速度的偏移量或更改默认散热配置文件。更改默认配置文件也可以提高风扇速度。
如果您不确定使用的设置,可以按照以下步骤重置设置:
- 在开机自检过程中,按 F2 键
- 选择 System Services
- 在右下角找到 Defaults 并按下它
- 选择 Exit
- 出现提示时,选择 Save and Reboot
- 重新启动后,在开机自检过程中再次按 F2 键
- 选择 iDRAC settings > Thermal
- 确保未设置或未选择任何设置,并且配置文件显示默认的散热配置文件设置(最大性能)。
- 完成并重新启动。
如果您已经完成了这部分并且还没有找到解决方案,请考虑检查上面的列表。如果您已用尽此列表,请收集支持日志文件 [TSR](技术支持报告)并联系我们的支持团队。
视频
重置 iDRAC 散热配置文件。
持续时间:00:01:26 (hh:mm:ss)
如果可用,可以使用此视频播放器上的 CC 图标选择隐藏式字幕(字幕)语言设置。
进气口温度传感器故障,读数错误
您可能会在 iDRAC 的系统事件日志 (SEL) 中遇到一条警告消息,提示入口温度发生故障或读数高于预期(测量时的环境温度与传感器输出不匹配)。传感器测量机器前端的温度,iDRAC 根据提供的数据来计算冷却需求。因此,出现故障或测量不正确的传感器会导致更高或最大风扇速度。
要对此问题进行故障处理,请执行以下操作:
- 检查 SEL 中的警告或错误消息
- 如果您尚未执行固件部分中概述的操作,请按照该部分操作以排除信息不匹配的固件原因。
- 所有固件更新完成后,再次检查 SEL。
- 在 iDRAC Web 界面中检查进气口温度,查看它是否仍高于预期或完全没有读数。
- 如果问题仍然存在, 请收集新的 TSR 并 联系我们的支持团队。
在这里,您可以返回到列表。