PowerEdge: Cómo identificar y solucionar algunas causas comunes del ruido del ventilador
Resumen: En este artículo, se presentan oportunidades para comprender y solucionar algunas causas comunes del ruido del ventilador en un servidor PowerEdge. También es relevante para velocidades de ventilador del 100 %. ...
Instrucciones
¿Cuáles son algunas de las causas comunes del ruido del ventilador en un servidor PowerEdge?
- Falla del ventilador, ventilador faltante, ventilador dañado
- Firmware obsoleto
- Interrupción de la comunicación con la Integrated Dell Remote Access Controller (iDRAC), el chip de administración de la placa base (BMC) o la controladora de administración del chasis (CMC, OME-M para chasis MX)
- Se instaló el hardware no soportado
- Una segunda actualización de CPU incompleta (depende del tipo de sistema) o una actualización general de la máquina que requiere la instalación de diferentes tipos de ventiladores
- La temperatura supera la cobertura de velocidad normal del ventilador (carga de trabajo pesada que conduce a un alto uso de la CPU y temperatura, flujo de aire deficiente)
- La cubierta del sistema está desactivada o instalada de forma incorrecta. Es posible que el switch de intrusión se active o no funcione.
- Ajustes de configuración
- El sensor de temperatura de entrada falló, lectura falsa
Falla del ventilador, ventilador faltante, ventilador dañado
En esta situación, al menos un ventilador o ensamblaje del ventilador (contiene dos ventiladores) está dañado (conector, aspa del ventilador, marco del aspa del ventilador), falta o falló.
Para identificar el ensamblaje del ventilador o el ventilador que está causando el problema, siga estos pasos en orden:
- Revise la pantalla LCD frontal o el registro de eventos del sistema para ver qué ventilador se informó.
- Una vez que se sepa qué ventilador se informa como defectuoso, verifique la posición del número del ventilador en la tapa (o consulte la guía del usuario del servidor) y vea si el ventilador está funcionando o no.
Advertencia: Tenga cuidado cuando abra la tapa del servidor sin apagarlo para comprobar los ventiladores. Los elementos del interior pueden estar calientes o afilados, o ambos.
- Si el ventilador gira más lento, no gira en absoluto o hace ruidos irregulares (raspaduras, rozaduras), apague la máquina y quite el ensamblaje del ventilador para su inspección.
- Las rozaduras y las raspaduras de los ventiladores deberían dejar rayones visibles.
- A veces, la suciedad o el polvo pueden hacer que el ventilador se vuelva irregular. Una limpieza del ventilador podría ayudar en este caso.
- Revise el conector de la placa base o la placa de control del ventilador y el conector del ventilador para ver si hay algún daño.
- Si no hay daños en el ventilador ni problemas de conexión, vuelva a instalar el ventilador, la cubierta (si la hay), la cubierta del chasis y vuelva a encender el equipo.
Si el ventilador aún se informa como defectuoso, compruebe la siguiente posibilidad en esta lista.
Video
Identifique el problema del ventilador de PowerEdge.
Duración: 00:00:00 (hh:02:31)
Cuando esté disponible, se puede elegir la configuración de idioma de los subtítulos cerrados (subtítulos) mediante el ícono CC en este reproductor de video.
Cómo reemplazar un ventilador para PowerEdge R740.
Duración: 00:00:53 (hh:mm:ss)
Cuando esté disponible, se puede elegir la configuración de idioma de los subtítulos cerrados (subtítulos) mediante el ícono CC en este reproductor de video.
Firmware obsoleto
El firmware obsoleto puede hacer que los ventiladores giren a tope (hagan ruido) cuando no hay nada malo en absoluto. Es común cuando se actualizaron piezas del firmware y se omitió el reemplazo de algún elemento de la cadena de recopilación de datos del sensor.
La siguiente es una lista de versiones de firmware que se deben comprobar en busca de actualizaciones como próximo paso de la investigación:
- iDRAC, CPLD, BIOS
- PERC, BOSS, backplane, unidades NVMe, unidades SAS/SATA
- NIC, cualquier otra tarjeta PCIe
- Fuentes de alimentación (PSU)
- Cualquier otro hardware
Si desea utilizar iDRAC para actualizar el firmware (use este artículo para obtener información sobre cómo hacerlo), PowerEdge: Cómo actualizar el firmware de forma remota mediante la interfaz web de iDRAC), las actualizaciones se enumeran en orden de importación de izquierda a derecha y de arriba a abajo.
Cada elemento de la lista debe usarse como guía sobre qué actualizaciones se pueden actualizar a la vez (sin embargo, no los primeros elementos).
Una vez que el firmware esté actualizado, pase al siguiente elemento de la lista.
Video
Cómo actualizar el firmware mediante iDRAC9.
Duración: 00:01:16 (hh:mm:ss)
Cuando esté disponible, se puede elegir la configuración de idioma de los subtítulos cerrados (subtítulos) mediante el ícono CC en este reproductor de video.
Interrupción de la comunicación con la Integrated Dell Remote Access Controller (iDRAC), el chip de administración de la placa base (BMC) o la controladora de administración del chasis (CMC, OME-M para chasis MX)
Cuando iDRAC, BMC o CMC/OME-M pierde la conexión con el conjunto de sensores, los ventiladores vuelven a la velocidad no administrada (total) para proteger el sistema contra el sobrecalentamiento.
Esta es la razón por la que puede escuchar cómo los ventiladores giran antes de que disminuyan su intensidad cuando se encienden por primera vez. iDRAC, BMC o CMC/OME-M tarda unos minutos en arrancar y comenzar a regular la velocidad del ventilador.
La pantalla LCD (si está presente) permanece sin texto. Si el tipo de sistema es modular, es posible que no se encienda en el chasis, ya que no se puede comunicar con el CMC.
En este caso, comuníquese con nuestro equipo de soporte.
Para solucionar este problema, realice la siguiente acción:
- Para todos los sistemas iDRAC, mantenga presionado el botón i durante 16 segundos.
- Para un sistema con BMC o si el paso 1 no funciona:
- Apague el servidor
- Retire los cables de alimentación.
- Mantenga presionado el botón de encendido durante 10 segundos
- Vuelva a conectar los cables de alimentación
- Espere aproximadamente 2 minutos
- Vuelva a encender el servidor
- Para sistemas con un CMC u OME-M:
- Si hay dos CMC u OME-M instalados, siga el procedimiento de conmutación por error para realizar esta última en la otra unidad.
- Si solo hay una CMC u OME-M instalada, extraiga el módulo del chasis, espere 2 minutos, vuelva a insertar el módulo y espere 20 minutos.
- En caso de que la reinserción del módulo o la conmutación por error no funcionen, es necesario reiniciar el chasis para una reinicialización completa.
- Programe tiempo de inactividad para todos los servidores y dispositivos conectados que dependen de que el chasis esté activo.
- Apague los servidores y, a continuación, el chasis
- Retire los cables de alimentación.
- Espere al menos 10 minutos o mantenga presionado el botón de encendido (si lo hay).
- Vuelva a conectar los cables de alimentación.
- Vuelva a encender el chasis y espere entre 20 y 30 minutos.
- Vuelva a encender los servidores.
- Vuelva a conectarse al chasis desde el exterior una vez que todo esté en funcionamiento sin errores ni ruido del ventilador.
Si aún experimenta el mismo ruido del ventilador, continúe explorando la lista.
Video
PowerEdge: Problema del ventilador causado por la pérdida de conexión con el conjunto de sensores
Duración: 00:02:53 (hh:mm:ss)
Cuando esté disponible, se puede elegir la configuración de idioma de los subtítulos cerrados (subtítulos) mediante el ícono CC en este reproductor de video.
Se instaló el hardware no soportado
El hardware no soportado o el hardware de otros fabricantes que aún no está certificado puede provocar que el sistema haga funcionar los ventiladores a una velocidad más alta de lo normal o incluso a la velocidad máxima.
Para solucionar este problema, realice las siguientes acciones:
- Compruebe que el dispositivo esté en funcionamiento.
- Compruebe que el dispositivo esté instalado correctamente (en el tipo correcto de ranura [si corresponde])
- Es posible que la iDRAC encienda los ventiladores para dispositivos específicos o de manera predeterminada si es desconocido.
- Para continuar, quite el dispositivo de otros fabricantes y vea si el ruido del ventilador vuelve a la normalidad.
- Si es así, consulte con su proveedor externo para ver si conoce alguna mitigación o tiene alguna recomendación con respecto al uso del dispositivo en un servidor Dell PowerEdge.
Si ha seguido la lista hasta este punto y aún necesita más asistencia, continúe más abajo.
Video
Hardware no compatible que causa un exceso de ruido del ventilador.
Duración: 00:00:38 (hh:mm:ss)
Cuando esté disponible, se puede elegir la configuración de idioma de los subtítulos cerrados (subtítulos) mediante el ícono CC en este reproductor de video.
Una segunda actualización de CPU incompleta (depende del tipo de sistema) o una actualización general de la máquina que requiere la instalación de diferentes tipos de ventiladores
Si actualizó el sistema o desea actualizarlo, algunas actualizaciones requieren piezas adicionales (ventilador, DIMM de memoria) o diferentes tipos de ventiladores (actualización de ventiladores estándar a Silver o incluso Gold).
Estas actualizaciones son (lista no exhaustiva; consulte a su representante de ventas):
- Segunda actualización de CPU para sistemas que se pueden comprar con una sola CPU y pueden alojar dos CPU (según el tipo de sistema)
- Esto probablemente necesite la eliminación de los espacios en blanco, la CPU adicional con el paso idéntico, memoria adicional, y, a menudo un ventilador adicional
- Es posible que algunos sistemas incluso necesiten que todos los ventiladores se actualicen de ventiladores estándar a Silver o Gold (requisitos específicos del sistema y de la actualización)
- Actualizaciones de GPU o GPGPU para sistemas que sí lo soportan
- Es probable que esto necesite tarjetas elevadoras y cableado de soporte adicionales, pero también enfriamiento adicional según el diseño original y los ventiladores ya instalados.
- Tarjetas PCIe o unidades NVMe adicionales
- Es probable que esto necesite una mayor comprobación de que todo esté en línea con las expectativas de enfriamiento después de la instalación de las piezas nuevas, ya que los requisitos de enfriamiento pueden dictar ventiladores adicionales o diferentes tipos de ventiladores más potentes.
Si los siguió y está seguro de que el problema no aparece en la lista hasta ahora, continúe siguiéndola.
Video
Enfriamiento en un servidor PowerEdge actualizado
Duración: 00:01:49 (hh:mm:ss)
Cuando esté disponible, se puede elegir la configuración de idioma de los subtítulos cerrados (subtítulos) mediante el ícono CC en este reproductor de video.
La temperatura supera la cobertura de velocidad normal del ventilador (carga de trabajo pesada que conduce a un alto uso de la CPU y temperatura, flujo de aire deficiente)
Cuando los sistemas están sometidos a cargas pesadas, las CPU, pero otras partes también pueden consumir más energía, lo que da como resultado un requisito de enfriamiento mayor de lo normal.
También es posible que, con el tiempo, la velocidad del ventilador haya aumentado si el flujo de aire está restringido, ya sea por estar en un espacio que no está bien ventilado o por obstrucciones que generalmente se ven como acumulaciones de polvo.
Compruebe los siguientes pasos para ver qué problema se presenta y qué pasos se pueden realizar para mitigarlo o eliminarlo:
- Compruebe si el uso de la CPU está bajo una carga alta constante (90-100 %)
- Si es así, es posible que desee comprobar por qué es así y si este es un comportamiento esperado (¿es una carga de trabajo normal la que lo causa o algo desconocido, por ejemplo, cuándo comenzó a suceder después de una actualización reciente o una mejora del sistema operativo [SO]?)
- Si el comportamiento no se considera normal, investigue más la carga comprendiendo qué aplicación o servicio está causando la carga alta.
- Si el comportamiento se produce debido a un funcionamiento aparentemente normal y no se han realizado actualizaciones recientes (o reinicios, previstos o no) en el software del equipo, es posible que el equipo haya alcanzado el máximo para el que está diseñado y que la carga de trabajo haya superado el hardware en el que se ejecuta. Especialmente si tiene varios sistemas con una carga similar que ejecutan tipos de cargas de trabajo similares y tienen el mismo problema, debe hablar con un representante de ventas y ver qué se puede hacer al respecto en términos de escalamiento o actualización.
- Compruebe si las rejillas de ventilación de entrada están obstruidas o restringidas, o si los ventiladores están obstruidos o restringidos de alguna manera
- Con el tiempo, la acumulación de polvo es relativamente normal. Un entorno 100 % libre de polvo a veces es difícil de mantener o poco realista, dependiendo de las circunstancias. Por ello, el mantenimiento regular de las máquinas para liberarlas físicamente del polvo y mantener el flujo de aire es imprescindible y debe integrarse en todos los programas de mantenimiento para que se realice al menos una vez al año (con mayor frecuencia cuanto más expuesta esté la máquina al polvo).
- Si observa que las rejillas de ventilación o los ventiladores están obstruidos, programe el mantenimiento de la máquina y límpielos de todo el polvo y las obstrucciones. Puede encontrar algunos detalles en la Guía para mantener limpio su equipo de Dell Technologies.
Si tiene el mismo problema después de seguir esto, explore la lista más a fondo.
Video
PowerEdge: La temperatura excede la cobertura normal de velocidad del ventilador.
Duración: 00:02:36 (hh:mm:ss)
Cuando esté disponible, se puede elegir la configuración de idioma de los subtítulos cerrados (subtítulos) mediante el ícono CC en este reproductor de video.
La cubierta del sistema está desactivada o instalada de forma incorrecta. Es posible que el switch de intrusión se active o no funcione.
Algunos sistemas necesitan que la cubierta del sistema esté cerrada y que el interruptor de intrusiones se encuentre en estado cerrado (presionado). Si la cubierta no está instalada y, como resultado, se activa el interruptor de intrusión, la velocidad del ventilador aumenta al máximo como medida de precaución.
Esto también puede suceder como resultado de un switch de intrusión defectuoso en esos sistemas, ya que un interruptor roto siempre está abierto, por lo que, en este caso, siempre se activa para indicar que la cubierta del sistema está abierta.
Compruebe lo siguiente:
- Retire la cubierta del sistema y vuelva a instalarla asegurándose de que encaje correctamente.
- Es útil probar esto en un banco de pruebas o de trabajo con alimentación disponible fuera del rack para garantizar un entorno de seguro.
- Esto también permite una mejor visibilidad con respecto al ajuste de la cubierta del sistema y cualquier daño en el soporte del interruptor de intrusión o en el propio switch.
- Compruebe si el interruptor está en su lugar correctamente y si se activa cuando retrocede y se deshabilita cuando se presiona.
- La activación del interruptor de intrusión genera una entrada en el registro de eventos del sistema (que se encuentra en la iDRAC del sistema)
- Cierre la cubierta del sistema correctamente, inspeccione el ajuste y asegúrese de que todas las piezas encajen correctamente.
Si aún necesita más ayuda después de esto, consulte la lista para ver otro tema.
Video
Cómo reemplazar el switch de intrusión para PowerEdge R750.
Duración: 00:01:28 (hh:mm:ss)
Cuando esté disponible, se puede elegir la configuración de idioma de los subtítulos cerrados (subtítulos) mediante el ícono CC en este reproductor de video.
Ajustes de configuración
El iDRAC controla la configuración térmica de la máquina asegurándose de que todas las piezas se enfríen correctamente. Estos ajustes se pueden cambiar manualmente para aumentar o disminuir la compensación de la velocidad del ventilador o cambiar el perfil térmico predeterminado. Cambiar el perfil del perfil predeterminado también puede aumentar la velocidad del ventilador.
Si no está seguro de la configuración usada, puede utilizar los siguientes pasos para restablecer los ajustes:
- Durante la POST, presione F2
- Seleccione System Services
- Busque en la esquina inferior derecha Defaults y presiónelo
- Seleccione Exit
- Cuando se le solicite, seleccione Save and Reboot
- Una vez reiniciado, presione F2 durante la POST nuevamente
- Seleccione los ajustes> de iDRAC Thermal
- Asegúrese de que no haya ninguna configuración establecida o seleccionada y de que el perfil muestre la configuración predeterminada del perfil térmico (rendimiento máximo).
- Finalice y reinicie.
Si ya pasó por esta parte y aún no encuentra una solución, considere consultar la lista mencionada anteriormente. Si agotó esta lista, recopile el archivo de registro de soporte [TSR] (Informe de soporte técnico) y comuníquese con nuestro equipo de soporte.
Video
Restablezca el perfil térmico de iDRAC.
Duración: 00:01:26 (hh:mm:ss)
Cuando esté disponible, se puede elegir la configuración de idioma de los subtítulos cerrados (subtítulos) mediante el icono CC en este reproductor de video.
El sensor de temperatura de entrada falló, lectura falsa
Es posible que se encuentre con un mensaje de advertencia en el registro de eventos del sistema (SEL) de iDRAC que advierte que la temperatura de entrada falló o que la lectura es más alta según lo esperado (la temperatura ambiental, cuando se mide, no coincide con la salida del sensor). El sensor mide la temperatura en la parte frontal de la máquina y la iDRAC utiliza los datos proporcionados para calcular las necesidades de enfriamiento en función de eso. Como resultado, un sensor defectuoso o con medición incorrecta da como resultado velocidades del ventilador más altas o maximizadas.
Para solucionar este problema, realice lo siguiente:
- Compruebe el SEL en busca del mensaje de precaución o error
- Si no ha llevado a cabo las acciones descritas en la sección de firmware, siga esa sección a fin de excluir el firmware como un problema para la información de incompatibilidad.
- Vuelva a comprobar el SEL una vez que se hayan completado todas las actualizaciones de firmware.
- Compruebe la temperatura de entrada en la interfaz web de iDRAC y vea si aún es superior a la esperada o si no lee nada.
- Si el problema persiste, recopile un nuevo TSR y póngase en contacto con nuestro equipo de soporte.
Aquí puede volver a la lista.