Comenzar una conversación nueva

Solved!

Ir a la solución

1740

25 de enero de 2019 05:00

PowerEdge R730xd queda bloqueado

Buenas tardes,

Mi nombre es Javier.

Tengo un servidor Dell PoweEdge R730xd adquirido en 2015.
Instalado con Windows 2012R2 con Veeam Backup en su versión 9.5 y con SQL Server 2012 como BBDD para Veeam.
En fecha 22/12/2018 sufrió un aumento de temperatura, que quedo registrado por iDRAC.

Sat Dec 22 2018 19:52:20 The system inlet temperature is greater than the upper warning threshold.
Sat Dec 22 2018 19:48:52 The system inlet temperature is greater than the upper critical threshold.
Sat Dec 22 2018 19:44:39 The system inlet temperature is greater than the upper warning threshold.
Sat Dec 22 2018 17:04:31 The system inlet temperature is greater than the upper critical threshold.
Sat Dec 22 2018 16:22:41 The system inlet temperature is greater than the upper warning threshold.

A partir de ese momento el servidor no funciona correctamente.

- La monitorización a través de cliente NSClient funciona (Consumo CPU, Espacio en disco, Memoria, Ping, Servicio SQL, Servicio Veeam).
- El servidor no es accesible vía escritorio remoto.
- No es posible el inicio de sesión local como Administrador.
- Si forzamos un reinicio (vía botón de power), el servidor inicia con normalidad y todo funciona correctamente hasta pasadas 24h. Donde lo vuelvo a encontrar en su situación de inicio. No se puede iniciar sesión... No se que provoca el problema.
- No consigo encontrar registros en el sistema relacionados con la incidencia, tampoco en idrac.

Sospecho que se trata de algún tipo de problema relacionado con el Hardware.

1.- Como puedo solucionar el problema?
2.- Es posible que no se trate de un problema de Hardware?

Gracias por todo.

4 Operator

 • 

2.7K Mensajes

13 de febrero de 2019 03:00

Recibido sit_tecnocampus.cat! Gracias por la información.

Quedamos a la espera.
Un saludo.

4 Operator

 • 

2.7K Mensajes

28 de enero de 2019 06:00

Hola sit_tecnocampus.cat,

¡Bienvenido a la Comunidad Dell!

Gracias por toda la información proporcionada. Es un placer leer la información tan bien expuesta para tener una mejor comprensión del problema.

Por regla general, un mensaje en el log de alerta de temperatura no tiene porque significar un error grave en el sistema. He visto muchísimos logs que contenían en sus históricos algún problema de temperatura y, normalmente, el error estaba en otro sitio.

Por ejemplo, si realmente la máquina tiene un problema en un componente PCI, tendremos un BUS Fatal Error o si es un problema de CPU un Machine Exception. Pero, un error de temperatura por si sólo nos plantea dos problemas: no significa un problema y no es lo suficientemente concluyente respecto al problema real de la máquina.

Respecto a los problemas: servidor no accesible por escritorio remoto y no permite acceder con adminsitrador local, todo esto como consecuencia de una degradacíon temporal (tras 24 horas) no encaja con la descripción de un problema de hardware.

Te propongo, por tanto, que intentemos descartar por completo que se trate de un problema de hardware antes de pensar en la posibilidad de que sea un problema de OS.

Imagino que la máquina no está en garantía, por lo que la ayuda que te puedo ofrecer es limitada. Vamos a empezar con algunas capturas de pantalla de la iDRAC: puedes responder adjuntando las capturas de las versiones de firmware (System / System Inventory / Firmware Inventory). Además de esto, ¿puedes poner también un par de páginas completas del registro de eventos del sistema que puedes ver en la iDRAC?

Quedo a la espera de tu respuesta.
Un saludo.

28 de enero de 2019 08:00

Hola Diego, Gracias por la bienvenida! Soy nuevo en esta plataforma. Ya tengo la información que me pedias. Las versiones de firmware (System / System Inventory / Firmware Inventory) las tengo un fichero .txt i .xml. Los registros los tengo en un .cvs que genera el propio iDRAC. Como te la puedo hacer llegar? No he visto la opción de adjuntar ficheros y tampoco creo conveniente pegar directamente la información aqui. Espero que me digas como hacerlo. Saludos.

4 Operator

 • 

2.7K Mensajes

29 de enero de 2019 06:00

Hola de nuevo sit_tecnocampus.cat!

Quisiera mantener la conversación en el foro por si sirve de ayuda a otra persona que pueda verlo en el futuro o por si algún compañero quiere colaborar e intentar aportar una solución. Así que, te voy a pedir que me pongas o bien el texto plano o bien capturas de pantalla. A la hora de escribir esta información, puedes usar esta opción:

adjuntar.PNG

Sólo intenta asegurarte de que no aparezca el Service Tag de la máquina. Por lo demás no te preocupes porque tanto el historial de versiones de firmware como la linea de tiempo y lo eventos del sistema no contienen información adicional.

De momento sólo necesito eso: versiones de firmware y los registros, me vale con 30 o 40 eventos más recientes.

Un saludo!

5 de febrero de 2019 05:00

HardwareHardwareFirmwareFirmwareRegistros iDRACRegistros iDRAC

8 de febrero de 2019 00:00

Hola Diego,

Necesitas mas información?

4 Operator

 • 

2.7K Mensajes

12 de febrero de 2019 07:00

Hola de nuevo sit_tecnocampus.cat,

Gracias por las capturas de pantalla. Están perfectas y es justo lo que necesitaba.

Vayamos por orden, respecto a las versiones de firmware. Veo algunos componentes que podríamos actualizar. Principalmente:

BIOS: Tenemos la 2.2.5 respecto a la última que es la 2.9.1. Enlace de descarga.

iDRAC: Tenemos la 2.41.40.40 y está ya disponible la 2.61.60.60. Enlace de descarga.

HDDs: https://www.dell.com/support/home/us/en/19/Drivers/DriversDetails?driverID=8HJR8 y https://www.dell.com/support/home/us/en/19/Drivers/DriversDetails?driverID=HKD9N

En general veo más firmwares desactualizados pero digamos que son estos los que más podrían cuadrar con el tipo de problema que tiene. Actualizar estos firmwares tiene un doble objetivo: Intentar solucionar el problema a través de los fix de las diferentes actualizaciones y, por otro lado, que si el problema se vuelve a producir, podremos tener más información del error.

Respecto al log del sistema. Nada más a parte de lo ya mencionado. Sólo un error de temperatura que luego vuelve a valores normales. Es difícil decir si esa subida de temperatura pudo causar algún problema adicional pero no hay nada en el log que nos lo indique.

Finalmente, yo le sugiero aplicar las actualizaciones y mantener la máquina en monitorización.

Espero que esto le sirva.
Un saludo.

13 de febrero de 2019 02:00

Buenos dias Diego,

Ya he hecho la actualizacion de BIOS, iDRAC y HDDs.

El comportamiento es que despues de un reinicio forzado, deja de funcionar en unas 24h.

Espero hasta mañana y te comento. Si el problema continua volvemos a revisar registros. Tal y como comentas podremos ver más información.

Saludos.

¡No se encontraron eventos!

Top