Comenzar una conversación nueva

Solved!

Ir a la solución

1759

18 de marzo de 2019 17:00

Falla Dell T420 PERC H710

Tengan muy buen día.
 
Sucede que nuestro servidor Dell Power Edge T420 presenta la falla de que se apaga repentinamente. Hasta el momento considero que es por recalentamiento por lo que utilizo un ventilador  para que esto no suceda.
 
La falla inicio cuando este se apago repentinamente. Tras lo suceso se procedió a encenderse de nuevo, observando que ninguno de los leds de los disco encendían  y que en la pantalla indicaba que no podia bootear el sistema operativo. Ante esta situación se quita y revisa  la tarjeta que controla de los discos (PERC H710), se limpia y se identifica que la batería se encuentra en mal estado. Tras instalar de nuevo la tarjeta, el servidor es encendido de nuevo mostrando que existe un error en la batería y que debe ser reemplazada. Tras continuar con el mensaje del servidor este inicia sin contratiempos al punto en que se restableció los servicios de software. Aproximadamente   20 minutos después se apaga de nuevo el servidor.
 
En su momento se atribuye la falla a l a batería del controlador de los discos. A lo cual se logra reemplazar por una usada ya que una nueva no era posible conseguirla en poco tiempo.
 
Una vez se reemplaza la batería de la controladora PERC H710. El servidor es encendido de nuevo, esta vez iniciando el life cycle.
 

Solo en la opción de system managemente se muestra el siguiente mensaje de error.

Error Code: 2000-0251
Validation 97920
Msg: Event Log - The log contains failing records

Tecnicas Support will need this information to diagnose the problem.
Please record the above error and validation codes

En la pestaña de results se da la siguiente información.

FatalErr: Critical Event Sensor, bus fatal error (Slot4) was asserted
1 record since last scan (pass=0, warning=0 fail=0 critical=1 other=0)
Test result: Fail
Error Code: 2000-0251
Luego aparece resultado de pruebas de disco duro y todas aparecen como aprobadas.



En el slot 4  funciona una tarjeta de red de cuatro puertos. Se inicia el servidor con y sin la tarjeta de red de cuatro puertos y se observa que la temperatura de la tarjeta controladora PERC H710 llega a un temperatura 70 grados teniendo que encender un ventilador antes de que se apague el servidor. También se identifica que mientra los disco duros no tenga actividad, el servidor no se apaga.

También identifico que cuando conecto la tarjeta de red y la controladora de los raid. La temperatura de ambas tarjetas aumenta mas rápido.

20190309_120349 (1).jpg20190314_164330.jpg20190309_152913.jpg 

 La controlado raid tiene conectado 8 discos duros SAS. De los cuales 2 discos estan en raid 1. 3 Discos de 2TB  en raid 5 y otros 3 discos de 1 TB en raid 5.

Los leds de los discos se muestran en verde. En el arreglo raid 5 de los discos de 2TB se muestran continuamente en verde.

Una vez se utilizan cada diso estos se muestran intermitente. Por otra parte el led que tiene la controladora PERC indica que es intermitente de color verde.

El servidor tiene instalado citrix Xensever 7 y al momento de encenderlo no muestra ningún mensaje.

Agradezco sus aportes.

 

4 Operator

 • 

2.7K Mensajes

19 de marzo de 2019 02:00

Hola Implanti,

¡Bienvenido a la Comunidad de Dell!

Gracias por toda la información proporcionada. Es muy útil tener toda esta información tan bien explicada y tan completa.

Es muy probable que su servidor necesite un diagnóstico más en profundidad del log del sistema. Porque podría haber errores adicionales que puedan estar ocultos por los problemas que estamos viendo.

Sin embargo, todo apunta a un fallo de la tarjeta PERC. No sólo de la batería, sino que ese fallo ha podido arrastrar el problema a toda la PERC. Por la forma en que se calienta y por los errores de PCIe Fatal Error. Es necesario reemplazar la PERC H710.

Respecto a la tarjeta de red, para confirmar o descartar el problema, simplemente pueden retirar la tarjeta y comprobar si el problema persiste y si realizando el análisis desde el Lifecycle Controller sigue apareciendo el error PCIe Fatal Error. Si el problema persiste sin la tarjeta, es que el problema podría no está en la tarjeta.

De todas formas, yo empezaría con la PERC. Este componente está claramente fallado.

Un saludo.

4 Operator

 • 

2.7K Mensajes

9 de abril de 2019 00:00

Hola de nuevo @Implanti!

Tiene que tener en cuenta que con una PERC averiada desde hace más de un mes, podría haber ocurrid cualquier fallo en los discos que la controladora no esté mostrando correctamente.

Por lo tanto, sí, por supuesto puede haber pérdida de datos. Y por esa razón, le recomiendo encarecidamente que tenga un backup de los datos. Recuerde que un RAID no es un backup, es una mayor resistencia a caídas para mantener el sistema levantado a pesar de posibles fallos. Pero no es un backup, por ejemplo, si tienen un problema con un borrado de datos ese problema se extiende entre todos los discos de la RAID. Lo cual no ocurriría si fuera un backup. Por eso, insisto una vez más, si todavía tiene acceso a los datos realice un backup de la información antes de intervenir sobre la máquina.

Dicho esto, intento responder a sus preguntas:

Si se accede a la configuración de la controladora de raid (CTRL+R) cuando inicia el servidor. Se pueda observar que no se muestran  los arreglos de raid que se tiene configurados. -> Esto nos confirma que la PERC no está funcionando correctamente.

Reemplazar la tarjeta controladora RAID consiste en apagar el servidor, reemplazar la tarjeta raid y encender el servidor de nuevo y esperar a que inicialice los arreglos de RAID que se tiene con los discos duros. -> Sí, correcto. Salvo por la parte de "inicializar". En terminología de configuraciones PERC, inicializar una RAID significa borrar todos los datos de los discos. Más bien tiene que: apagar, reemplazar PERC, encender y esperar a que el sistema arranque con normalidad.

Ahora si hago esto lo realizo con los 8 discos conectados o mejor hacerlo conectando cada arreglo raid por separado, hasta completar los 8 discos. -> Todo conectado. Ni lo dude. No es necesario ni recomendable hacerlo de forma escalonada.

Uno de los arreglos RAID 5 que se tiene, muestra los leds de sus discos encendido casi constantemente y tiene una intermitencia muy leve. Esto desde la falla, Me preocupa que alguno de los discos tenga una falla y no estén funcionando correctamente. Que tenga como consecuencia que se pierda la configuración de arreglo de RAID y por ultimo perdida de información. -> Esto ya se lo he respondido al principio. Sí, es posible que los discos tengan algún fallo después de un mes con una PERC en mal estado: haga un backup lo antes posible.

Un saludo.

 

2 Mensajes

8 de abril de 2019 06:00

Buenos Días.

Agradezco su pronta respuesta y quiero compartir como continua este caso.

Sucede que ya ha transcurrido 4 semanas con la tarjeta averiada y el servidor sigue funcionando con un ventilador para poder controlar la temperatura de la controladora. Si se accede a la configuración de la controladora de raid (CTRL+R) cuando inicia el servidor. Se pueda observar que no se muestran  los arreglos de raid que se tiene configurados.

Ahora sucede que tengo la tarjeta controladora RAID para reemplazarla. Pero tengo las siguiente preguntas.

Reemplazar la tarjeta controladora RAID consiste en apagar el servidor, reemplazar la tarjeta raid y encender el servidor de nuevo y esperar a que inicialice los arreglos de RAID que se tiene con los discos duros. Ahora si hago esto lo realizo con los 8 discos conectados o mejor hacerlo conectando cada arreglo raid por separado, hasta completar los 8 discos.

Uno de los arreglos RAID 5 que se tiene, muestra los leds de sus discos encendido casi constantemente y tiene una intermitencia muy leve. Esto desde la falla, Me preocupa que alguno de los discos tenga una falla y no estén funcionando correctamente. Que tenga como consecuencia que se pierda la configuración de arreglo de RAID y por ultimo perdida de información. 

https://drive.google.com/file/d/1cvSUHK0oSGzF30rwXgA4fc1ZmnEwPPCK/view?usp=sharing

Configuración PERC H710

 

¡No se encontraron eventos!

Top