Comenzar una conversación nueva

Solved!

Ir a la solución

1951

7 de julio de 2020 03:00

Raid 5 no reconstruye

Hola,

tengo un PowerEdge r440 con una controladorea Raid PERC H330. 

Contruyo un raid5 con 3 discos (sas, 600GB, certificados por DELL). El raid se contruye y puedo instalar mi sistema (en este caso Proxmox).

A la hora de hacer la prueba para ver si el raid se reconstruye, saco un disco y lo vuelvo a meter.

Aquí es cuando viene el problema, el disco siempre está en rebuildind 0%, no recontruye el raid y este aparece degradado. Lo he dejado más de 48 horas y sigue al 0%.

¿a alguien le ha ocurrido lo mismo?

12 Mensajes

14 de agosto de 2020 03:00

Buenos días Diego,

He estado investigando por mi cuenta y he descubierto que si ponemos el modo de arranque desde la BIOS en BIOS y no en UEFI, cuando inicia el Servidor

nos da la opción de pulsar control+r para iniciar la aplicación nativa de la perc h330.

Desde ahí he borrado la configuración de raid que tenía anteriormente y he creado 2 nuevos Raid, un raid 5 con los  3 discos de certificados de DELL y un raid 1 con 2 discos Seagate Barracuda no certificados.

En los dos RAIDs he realizado la misma prueba de desconectar el disco en caliente y ahora si que reconstruye, incluso automáticamente.

Si entro pulsando f2 en el inicio me aparecen los RAID pero la reconstrucción para y vuelve a aparecer “Rebuilding 0%”.

Al reconstruir el disco manualmente desde “control+r” el raid vuelve a reconstruirse. Incluso si no paso por la aplicación “F2” todos los raid creados a través de “control+r” al sacar y meter el disco de reconstruye automáticamente sin yo hacer nada, estando el sistema operativo levantado, en caliente.

He realizado estos pasos para crear el Raid:

https://www.youtube.com/watch?v=EPe0BOJDMcA

 

Es algo extraño que desde la aplicación no lo haga, te lo comento por si vuelve a pasar con otros usuarios puedas ayudarlos.

También podrías escalar el caso y que DELL pueda analizar porqué está ocurriendo esto y poder corregirlo en futuras actualizaciones.

Muchísimas gracias por tu ayuda. Espero que vaya todo bien.

 

Un saludo!

4 Operator

 • 

2.7K Mensajes

8 de julio de 2020 01:00

Hola @AURUM_INFO,


Ciertamente es interesante la pregunta que planteas... analizando el asunto en profundidad el problema que veo es el método que estás empleando para verificar la "resistencia a fallos" del RAID: "Saco un disco y lo vuelvo a meter" no es un procedimiento en absoluto recomendable ni necesario para probar la correcta funcionalidad del RAID.

 

Sobre todo, porque una operación de reconstrucción, está pensada para restablecer el RAID tras un fallo en uno de los discos. Por ejemplo, si quisieras probar realmente la resistencia a fallos del RAID, podrías tener un cuarto disco de las mismas características y asignarlo como Global Hot Spare (Repuesto Dinámico Global). Entonces podrías sacar uno de los 3 discos que componen el RAID y verificar que salta el Hot Spare automáticamente para tomar el relevo del disco extraído. Este ejemplo, es más real para simular un fallo. Pero si "sacas y metes" el disco.. realmente no hay ningún fallo de disco, sólo estás provocando una desconexión.. de verdad, no creo que sea la prueba más efectiva.

 


Empezando por lo básico, ¿puedes confirmarme que nivel de firmware tiene el servidor? tanto el firmware de la iDRAC, como de la PERC y de los discos. Quiero asegurarme de que están al último nivel.


Desde la iDRAC, puedes exportar un log de SupportAssist marcando que se exporte también el log de la controladora PERC. En este TTY log puedo ver todos los mensajes que ha ido registrando la controladora PERC. Así como el estado actual de los discos. ¿podrías exportar este log? Este artículo explica cómo hacerlo: Exportar una recopilación de SupportAssist y el registro de PERC a través de iDRAC 9 - PowerEdge de 14.ª generación (asegúrate de marcar en el paso 5 el "Storage Logs" el resto no es necesario).

 

 

Quedo a la espera.

Un saludo.

12 Mensajes

8 de julio de 2020 04:00

Gracias por su respuesta, a continuación adjunto las versiones que me pides.

BIOS 2.4.8
PERC H330 Adapter 25.5.6.0009
Disk 0 in Backplane 1 of Integrated RAID Controller 1 EF05
Disk 1 in Backplane 1 of Integrated RAID Controller 1 ST33
Disk 3 in Backplane 1 of Integrated RAID Controller 1 ST33

Integrated Dell Remote Access Controller 9........................................................................... Versión 4.00.00.00(Generar 70)

 

De todas formas, si no tengo un disco en spare, si fallara un disco del raid y compro una nuevo, ¿Al meterlo lo reconstruiría o tengo que marcarlo primero como spare?

La cuestión es que la prueba que estoy haciendo, lo detecta y lo marca como reconstruyendo (rebuilding), es decir, intenta reconstruir el raid pero siempre se queda al 0%.

 

Voy a hacer el manual que me propones para la exportación del log.

Muchas gracias.

4 Operator

 • 

2.7K Mensajes

8 de julio de 2020 05:00

Hola de nuevo @AURUM_INFO,

 

Muchas gracias por tu rápida respuesta!

 

Vale, primero el tema del firmware. Veo que algunos componentes puede ser actualizados. Yo recomiendo que actualicéis el firmware cuando os sea posible.

 

La BIOS, tiene la versión 2.4.8. Siendo la última la 2.6.3. Estamos un par de versiones por debajo. La que tienes es de Diciembre 2019 y la última de Mayo 2020. 

La iDRAC, estamos en la 4.00.00.00. Y la última es la 4.20.20.20. Lo mismo, le recomiendo actualizarlo.

La PERC, tiene la 25.5.6.0009. En este caso, estamos en la última versión posible. No hace falta actualizar.

Por último, los discos: El EF05 está actualizado y el ST33 también. Estamos en la última versión.


¿Conoces el método para actualizar el firmware? Si necesites ayuda durante este proceso, por favor, no dudes en escribirme.


Ahora, respondiendo a la pregunta. Si falla un disco del RAID dado que la máquina está en garantía, no compres uno.. llama a soporte porque está cubierto por la garantía. Si la máquina no está en garantía, primero asegúrate de comprar un disco certificado de las mismas características. Si tienes dudas al respecto, cualquiera de nuestros partners puede asesorarle.


Cuando un disco falla, puede ser fallo predictivo o fallo. Si es fallo predictivo (el virtual disk no estará degradado), tiene que sacar el disco del RAID marcándolo como OffLine (momento en el cual el virtual disk pasará a estado degradado). Puede hacerse desde la iDRAC o desde OMSA. Si es un fallo real (no predictivo) el disco virtual estará en estado Degradado y podrá extraer el disco del servidor e introducir el nuevo. Normalmente el disco comenzará automáticamente la reconstrucción. En algunos casos muy puntuales sí puede ser necesario marcar el disco de sustitución como Hot Spare.. pero lo habitual es que no sea necesario.


Sobre la prueba que estás haciendo.. sí que se quede el rebuild en el 0% no es normal, por eso quisiera analizar el log para saber qué está pasando. Pero es que la prueba que estás haciendo no es realmente un escenario real de fallo de disco. No sé hasta que punto esa prueba es realmente buena y podemos esperar de ella unos resultados fiables. ¿Has reiniciado el servidor en algún momento durante el proceso de rebuild? Cada vez que arranca el servidor la controladora PERC registra el arranque en el log. Sería interesante que lo hicieras antes de exportar el log.


Quedo a la espera de ese log.
Un saludo.

12 Mensajes

13 de julio de 2020 00:00

Ya tengo el log exportado, hay alguna forma de enviarlo de forma privada y solo lo veas tu?

4 Operator

 • 

2.7K Mensajes

14 de julio de 2020 00:00

Por supuesto! Puedes enviarmelos a través de https://dell.to/2WkP9F0 Este artículo explica cómo hacerlo: Cómo enviar la recopilación de Support Assist y el registro de la controladora RAID al portal de carga de archivos de SupportAssist

 

¿Pudiste actualizar el firmware? Por favor, avísame cuando hayas subido el log.

 

Un saludo.

12 Mensajes

14 de julio de 2020 00:00

Ya he cargado el log.

He actualizado los firmwares y nada, incluso ahora des de el idrac me aparece que no tengo discos conectados...

4 Operator

 • 

2.7K Mensajes

14 de julio de 2020 01:00

Hola de nuevo @AURUM_INFO,

 

Le he enviado un email porque me falta cierta información para poder abrir el caso.
Si no pesa demasiado, le agradecería que me adjuntara también el log por email.

 

Un saludo.

12 Mensajes

14 de julio de 2020 02:00

mail respondido.
¡No se encontraron eventos!

Top