Servidor Dell se queda colgado

Buenas Tardes,

Ayer tarde uno de nuestros servidores dell se quedó colgado de repente y un compañero tuvo que reiniciarlo dando un botonazo.

Esto es lo último que hay logueado en el syslog a esa hora:

Dec 26 18:11:31 kernel: [9148133.351962] ata1: lost interrupt (Status 0x50)
Dec 26 18:11:31 kernel: [9148133.351995] ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Dec 26 18:11:31 kernel: [9148133.352014] ata1.00: cmd a0/00:00:00:08:00/00:00:00:00:00/a0 tag 0 pio 16392 in
Dec 26 18:11:31 kernel: [9148133.352014] Get event status notification 4a 01 00 00 10 00 00 00 08 00res 58/00:02:00:08:00/00:00:00:00:00/a0 Emask 0x6 (timeout)
Dec 26 18:11:31 kernel: [9148133.352019] ata1.00: status: { DRDY DRQ }
Dec 26 18:11:31 kernel: [9148133.352036] ata1: hard resetting link
Dec 26 18:11:32 kernel: [9148133.827832] ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 300)
Dec 26 18:11:32 kernel: [9148133.835785] ata1.00: configured for UDMA/100
Dec 26 18:11:37 kernel: [9148138.971455] ata1.00: qc timeout (cmd 0xa0)
Dec 26 18:11:37 kernel: [9148138.971459] ata1.00: TEST_UNIT_READY failed (err_mask=0x5)
Dec 26 18:11:37 kernel: [9148138.971475] ata1: hard resetting link
Dec 26 18:11:37 kernel: [9148139.447530] ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 300)
Dec 26 18:11:37 kernel: [9148139.455099] ata1.00: configured for UDMA/100
Dec 26 18:11:42 kernel: [9148144.603064] ata1.00: qc timeout (cmd 0xa0)
Dec 26 18:11:42 kernel: [9148144.603069] ata1.00: TEST_UNIT_READY failed (err_mask=0x5)
Dec 26 18:11:42 kernel: [9148144.603081] ata1: limiting SATA link speed to 1.5 Gbps
Dec 26 18:11:42 kernel: [9148144.603084] ata1.00: limiting speed to UDMA/100:PIO3
Dec 26 18:11:42 kernel: [9148144.603099] ata1: hard resetting link
Dec 26 18:11:43 kernel: [9148145.079048] ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Dec 26 18:11:43 kernel: [9148145.086753] ata1.00: configured for UDMA/100
Dec 26 18:11:48 kernel: [9148150.234727] ata1.00: qc timeout (cmd 0xa0)
Dec 26 18:11:48 kernel: [9148150.234733] ata1.00: TEST_UNIT_READY failed (err_mask=0x5)
Dec 26 18:11:48 kernel: [9148150.234736] ata1.00: disabled
Dec 26 18:11:48 kernel: [9148150.234774] ata1: hard resetting link
Dec 26 18:11:48 kernel: [9148150.706703] ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Dec 26 18:11:48 kernel: [9148150.706761] ata1: EH complete

Parece un error de alguno de los discos o de la controladora RAID pero si fuera del disco lo normal es que dejara el RAID como degradado y siguiera funcionando en lugar de quedarse colgado.

Los datos del servidor son:

- Dell PowerEdge R610

- Controladora RAID LSI Logic / Symbios Logic MegaRAID SAS 1078 (rev 04) (PERC 6i)

- Tiene un RAID 1 de dos discos SAS 2.5" de 300 Gb con dos discos hot spares y el estado del RAID es Optimal

¿Debería chequear los discos con SMART? ¿Sabéis como puedo obtener mas información o que puedo mirar?

Gracias

Respuestas(1)

Dell-Lizbeth Perea

7 Technologist

•

1K Mensajes

0

27 de diciembre de 2018 14:00

Hola

Gracias por participar del foro.

Los errores que nos facilita son del sistema operativo, y no necesariamente tienen que ver con un hardware defectuoso, aunque en ocasiones sí.

Si tiene acceso a la iDRAC puede verificar los registros. Si no tiene acceso o no tiene configurado la iDRAC puede instalar el OpenManage Server administrador.

Aquí el video de como instarlo en Linux

Puede descargarlo desde el siguiente enlace: Dell EMC OpenManage Server Administrator 9.1.0

De ese modo podrá ver los registros de hardware.

Saludos

Ver todos

¡No se encontraron eventos!

Servidores PowerEdge

Servidor Dell se queda colgado