PowerEdge: ¿Por qué fallan los discos duros?
Resumen: En este artículo, se explican en detalle las diferentes razones por las que los discos duros pueden fallar.
Instrucciones
Índice
- Daños en el firmware y en la zona del firmware
- Falla electrónica
- Falla mecánica
- Falla lógica
- Errores de medios
- Entorno de la SCSI/SAS
- Precauciones para las fallas de disco de PowerEdge
Daños en el firmware y en la zona del firmware
Cuando el firmware de un disco duro se daña o no se puede leer, la computadora a menudo no puede interactuar correctamente con el disco duro.
Falla electrónica
Generalmente, las fallas electrónicas se relacionan con problemas en la placa controladora del disco duro. El servidor puede sufrir un pico de alimentación o una sobrecarga eléctrica que derribe la placa controladora del disco duro, lo que la hace indetectable para el BIOS.
Falla mecánica
Las fallas mecánicas, a menudo (especialmente si no se actúa a tiempo), pueden provocar una pérdida parcial y, a veces, total de los datos. Una falla mecánica se presenta de varias formas, como una falla del cabezal de lectura/escritura y problemas motores. Una de las fallas mecánicas más comunes es la falla del cabezal. Con una gravedad variable, se produce una falla del cabezal cuando los cabezales de lectura/escritura del disco duro entran en contacto, de forma momentánea o continua, con los platos del disco duro.
Una variedad de razones pueden causar un choque en la cabeza, incluido el choque físico (como la caída del disco al piso), el movimiento de la computadora, la electricidad estática, las sobrecargas de energía y la falla mecánica del cabezal de lectura/escritura.
Falla lógica
Los errores lógicos suelen ser los problemas más fáciles y difíciles de tratar. Los errores lógicos pueden variar desde cosas simples, como una entrada no válida en una tabla de asignación de archivos, hasta problemas realmente terribles, como la corrupción y la pérdida del sistema de archivos en una unidad muy fragmentada.
Los errores lógicos son diferentes a los problemas eléctricos y mecánicos anteriores, ya que generalmente no hay nada "físicamente" malo con el disco, excepto los bits de información en él.
Errores de medios
Los sectores defectuosos son áreas del disco duro que ya no se pueden leer. Con el tiempo, todas las unidades de disco duro desarrollan sectores defectuosos. El disco duro marca los sectores que se estropean y estos no se utilizan más. Pero si tiene datos que residen en sectores que se convierten en sectores defectuosos, no podrá acceder correctamente a los datos o archivos. Las condiciones de funcionamiento adversas (como altas temperaturas, vibración, etc.) pueden hacer que los discos duros desarrollen rápidamente muchos sectores defectuosos. Todos los tipos de discos duros son propensos a desarrollar sectores defectuosos “de forma natural”, pero no siempre sucede.
Entorno de la SCSI/SAS
Los discos duros de la SCSI, a menudo, se consideran unidades de alto rendimiento. Giran más rápido que las contrapartes de IDE/SATA, por lo que las velocidades de transferencia de datos suelen ser más rápidas. Por esto, las unidades de SCSI, por lo general, se encuentran en servidores que tienen que proporcionar gran cantidad de rendimiento de datos. Sin embargo, este rendimiento a menudo tiene un precio, ya que las fallas mecánicas son más probables en estas unidades.
La causa más común de fallas de varios discos en este entorno es la mala calidad de la señal en todo el bus SCSI. Una mala calidad de señal puede provocar sobrecarga del protocolo SCSI mientras intenta recuperarse de estos problemas (tiempos de espera agotados y restablecimientos del bus). A medida que el sistema está más ocupado y aumenta la demanda de datos, las acciones correctivas del protocolo de SCSI aumentan y el bus de SCSI se acerca más a la saturación. Con el tiempo, esta sobrecarga limita los anchos de banda normales de las comunicaciones de los dispositivos. Si no se borra, es posible que uno o más dispositivos SCSI no puedan responder a la controladora RAID de manera oportuna, lo que provoca que la controladora RAID marque la unidad de disco duro como offline. La instalación incorrecta de la controladora RAID en una ranura PCI, las conexiones de cables deficientes, la colocación deficiente de los discos contra el plano posterior SCSI, la instalación o el acoplamiento incorrectos de las tarjetas secundarias del plano posterior y la terminación incorrecta del bus SCSI pueden causar estos tipos de problemas de señal.
También es posible que se combinen estos tipos de fallas.
Todos los técnicos y clientes deben leer y comprender las prácticas recomendadas de mantenimiento para maximizar el tiempo de actividad y ayudar a prevenir la pérdida de datos como resultado de una falla del disco duro.
Precauciones para las fallas de disco de PowerEdge
Cuando se trata de fallas de disco en servidores PowerEdge, es esencial tomar las siguientes precauciones:
- Datos de respaldo: Siempre realice un respaldo de los datos cruciales antes de realizar acciones sobre los discos. Esto garantiza la seguridad de los datos en caso de que surjan más problemas.
- Monitorear alertas: Preste atención a las alertas predictivas de falla de la unidad (código de error
PDR6) y otros códigos de error relacionados con el disco (comoPDR1001yPDR3). Estas alertas indican posibles problemas que requieren atención inmediata. - Actualizaciones de firmware: Antes de reemplazar cualquier hardware, asegúrese de que el firmware de la controladora RAID y las unidades esté actualizado. Esto puede ayudar a evitar alertas falsas y mejorar la estabilidad general del sistema.
- Maneje las unidades con cuidado: Cuando extraiga, instale o vuelva a insertar las unidades de disco duro, evite el uso de fuerza excesiva. Esto puede flexionar el backplane y potencialmente hacer que las unidades vecinas fallen o pierdan conectividad.
- Compruebe las conexiones: Si una unidad se informa como fallida, vuelva a insertarla para descartar problemas de conexión. Verifique que todas las conexiones sean seguras.
- Revise los registros del sistema: Compruebe periódicamente los registros de iDRAC y del sistema en busca de alertas o eventos térmicos relacionados que puedan indicar problemas subyacentes.
- Comuníquese con el soporte: Si varias unidades informan errores o si los problemas persisten después de realizar las acciones anteriores, comuníquese con el soporte de Dell para obtener más ayuda.