PowerEdge: Por qué fallan los discos duros
Summary: En este artículo, se explican en detalle las diferentes razones por las que los discos duros pueden fallar.
Instructions
Índice
- Daños en el firmware y en la zona del firmware
- Falla electrónica
- Falla mecánica
- Falla lógica
- Errores de medios
- Entorno de la SCSI/SAS
Daños en el firmware y en la zona del firmware
Cuando el firmware de un disco duro se daña o no se puede leer; a menudo, la computadora no puede interactuar correctamente con el disco duro
Falla electrónica
Generalmente, las fallas electrónicas se relacionan con problemas en la placa controladora del disco duro. Es posible que el servidor sufra un pico de tensión o una sobrecarga eléctrica que derribe la placa controladora del disco duro, lo que hace que sea indetectable para el BIOS de la controladora.
Falla mecánica
Las fallas mecánicas, a menudo (especialmente si no se actúa a tiempo), pueden provocar una pérdida parcial y, a veces, total de los datos. Una falla mecánica se presenta de varias formas, como una falla del cabezal de lectura/escritura y problemas motores. Una de las fallas mecánicas más comunes es la falla del cabezal. Con una gravedad variable, se produce una falla del cabezal cuando los cabezales de lectura/escritura del disco duro entran en contacto, de forma momentánea o continua, con los platos del disco duro.
Las fallas del cabezal pueden deberse a una variedad de razones, entre las que se incluyen los golpes físicos (como dejar caer el disco al suelo), los movimientos de la computadora, la electricidad estática, las sobrecargas de energía y las fallas mecánicas del cabezal de lectura/escritura.
Falla lógica
Son, en general, los problemas más fáciles y los más difíciles de resolver. Los errores lógicos pueden variar desde algo simple, como una entrada no válida en una tabla de asignación de archivos, hasta problemas realmente terribles, como el daño y la pérdida del sistema de archivos en una unidad gravemente fragmentada.
Los errores lógicos son diferentes a los problemas eléctricos y mecánicos mencionados antes, ya que, por lo general, no hay nada “físicamente” malo con el disco, excepto los bits de información en él.
Errores de medios
Los sectores defectuosos son áreas del disco duro que ya no se pueden leer. Con el tiempo, todos los discos duros desarrollan sectores defectuosos. Los sectores que se estropean quedan marcados por el disco duro y no se utilizan más, pero si tiene datos en sectores que se convierten en sectores defectuosos, no podrá acceder correctamente a los datos o archivos. Las condiciones de funcionamiento adversas (como altas temperaturas, vibración, etc.) pueden hacer que los discos duros desarrollen rápidamente muchos sectores defectuosos. Todos los tipos de discos duros son propensos a desarrollar sectores defectuosos “de forma natural”, pero no siempre sucede.
Entorno de la SCSI/SAS
Los discos duros de la SCSI, a menudo, se consideran unidades de alto rendimiento. Giran más rápido que las contrapartes de IDE/SATA, por lo que las velocidades de transferencia de datos suelen ser más rápidas. Por esto, las unidades de SCSI, por lo general, se encuentran en servidores que tienen que proporcionar gran cantidad de rendimiento de datos. Sin embargo, este rendimiento, a menudo, tiene un precio, ya que las fallas mecánicas son más probables en estas unidades.
La causa más común de una falla de varios discos en este entorno es la calidad deficiente de la señal en el bus de SCSI. Una calidad deficiente de la señal provoca una sobrecarga del protocolo de SCSI mientras intenta recuperarse de estos problemas (tiempos de espera agotados y restablecimientos del bus). A medida que el sistema está más ocupado y aumenta la demanda de datos, las acciones correctivas del protocolo de SCSI aumentan y el bus de SCSI se acerca más a la saturación. Con el tiempo, esta sobrecarga limita los anchos de banda normales de comunicación de los dispositivos y, si no se borra, es posible que uno o más dispositivos de SCSI no puedan responder a la controladora RAID de manera oportuna, lo que provoca que la controladora RAID marque la unidad de disco duro como sin conexión. Estos tipos de problemas de señal pueden deberse a una instalación incorrecta de la controladora RAID en una ranura PCI, conexiones deficientes de cables, colocación deficiente de los discos contra el backplane de la SCSI, instalación o colocación incorrecta de las tarjetas secundarias de backplane y terminación incorrecta del bus de SCSI.
También es posible que se combinen estos tipos de fallas.
Todos los técnicos y clientes deben leer y comprender las prácticas recomendadas de mantenimiento para maximizar el tiempo de actividad y ayudar a prevenir la pérdida de datos como resultado de una falla del disco duro.