PowerEdge: Por que os discos rígidos falham
Summary: Este artigo explica em detalhes os diferentes motivos pelos quais os discos rígidos podem falhar.
Instructions
Sumário
- Corrupção do firmware e danos à zona do firmware
- Falha eletrônica
- Falha mecânica
- Falha lógica
- Erros de mídia
- Ambiente SCSI/SAS
Corrupção do firmware e danos à zona do firmware
Quando o firmware de um disco rígido é corrompido ou fica ilegível, o computador geralmente não consegue interagir corretamente com o disco rígido
Falha eletrônica
A falha eletrônica geralmente está relacionada a problemas na placa controladora do disco rígido. O servidor pode sofrer um pico de energia ou uma sobrecarga elétrica que desativa a placa controladora do disco rígido, tornando-a indetectável no BIOS do controlador.
Falha mecânica
Muitas vezes, a falha mecânica (especialmente quando não se reage a ela precocemente) pode levar a uma perda parcial e, às vezes, total dos dados. Ela vem em várias formas, como falha nos cabeçotes de leitura/gravação e problemas de motor. Uma das falhas mecânicas mais comuns é a pane do cabeçote. Com diversas gravidades, a pane do cabeçote ocorre quando os cabeçotes de leitura/gravação do disco rígido entram em contato, momentânea ou continuamente, com as bandejas do disco rígido.
Essas panes podem ser causadas por vários motivos, inclusive choque físico (como ao derrubar o disco no chão), movimento do computador, eletricidade estática, picos de energia e falha mecânica nos cabeçotes de leitura/gravação.
Falha lógica
Os erros lógicos muitas vezes são os problemas mais fáceis e mais difíceis de lidar e podem variar de questões simples, como uma entrada inválida em uma tabela de alocação de arquivos, a problemas realmente graves, como a corrupção e perda do file system em uma unidade altamente fragmentada.
Esse tipo de erro é diferente dos problemas elétricos e mecânicos acima, pois geralmente não há nada "fisicamente" errado com o disco, mas com os bits de informações que ele contém.
Erros de mídia
Setores defeituosos são áreas do disco rígido que se tornam ilegíveis. No fim das contas, todas as unidades de disco rígido desenvolvem setores defeituosos. Esses setores são marcados pelo disco rígido e não são mais usados; mas, se você tiver dados que residem em setores que se tornam defeituosos, não poderá acessar seus dados ou arquivos corretamente. Condições operacionais adversas (como altas temperaturas, vibração, entre outras) podem causar o rápido desenvolvimento de muitos setores defeituosos dos discos rígidos. Todo tipo de disco rígido é propenso a desenvolver setores defeituosos "naturalmente", mas isso nem sempre acontece.
Ambiente SCSI/SAS
Os discos rígidos SCSI são frequentemente considerados unidades de alto desempenho. Eles giram mais rápido do que os discos IDE/SATA e, portanto, as velocidades de transferência de dados costumam ser mais rápidas. Por isso, as unidades SCSI geralmente são encontradas em servidores que precisam oferecer muito throughput de dados. No entanto, esse desempenho normalmente tem um preço, pois as falhas mecânicas são mais prováveis nessas unidades.
A causa mais comum de falha de vários discos nesse ambiente é a baixa qualidade do sinal no barramento SCSI. A baixa qualidade do sinal resulta em sobrecarga do protocolo SCSI quando ele tenta se recuperar desses problemas (tempos de espera excedidos e redefinições de barramento). À medida que o sistema fica mais ocupado e a demanda por dados aumenta, as ações corretivas do protocolo SCSI aumentam e o barramento SCSI fica mais próximo da saturação. No fim das contas, essa sobrecarga limita as larguras de banda normais de comunicação do dispositivo e, se não for removida, um ou mais dispositivos SCSI poderão não conseguir responder ao controlador RAID em tempo hábil, fazendo com que o controlador RAID coloque a unidade de disco rígido off-line. Esses tipos de problemas de sinal podem ser causados pela instalação incorreta do controlador RAID em um slot PCI, más conexões de cabo, encaixe deficiente dos discos no backplane SCSI, instalação ou encaixe inadequados das placas auxiliares do backplane e terminação inadequada do barramento SCSI.
Combinações desses tipos de falha também são possíveis.
Todos os técnicos e clientes devem ler e entender as práticas recomendadas de manutenção para maximizar o tempo de funcionamento e ajudar a evitar a perda de dados como resultado de uma falha no disco rígido.