PowerEdge: perché si verificano guasti nei dischi rigidi
Summary: Questo articolo spiega in dettaglio i diversi motivi per cui può verificarsi un guasto nel disco rigido.
Instructions
Sommario
- Danneggiamento del firmware e danni alla zona del firmware
- Guasto elettronico
- Guasto meccanico
- Errore logico
- Errori del supporto
- Ambiente SCSI/SAS
Danneggiamento del firmware e danni alla zona del firmware
Quando il firmware di un disco rigido si danneggia o diventa illeggibile, spesso il computer non è in grado di interagire correttamente con il disco rigido
Guasto elettronico
Il guasto elettronico è in genere correlato a problemi sulla scheda del controller del disco rigido. Il server potrebbe subire un picco di alimentazione o una sovratensione elettrica che colpisce la scheda del controller sul disco rigido, rendendola non rilevabile dal BIOS del controller.
Guasto meccanico
Il guasto meccanico può spesso portare a una perdita parziale e a volte totale dei dati (soprattutto se non viene affrontato in modo tempestivo). Un guasto meccanico si presenta in varie forme, ad esempio un guasto delle testine di lettura/scrittura e problemi del motore. Uno dei guasti meccanici più comuni è la collisione delle testine. Di gravità variabile, la collisione delle testine si verifica quando le testine di lettura/scrittura del disco rigido entrano in contatto, momentaneamente o continuamente, con i piatti del disco rigido.
Le collisioni delle testine possono essere causate da una serie di motivi, tra cui urti fisici (ad esempio, caduta del disco sul pavimento), movimento del computer, elettricità statica, sovratensioni di alimentazione e guasti meccanici delle testine.
Errore logico
Gli errori logici, spesso i problemi più semplici e al contempo difficili da affrontare, possono spaziare da elementi semplici, come una voce non valida in una tabella di allocazione dei file, a problemi molto più gravi, come il danneggiamento e la perdita del file system su un'unità pesantemente frammentata.
Gli errori logici sono diversi dai problemi elettrici e meccanici di cui sopra, poiché in genere non c'è nulla di "fisicamente" sbagliato nel disco, ma nei bit di informazioni su di esso.
Errori del supporto
I settori danneggiati sono aree del disco rigido che diventano illeggibili. Prima o poi, tutte le unità del disco rigido sviluppano settori danneggiati, che vengono contrassegnati dal disco rigido e non vengono più utilizzati. Se, tuttavia, alcuni dati risiedono in settori che si danneggiano, non è possibile accedere correttamente ai dati o ai file. Condizioni operative difficili (ad esempio temperature elevate, vibrazioni e così via) possono causare lo sviluppo rapido di molti settori danneggiati dei dischi rigidi. Ogni tipo di disco rigido è soggetto allo sviluppo di settori "naturalmente” danneggiati, ma non sempre è così.
Ambiente SCSI/SAS
I dischi rigidi SCSI sono spesso considerati unità a prestazioni elevate. Girano più velocemente rispetto alle loro controparti IDE/SATA, quindi le velocità di trasferimento dei dati sono spesso più elevate. Per questo motivo, le unità SCSI si trovano spesso nei server che devono fornire molti throughput di dati. Tuttavia, queste prestazioni spesso hanno un prezzo, in quanto i guasti meccanici sono più probabili su queste unità.
La causa più comune di guasti multipli sui dischi in questo ambiente è la scarsa qualità del segnale sul bus SCSI. Una scarsa qualità del segnale determina un overhead del protocollo SCSI durante il tentativo di ripristino da questi problemi (timeout e reimpostazioni del bus). Man mano che il sistema diventa più attivo e la richiesta di dati aumenta, aumentano anche le azioni correttive del protocollo SCSI e il bus SCSI si avvicina alla saturazione. Alla lunga, questo overhead limita le normali larghezze di banda delle comunicazioni dei dispositivi e, se viene ignorato, uno o più dispositivi SCSI potrebbero non essere in grado di rispondere tempestivamente al controller RAID, con conseguente contrassegno offline dell'unità disco rigido da parte del controller RAID. Questi tipi di problemi di segnale possono essere causati da un'installazione non corretta del controller RAID in uno slot PCI, da collegamenti di cavi difettosi, dal posizionamento non corretto dei dischi rispetto al backplane SCSI, dall'installazione o dal posizionamento non corretto delle schede secondarie del backplane e dalla terminazione errata del bus SCSI.
Sono inoltre possibili combinazioni di questi tipi di errore.
Tutti i tecnici e i clienti devono leggere e comprendere le best practice di manutenzione per ottimizzare l'uptime e prevenire la perdita di dati a causa di un guasto del disco rigido.