PowerEdge : Pourquoi les disques durs tombent en panne
Summary: Cet article explique en détail les différentes raisons pour lesquelles les disques durs peuvent tomber en panne.
Instructions
Sommaire
- Corruption du firmware et endommagement de la zone du firmware
- Défaillance électronique
- Défaillance mécanique
- Défaillance logique
- Erreurs de support
- Environnement SCSI/SAS
Corruption du firmware et endommagement de la zone du firmware
Lorsque le firmware d’un disque dur devient corrompu ou illisible, l’ordinateur ne parvient souvent pas à interagir correctement avec le disque dur
Défaillance électronique
Une défaillance électronique est généralement liée à des problèmes sur la carte de contrôle du disque dur. Le serveur peut subir une surintensité ou une surtension électrique qui désactive la carte de contrôle sur le disque dur, au point de la rendre indétectable par le BIOS du contrôleur.
Défaillance mécanique
Une défaillance mécanique entraîne souvent une perte partielle, voire totale, des données, en particulier si elle n’est pas traitée rapidement. La défaillance mécanique se présente sous différentes formes, comme une défaillance de la tête de lecture/écriture ou des problèmes de moteur. L’une des défaillances mécaniques les plus courantes est une panne de tête. Une panne de tête est un événement de gravité variable qui se produit lorsque les têtes de lecture/écriture du disque dur entrent en contact, momentanément ou continuellement, avec les plateaux du disque dur.
Les pannes de tête peuvent avoir différentes origines. Elles peuvent être dues à un choc physique (comme une chute du disque sur le sol), à un déplacement de l’ordinateur, à de l’électricité statique, à des surtensions ou à une défaillance mécanique de la tête de lecture/écriture.
Défaillance logique
Les erreurs logiques sont plus ou moins faciles à résoudre. Elles peuvent aller de problèmes de moindre importance, comme une entrée non valide dans une table d’allocation de fichiers, à des problèmes extrêmement graves comme la corruption et la perte du système de fichiers sur un disque fortement fragmenté.
Les erreurs logiques sont différentes des problèmes électriques et mécaniques décrits précédemment, car le disque ne présente généralement pas d’endommagement physique, le problème étant plutôt lié aux informations qu’il contient.
Erreurs de support
Les secteurs défectueux sont des zones du disque dur qui deviennent illisibles. Tous les disques durs finissent par développer des secteurs défectueux ; ces secteurs sont marqués par le disque dur et ne sont plus utilisés, mais si vous stockez des données sur des secteurs qui deviennent défectueux, vous ne pourrez plus accéder correctement à vos données ou fichiers. Des conditions de fonctionnement difficiles (telles que des températures élevées, des vibrations, etc.) peuvent entraîner le développement rapide de nombreux secteurs défectueux sur les disques durs. Tous les types de disques durs sont susceptibles de développer des secteurs défectueux « naturellement », mais ce n’est pas systématique.
Environnement SCSI/SAS
Les disques durs SCSI sont souvent considérés comme des disques hautes performances. Ils tournent plus rapidement que les disques IDE/SATA et offrent donc généralement des vitesses de transfert de données plus rapides. De ce fait, les disques SCSI se trouvent généralement dans des serveurs qui doivent fournir un débit de données important. Mais les performances ont souvent un prix, car ces disques sont plus susceptibles de rencontrer des défaillances mécaniques.
Une mauvaise qualité du signal sur le bus SCSI est la cause la plus courante de défaillance de plusieurs disques dans ce type d’environnement. Une mauvaise qualité du signal entraîne une surcharge du protocole SCSI lorsqu’il tente de résoudre ces problèmes (délais d’expiration et réinitialisation du bus). À mesure que le système devient plus occupé et que la demande de données augmente, les actions correctives du protocole SCSI augmentent et le bus SCSI se rapproche de la saturation. Cette surcharge finit par limiter les bandes passantes normales de communication des périphériques. Si le problème n’est pas résolu, un ou plusieurs périphériques SCSI peuvent ne pas être en mesure de répondre rapidement au contrôleur RAID, auquel cas ce dernier marque le disque dur comme étant hors ligne. Ces types de problèmes de signal peuvent être causés par une installation incorrecte du contrôleur RAID dans un logement PCI, par de mauvais branchements de câbles, par une mauvaise mise en place des disques dans le fond de panier SCSI, par une installation ou une mise en place incorrecte des cartes filles du fond de panier, ou encore par une terminaison incorrecte du bus SCSI.
Des combinaisons des différents types de défaillance sont également possibles.
Tous les techniciens et les clients doivent lire et comprendre les pratiques d’excellence en matière de maintenance afin d’optimiser la disponibilité et d’éviter les pertes de données résultant d’une défaillance du disque dur.