PowerEdge: Warum Festplatten ausfallen
Summary: In diesem Artikel werden die verschiedenen Gründe, aus denen Festplatten ausfallen können, im Detail erläutert.
Instructions
Inhaltsverzeichnis
- Firmware-Beschädigung und Beschädigung der Firmware-Zone
- Elektronikfehler
- Mechanisches Versagen
- Logischer Fehler
- Datenträgerfehler
- SCSI/SAS-Umgebung
Firmware-Beschädigung und Beschädigung der Firmware-Zone
Wenn die Firmware einer Festplatte beschädigt oder nicht mehr lesbar ist, kann der Computer oft nicht mehr korrekt mit der Festplatte interagieren.
Elektronikfehler
Ein elektronisches Versagen steht in der Regel im Zusammenhang mit Problemen auf der Controller-Platine der Festplatte. Der Server erleidet möglicherweise eine Stromspitze oder einen Stromstoß, durch den die Controllerplatine auf der Festplatte beschädigt wird, wodurch sie für das Controller-BIOS nicht mehr erkennbar ist.
Mechanisches Versagen
Ein mechanisches Versagen kann oft (vor allem, wenn nicht frühzeitig darauf reagiert wird) zu einem teilweisen und manchmal auch vollständigen Datenverlust führen. Mechanische Defekte treten in verschiedenen Formen auf, z. B. Schreib-/Lesekopffehler und Motorprobleme. Einer der häufigsten mechanischen Fehler ist ein Headcrash. Ein Headcrash mit unterschiedlichem Schweregrad tritt auf, wenn die Schreib-/Leseköpfe der Festplatte kurzzeitig oder kontinuierlich mit den Platten der Festplatte in Kontakt kommen.
Headcrashes können verschiedene Ursachen haben, darunter physische Erschütterungen (z. B. Fallenlassen der Festplatte auf den Boden), Bewegung des Computers, statische Elektrizität, Überspannungen und mechanische Ausfälle des Lese-/Schreibkopfes.
Logischer Fehler
Logische Fehler sind oft die einfachsten und am schwierigsten zu lösenden Probleme und können von einfachen Dingen wie einem ungültigen Eintrag in einer Dateizuordnungstabelle bis hin zu wirklich schwerwiegenden Problemen wie der Beschädigung und dem Verlust des Dateisystems auf einem stark fragmentierten Laufwerk reichen.
Logische Fehler unterscheiden sich von den oben genannten elektrischen und mechanischen Problemen, da an der Festplatte normalerweise nichts „physisch“ kaputt ist, außer den Informationsbits darauf.
Medienfehler
Fehlerhafte Sektoren sind Bereiche der Festplatte, die unlesbar werden. Alle Festplatten entwickeln irgendwann fehlerhafte Sektoren. Sektoren, die fehlerhaft werden, werden von der Festplatte markiert und nicht weiter verwendet, aber wenn sich Daten in Sektoren befinden, die zu ungültigen Sektoren werden, können Sie nicht richtig auf Ihre Daten oder Dateien zugreifen. Raue Betriebsbedingungen (z. B. hohe Temperaturen, Vibrationen usw.) können dazu führen, dass Festplatten schnell viele fehlerhafte Sektoren entwickeln. Jede Art von Festplatte neigt dazu, „auf natürliche Weise“ fehlerhafte Sektoren zu entwickeln, aber das ist nicht immer der Fall.
SCSI/SAS-Umgebung
SCSI-Festplatten werden oft als Hochleistungslaufwerke angesehen. Sie drehen sich schneller als ihre IDE/SATA-Gegenstücke, daher sind die Datenübertragungsgeschwindigkeiten oft höher. Aus diesem Grund sind SCSI-Laufwerke häufig in Servern zu finden, die einen hohen Datendurchsatz bereitstellen müssen. Diese Leistung hat jedoch oft ihren Preis, da mechanische Fehler bei diesen Laufwerken wahrscheinlicher sind.
Die häufigste Ursache für den Ausfall mehrerer Festplatten in dieser Umgebung ist die schlechte Signalqualität auf dem gesamten SCSI-Bus. Eine schlechte Signalqualität führt zu einem Overhead des SCSI-Protokolls beim Versuch, sich von diesen Problemen zu erholen (Timeouts und Bus-Resets). Wenn das System ausgelastet wird und der Bedarf an Daten steigt, nehmen die Korrekturmaßnahmen des SCSI-Protokolls zu und der SCSI-Bus nähert sich der Sättigung. Dieser Overhead schränkt schließlich die Bandbreiten der normalen Gerätekommunikation ein. Wenn dies nicht behoben wird, können ein oder mehrere SCSI-Geräte möglicherweise nicht rechtzeitig auf den RAID-Controller reagieren, was dazu führt, dass der RAID-Controller das Festplattenlaufwerk als offline markiert. Diese Arten von Signalproblemen können durch eine unsachgemäße Installation des RAID-Controllers in einem PCI-Steckplatz, schlechte Kabelverbindungen, ein schlechtes Einsetzen der Festplatten auf der SCSI-Rückwandplatine, eine unsachgemäße Installation oder ein unsachgemäßes Einsetzen von Rückwandplatinen-Tochterkarten und eine unsachgemäße SCSI-Bus-Terminierung verursacht werden.
Kombinationen dieser Fehlertypen sind ebenfalls möglich.
Alle TechnikerInnen und KundInnen sollten die Best Practices für die Wartung lesen und verstehen, um die Verfügbarkeit zu maximieren und Datenverluste infolge eines Festplattenausfalls zu vermeiden.