PowerEdge: Warum fallen Festplatten aus?
Summary: In diesem Artikel werden die verschiedenen Gründe, aus denen Festplatten ausfallen können, im Detail erläutert.
Instructions
Inhaltsverzeichnis
- Firmware-Beschädigung und Beschädigung der Firmware-Zone
- Elektronikfehler
- Mechanisches Versagen
- Logischer Fehler
- Datenträgerfehler
- SCSI/SAS-Umgebung
- Vorsichtsmaßnahmen für PowerEdge-Festplattenausfälle
Firmware-Beschädigung und Beschädigung der Firmware-Zone
Wenn die Firmware einer Festplatte beschädigt oder nicht mehr lesbar ist, kann der Computer oft nicht korrekt mit der Festplatte interagieren.
Elektronikfehler
Ein elektronisches Versagen steht in der Regel im Zusammenhang mit Problemen auf der Controller-Platine der Festplatte. Der Server erleidet möglicherweise eine Stromspitze oder einen Stromstoß, durch den die Controller-Platine auf der Festplatte herausgerissen wird, wodurch sie für das BIOS nicht mehr erkennbar ist.
Mechanisches Versagen
Ein mechanisches Versagen kann oft (vor allem, wenn nicht frühzeitig darauf reagiert wird) zu einem teilweisen und manchmal auch vollständigen Datenverlust führen. Mechanische Defekte treten in verschiedenen Formen auf, z. B. Schreib-/Lesekopffehler und Motorprobleme. Einer der häufigsten mechanischen Fehler ist ein Headcrash. Ein Head-Crash mit unterschiedlichem Schweregrad tritt auf, wenn die Schreib-/Leseköpfe der Festplatte kurzzeitig oder kontinuierlich mit den Platten der Festplatte in Kontakt kommen.
Ein Kopfabsturz kann aus verschiedenen Gründen auftreten, darunter ein physischer Stromschlag (z. B. ein Sturz der Festplatte auf den Boden), Bewegungen des Computers, statische Elektrizität, Überspannungen und ein mechanischer Schreib-/Lesekopfausfall.
Logischer Fehler
Logische Fehler sind oft die einfachsten und schwierigsten Probleme, mit denen man umgehen kann. Logische Fehler können von einfachen Dingen wie einem ungültigen Eintrag in einer Dateizuordnungstabelle bis hin zu wirklich schrecklichen Problemen wie der Beschädigung und dem Verlust des Dateisystems auf einem stark fragmentierten Laufwerk reichen.
Logische Fehler unterscheiden sich von den oben genannten elektrischen und mechanischen Problemen, da mit der Festplatte normalerweise nichts "physikalisch" falsch ist, außer den Informationsbits darauf.
Medienfehler
Fehlerhafte Sektoren sind Bereiche der Festplatte, die unlesbar werden. Alle Festplattenlaufwerke entwickeln irgendwann fehlerhafte Sektoren. Die Festplatte markiert die Sektoren, die fehlerhaft werden, und diese werden nicht weiter verwendet. Wenn Sie jedoch Daten haben, die sich in Sektoren befinden, die zu ungültigen Sektoren werden, können Sie nicht korrekt auf Ihre Daten oder Dateien zugreifen. Raue Betriebsbedingungen (z. B. hohe Temperaturen, Vibrationen usw.) können dazu führen, dass Festplatten schnell viele fehlerhafte Sektoren entwickeln. Jede Art von Festplatte neigt dazu, „auf natürliche Weise“ fehlerhafte Sektoren zu entwickeln, aber das ist nicht immer der Fall.
SCSI/SAS-Umgebung
SCSI-Festplatten werden oft als Hochleistungslaufwerke angesehen. Sie drehen sich schneller als ihre IDE/SATA-Gegenstücke, daher sind die Datenübertragungsgeschwindigkeiten oft höher. Aus diesem Grund sind SCSI-Laufwerke häufig in Servern zu finden, die einen hohen Datendurchsatz bereitstellen müssen. Diese Leistung hat jedoch oft ihren Preis, da mechanische Fehler bei diesen Laufwerken wahrscheinlicher sind.
Die häufigste Ursache für den Ausfall mehrerer Festplatten in dieser Umgebung ist die schlechte Signalqualität auf dem SCSI-Bus. Eine schlechte Signalqualität kann beim Versuch, sich von diesen Problemen zu erholen, zu einem Overhead des SCSI-Protokolls führen (Timeouts und Bus-Resets). Wenn das System ausgelastet wird und der Bedarf an Daten steigt, nehmen die Korrekturmaßnahmen des SCSI-Protokolls zu und der SCSI-Bus nähert sich der Sättigung. Dieser Overhead schränkt schließlich die normalen Bandbreiten der Gerätekommunikation ein. Wenn dies nicht behoben wird, können ein oder mehrere SCSI-Geräte möglicherweise nicht rechtzeitig auf den RAID-Controller reagieren, was dazu führt, dass der RAID-Controller das Festplattenlaufwerk als offline markiert. Eine unsachgemäße Installation des RAID-Controllers in einem PCI-Steckplatz, schlechte Kabelverbindungen, schlechtes Einsetzen der Festplatten an der SCSI-Rückwandplatine, unsachgemäße Installation oder unsachgemäßes Einsetzen von Rückwandplatinen-Tochterkarten und eine unsachgemäße SCSI-Bus-Terminierung können diese Art von Signalproblemen verursachen.
Kombinationen dieser Fehlertypen sind ebenfalls möglich.
Alle TechnikerInnen und KundInnen sollten die Best Practices für die Wartung lesen und verstehen, um die Verfügbarkeit zu maximieren und Datenverluste infolge eines Festplattenausfalls zu vermeiden.
Vorsichtsmaßnahmen für PowerEdge-Festplattenausfälle
Beim Umgang mit Festplattenausfällen in PowerEdge-Servern ist es wichtig, die folgenden Vorsichtsmaßnahmen zu treffen:
- Backupdaten: Führen Sie immer ein Backup kritischer Daten durch, bevor Sie auf den Festplatten agieren. Dadurch wird die Datensicherheit gewährleistet, wenn weitere Probleme auftreten.
- Überwachen von Warnmeldungen: Achten Sie auf vorausschauende Warnmeldungen zu Laufwerksausfällen (Fehlercode
PDR6) und andere datenträgerbezogene Fehlercodes (z. B.PDR1001undPDR3) enthalten. Diese Warnmeldungen weisen auf potenzielle Probleme hin, die sofortige Aufmerksamkeit erfordern. - Firmwareaktualisierungen: Stellen Sie vor dem Austausch von Hardware sicher, dass die Firmware für den RAID-Controller und die Laufwerke auf dem neuesten Stand ist. Dies kann dazu beitragen, Fehlalarme zu vermeiden und die allgemeine Systemstabilität zu verbessern.
- Gehen Sie vorsichtig mit Laufwerken um: Vermeiden Sie beim Entfernen, Installieren oder Neueinsetzen von Festplatten übermäßige Gewaltanwendung. Dies kann die Rückwandplatine verbiegen und möglicherweise dazu führen, dass benachbarte Laufwerke ausfallen oder die Verbindung verlieren.
- Verbindungen prüfen: Wenn ein Laufwerk als fehlerhaft gemeldet wird, setzen Sie das Laufwerk erneut ein, um Verbindungsprobleme auszuschließen. Überprüfen Sie, ob alle Verbindungen sicher sind.
- Überprüfen Sie die Systemprotokolle: Überprüfen Sie die iDRAC-Protokolle und Systemprotokolle regelmäßig auf zugehörige Warnmeldungen oder thermische Ereignisse, die auf zugrunde liegende Probleme hinweisen könnten.
- Support kontaktieren: Wenn mehrere Laufwerke Fehler melden oder wenn die Probleme nach Durchführung der oben genannten Maßnahmen weiterhin bestehen, wenden Sie sich an den Dell Support, um weitere Unterstützung zu erhalten.