Beheben von doppelten Fehlern und Löchern in RAID-Arrays

摘要: RAID-Arrays sind nicht immun gegenüber Datenfehlern. Dieser Artikel enthält Empfehlungen zur Vermeidung und Minderung dieser Probleme.

本文适用于本文不适用于本文并非针对某种特定的产品。本文并非包含所有产品版本。

症状

Dieser Artikel enthält Informationen zu Datenfehlern, doppelten Fehlern und Löchern in einem RAID-Array. Darüber hinaus gibt es Empfehlungen zum Vermeiden/Lösen dieser Probleme sowie zum Beheben von Problemen, nachdem sie aufgetreten sind.

Inhaltsverzeichnis

Datenfehler und doppelte Fehler
Löcher: Was sind Löcher und wie werden sie verursacht?
Vermeidung von Problemen, bevor sie auftreten, und Beheben von Löchern, nachdem sie auftreten

Kapitel 1: Datenfehler und doppelte Fehler

RAID-Arrays sind nicht immun gegenüber Datenfehlern. RAID-Controller- und Laufwerk-Firmware enthalten Funktionen zum Erkennen und Beheben vieler Arten von Datenfehlern, bevor sie in ein Array bzw. ein Laufwerk geschrieben werden. Die Verwendung veralteter Firmware kann dazu führen, dass falsche Daten auf ein Array/Laufwerk geschrieben werden, da die Fehlerbehandlungs-/Fehlerkorrekturfunktionen fehlen, die in den neuesten Firmwareversionen verfügbar sind.

Datenfehler können auch durch fehlerhafte physische Blöcke verursacht werden. Zum Beispiel kann dies auftreten, wenn der Schreib-/Lesekopf negative Auswirkung auf die rotierenden Platten hat (wird auch "Head Crash" genannt). Blöcke können auch im Laufe der Zeit fehlerhaft werden, da sich die Fähigkeit der Platten verschlechtert, Bits magnetisch an einem bestimmten Ort zu speichern. Fehlerhafte Blöcke, die durch Plattenverschlechterung entstehen, können oft erfolgreich gelesen werden. Diese fehlerhaften Blöcke können nur zeitweilig oder durch erweiterte Diagnosen auf den Laufwerken erkannt werden.

Ein fehlerhafter Block, auch bekannt als fehlerhafte logische Blockadresse (LBA), kann auch durch logische Datenfehler verursacht werden. Dies tritt auf, wenn Daten nicht richtig auf ein Laufwerk geschrieben werden, obwohl der Schreibvorgang als erfolgreich gemeldet wurde. Darüber hinaus können einwandfreie, auf einem Laufwerk gespeicherte Daten versehentlich verändert werden. Ein Beispiel ist ein "Bit-Flip", der auftreten kann, wenn der Lese-/Schreibkopf übertritt oder in einem nahe gelegenen Ort schreibt, was dazu führt, dass Daten in Form von Nullen und Einsen zu einem anderen Wert geändert werden. Ein solcher Zustand führt dazu, dass die "Konsistenz" der Daten beschädigt wird. Der Wert der Daten auf einem bestimmten Block unterscheidet sich von den ursprünglichen Daten und stimmt möglicherweise nicht mehr mit der Prüfsumme der Daten überein. Die physische LBA funktioniert gut und kann erfolgreich beschrieben werden, enthält jedoch derzeit falsche Daten und kann als fehlerhafter Block interpretiert werden.

Fehlerhafte LBAs werden häufig mit dem Sensorcode 3/11/0 gemeldet. Sensorschlüssel 3 ist ein mittelmäßiger Fehler. Der zusätzliche Sensorcode und der zusätzliche Sensorkennzeichner von 11/00 werden als Unentdeckter Lesefehler definiert. Es wird kein Versuch unternommen, den Block zu korrigieren, und es wird nicht festgestellt, ob der fehlerhafte Block das Ergebnis eines physischen Fehlers auf der Laufwerksplatte oder ein Fehler der Daten aufgrund anderer Ursachen ist. Das Vorhandensein eines Sensorcodes 3/11/00 bedeutet nicht automatisch, dass das physische Laufwerk ausgefallen ist oder ausgetauscht werden sollte.

Hardwarebasierte RAID-Controller von Dell bieten Funktionen wie Patrol Read und Konsistenzprüfungen, um zahlreiche Datenfehlerszenarien zu korrigieren. Patrol Read läuft standardmäßig als automatisierte Aufgabe im Hintergrund, bei der sämtliche einzelne Blöcke auf einem Laufwerk geprüft werden, um sicherzustellen, dass die Daten richtig gelesen werden können. Patrol Read wird versuchen, fehlerhafte Blöcke zu korrigieren oder nicht korrigierbare Blöcke an reservierte Blöcke umzuadressieren. "Konsistenz prüfen" ist eine manuell aktivierte Funktion (kann auch geplant werden), die alle Laufwerke in einem Array miteinander vergleicht, um sicherzustellen, dass die Daten und Redundanz übereinstimmen. Beispiel: Drei Festplatten in einem RAID-5-Array werden verglichen, um sicherzustellen, dass die Daten und die Parität die korrekten Werte verwenden. Wenn ein einzelner Fehler erkannt wird, werden die übrigen Daten und/oder die verbleibende Parität verwendet, um die fehlerhaften Werte neuzuschreiben und zu korrigieren. Auf ähnliche Weise werden in einem RAID-1-Array die Daten auf einem Laufwerk mit dem anderen Laufwerk verglichen, um sicherzustellen, dass die Daten korrekt gespiegelt werden.

Jeder einzelne Fehler in einem RAID-Array kann, wenn er nicht korrigiert wird, schwerwiegendere Fehler im Array verursachen, insbesondere wenn ein zweiter Fehler auftritt. Einer oder mehrere einzelne Fehler führen nicht zum Verlust von Daten, solange das Array in einem optimalen Zustand bleibt. Es gibt immer noch genügend Daten und Redundanz für einen normalen Betrieb, während das Array in einem optimalen Zustand ist.

Aufgrund der Fähigkeit des Controllers, Fehler während des normalen Betriebs zu korrigieren, ist es nicht immer einfach zu erkennen, ob zugrunde liegende Probleme in den Daten vorhanden sind. Es gibt in den seltensten Fällen Fehler oder Warnungen im Controllerprotokoll, in den Hardwareprotokollen oder in den Betriebssystem-Ereignisprotokollen, wenn einer oder mehrere einzelne Fehler vorhanden sind. Aus diesem Grund kann es den Anschein haben, dass ein Array für einen sehr langen Zeitraum normal funktioniert, obwohl Konsistenzfehler und/oder einzelne Fehler vorliegen.

SLN111497_en_US__11

Abbildung 1: Mehrere einzelne Fehler in einem RAID-5-Array – Optimales Array

Wie in Abbildung 1 gezeigt, weist das Array mehrere Fehler auf. Da es aber nur einen einzelnen Fehler in den Stripes gibt, kann der Controller aufgrund der Redundanz von RAID 5 immer noch auf alle Daten zugreifen. Wenn der Fehler auf dem Paritätssegment auftritt, sind alle Daten intakt und der Fehler hat keinen Einfluss auf Lesevorgänge. Wenn der Fehler in einem Datensegment auftritt, muss ein XOR-Vergleich zwischen den fehlerfreien Daten und den fehlerfreien Paritätsteilen durchgeführt werden, um das fehlende/fehlerhafte Datensegment neu zu berechnen. Da in beiden Fällen nur ein einziger Fehler in einem Stripe vorhanden ist, ist ausreichend Redundanz verfügbar, um erfolgreich auf alle Daten zuzugreifen.

Wenn ein oder mehrere Laufwerke in einem RAID-Array Datenfehler enthalten und ein anderes Laufwerk im Array aufgrund eines Laufwerksausfalls, einer Fremdkonfiguration, des Entfernens des Laufwerks oder aus einem anderen Grund kein aktives Mitglied des Arrays mehr ist, kommt es zu einem Zustand, der als „doppelter Fehler“ bezeichnet wird. Ein doppelter Fehler führt zu einem unmittelbaren Datenverlust aller Informationen in den betroffenen Stripes.

SLN111497_en_US__22

Abbildung 2: Doppelter Fehler mit einem ausgefallenen Laufwerk (Daten in Stripes 1 und 2 gehen verloren) – Herabgestuftes Array

Es ist möglich, dass ein doppelter Fehler auftritt, während das Array in einem optimalen Zustand verbleibt. Das passiert bei identischen fehlerhaften LBAs auf mehreren Laufwerken. Ein solcher Zustand ist äußerst selten angesichts der großen Anzahl von LBAs heutzutage auf größeren Laufwerken. Es ist sehr unwahrscheinlich, dass dieselbe LBA auf mehreren Festplatten gleichzeitig fehlerhaft ist.

Das Durchführen regelmäßiger Konsistenzprüfungen korrigiert einzelne Fehler, unabhängig davon, ob es sich um einen fehlerhaften physischen Block oder einen logischen Fehler der Daten handelt. Mit "Konsistenz prüfen" wird auch die Gefahr eines doppelten Fehlers im Falle von zusätzlichen Fehlern gemindert. Wenn es nicht mehr als einen einzelnen Fehler in einem bestimmten Stripe gibt, wird der Fehler mit der Konsistenzprüfung so gut wie immer eliminiert.

Nach oben

Kapitel 2: Löcher: Was sind Löcher und wie werden sie verursacht?

Ein Loch ist eine Funktion der Dell PERC-Controller, wodurch der Controller die Redundanz des Arrays trotz des Verlustes von Daten durch einen doppelten Fehler wiederherstellen kann. Ein anderer Name für ein Loch ist "Wiederherstellung mit Fehlern". Der RAID-Controller erkennt einen doppelten Fehler und da es nicht genügend Redundanz zur Wiederherstellung der Daten im betroffenen Stripe gibt, erstellt der Controller ein Loch in diesem Stripe und lässt die Wiederherstellung fortfahren.

Jeder Zustand, der dafür sorgt, dass die Daten in demselben Stripe auf mehr als einem Laufwerk nicht zugänglich sind, ist ein doppelter Fehler
Doppelte Fehler führen zum Verlust aller Daten innerhalb des betroffenen Stripe
Alle Löcher sind doppelte Fehler, aber NICHT alle doppelten Fehlern sind Löcher

Abbildung 3: Stripes mit Loch (Daten in Stripes 1 und 2 gehen aufgrund des doppelten Fehlers verloren) – Optimales Array

Ohne die Lochfunktion würde die Array-Neuerstellung fehlschlagen und das Array in einem herabgestuften Zustand verbleiben. In einigen Fällen können die Ausfälle dazu führen, dass zusätzliche Laufwerke ausfallen und das Array in einen nicht funktionierenden Offline-Status versetzt wird. Das Erstellen von Löchern in einem Array hat keine Auswirkung auf die Möglichkeit, die Daten auf dem Array zu starten oder darauf zuzugreifen. Beschädigungen oder verlorene Daten aufgrund eines doppelten Fehlers sind bereits aufgetreten.

Löcher können in einer der beiden folgenden Situationen auftreten:

Doppelter Fehler bereits vorhanden (Daten bereits verloren)
- Datenfehler auf einem Online-Laufwerk wird auf ein Laufwerk verteilt (kopiert), das neu erstellt wird

Doppelter Fehler ist nicht vorhanden (Daten gehen verloren, wenn der zweite Fehler auftritt)
- Im herabgesetzten Zustand, wenn ein fehlerhafter Block auf einem Online-Laufwerk auftritt, wird diese LBA mit einem Loch versehen

Der Vorteil vom Löchern eines Arrays besteht darin, dass das System in der Produktion verfügbar bleibt und die Redundanz des Arrays wiederhergestellt wird. Die Daten in dem betroffenen Stripe gehen verloren, ob ein Loch auftritt oder nicht. Der Hauptnachteil der LSI-Methode besteht darin, dass während das Array ein Loch aufweist, nicht korrigierbare Fehler weiterhin erkannt werden, wenn auf die betroffenen Daten (falls vorhanden) zugegriffen wird.

Löcher können an drei Orten auftreten. Zuerst kann ein Loch im Leerraum entstehen, der keine Daten enthält. Auf diesen Stripe kann dann nicht zugegriffen werden, aber da keine Daten an diesem Ort enthalten sind, hat dies keine bedeutenden Auswirkungen. Alle Versuche des Betriebssystems in einen Stripe mit Loch zu schreiben, schlagen fehl, und die Daten werden an einen anderen Ort geschrieben.

Zweitens kann ein Loch in einem Stripe auftreten, der Daten enthält, die nicht von entscheidender Bedeutung sind, wie z. B. eine Readme.txt-Datei. Wenn auf die betroffenen Daten nicht zugegriffen wird, werden keine Fehler während normaler E/A-Vorgänge erzeugt. Bei Versuchen, eine Dateisystemsicherung durchzuführen, können Dateien, die von einem Loch betroffen sind, nicht gesichert werden. Mit der Durchführung einer Konsistenzprüfung oder eines Patrol Reads wird der Sensorcode: 3/11/00 für die entsprechende LBA und/oder die entsprechenden Stripes erzeugt.

Drittens kann ein Loch in einem Datenbereich auftreten, auf den zugegriffen wird. In einem solchen Fall können die verloren gegangenen Daten eine Vielzahl von Fehlern verursachen. Die Fehler können geringfügige Fehler sein, die keine negativen Folgen für eine Produktionsumgebung haben. Die Fehler können auch schwerwiegender sein und dazu führen, dass das System ein Betriebssystem nicht starten kann oder dass Anwendungen nicht gestartet werden können.

Ein Array mit Loch muss letztendlich gelöscht und neu erstellt werden, um das Loch zu beseitigen. Dadurch werden alle Daten gelöscht. Die Daten müssen dann neu erstellt oder aus der Sicherungskopie wiederhergestellt werden, nachdem das Loch beseitigt wurde. Das Beseitigen eines Lochs kann für einen Zeitraum geplant werden, der den Anforderungen des Unternehmens entspricht.

Wenn auf die Daten eines Stripes mit Loch zugegriffen wird, werden weiterhin Fehler für die betroffenen fehlerhaften LBAs gemeldet, ohne dass eine mögliche Korrektur verfügbar ist. Nach einer gewissen Zeit (dies könnten Minuten, Tagen, Wochen, Monate usw. sein), wird die Tabelle für die Verwaltung fehlerhafter Blocks (BBM) gefüllt, wodurch ein oder mehrere Laufwerke mit "Fehlerankündigung" gekennzeichnet werden. In Abbildung 3 ist Laufwerk 0 in der Regel das Laufwerk, das mit "Fehlerankündigung" gekennzeichnet wird, aufgrund der Fehler auf Laufwerk 1, die auf Laufwerk 2 übertragen werden. Laufwerk 0 funktioniert möglicherweise normal und das Austauschen von Laufwerk 0 führt nur dazu, dass dieses Ersatzlaufwerk schließlich auch mit einer Fehlerankündigung gekennzeichnet wird.

Eine Konsistenzprüfung, die durchgeführt wird, nachdem ein Loch verursacht wurde, löst das Problem nicht. Aus diesem Grund ist es sehr wichtig, "Konsistenz prüfen" regelmäßig durchzuführen. Das ist besonders wichtig vor dem Austauschen von Laufwerken, soweit dies möglich ist. Das Array muss sich in einem optimalen Zustand befinden, um die Konsistenzprüfung durchzuführen.

Ein RAID-Array, das einen einzelnen Datenfehler in Verbindung mit einem zusätzlichen Fehlerereignis wie einem Festplattenausfall enthält, verursacht ein Loch, wenn das ausgefallene oder Ersatzlaufwerk im Array neu erstellt wird. Beispiel: Ein optimales RAID-5-Array umfasst drei Mitglieder: 0, 1 und 2. Wenn Laufwerk 0 ausfällt (Abbildung 2) und ersetzt wird, werden die Daten und die Parität, die auf den Laufwerken 1 und 2 verbleiben, verwendet, um die fehlenden Informationen wieder auf Laufwerk 0 bereitzustellen. Wenn jedoch ein Datenfehler auf Laufwerk 1 vorhanden ist und der Wiederaufbauvorgang diesen Fehler erreicht, sind nicht genügend Informationen innerhalb des Stripes vorhanden, um die fehlenden Daten in diesem Streifen neu zu erstellen. Laufwerk 0 hat keine Daten, Laufwerk 1 weist fehlerhafte Daten auf und Laufwerk 2 besitzt fehlerfreie Daten, da es neu erstellt wird. Es sind mehrere Fehler innerhalb dieses Stripes enthalten. Die Laufwerke 0 und 1 enthalten keine gültigen Daten, sodass keine Daten in diesem Stripe wiederhergestellt werden können und daher verloren sind. Das Ergebnis, wie in Abbildung 3 dargestellt, ist, dass Löcher (in Stripes 1 und 2) während des Wiederherstellungsvorgangs erstellt werden. Die Fehler werden auf Laufwerk 0 verteilt.

Durch das Erstellen eines Lochs im Array wird die Redundanz wiederhergestellt und das Array kehrt in einen optimalen Zustand zurück. Dadurch wird das Array vor zusätzlichen Datenverlusten im Falle von zusätzlichen Fehlern oder Laufwerksfehlern geschützt.

Zurück zum Anfang

Kapitel 3: Vermeidung von Problemen, bevor sie auftreten und Beheben von Löchern, nachdem sie aufgetreten sind

Es kann eine Versuchung sein, unter der Prämisse zu arbeiten, "Wenn es nicht kaputt ist, repariere es nicht". Während dies in vielen Bereichen richtig sein kann, um Speichersubsysteme optimal zu schützen und zu verwalten, wird dringend empfohlen, regelmäßig und routiniert Wartungsmaßnahmen durchzuführen. Mit der proaktiven Wartung können vorhandene Fehler behoben und einige Fehler vermieden werden. Es ist nicht möglich, alle Fehler zu vermeiden, doch die meisten schwerwiegenden Fehler können durch die proaktive Wartung verhindert werden. Für Speicher- und RAID-Subsysteme lauten die Schritte wie folgt:

Aktualisieren Sie die Treiber und Firmware auf Controllern, Datenträgern, Rückwandplatinen und anderen Geräten
Führen Sie routinemäßige Vorgänge des Typs Konsistenz prüfen durch
Überprüfen Sie die Protokolle auf Anzeichen von Problemen

Dies muss keine tiefgehende technische Überprüfung sein, sondern einfach ein kurzer Blick auf die Protokolle auf der Suche nach extrem offensichtlichen Hinweisen auf potenzielle Probleme.
Wenden Sie sich bei Fragen oder Bedenken an den technischen Support von Dell.

Einer der wichtigsten Aspekte ist jedoch sicherzustellen, dass die Firmware auf dem neuesten Stand ist. Die Firmware ist der Ort, an dem sich die gesamte Logik für den Betrieb eines Geräts befindet. Sie bietet die Funktionalität und die Funktionen des Geräts, zusammen mit einer Vielzahl von Fehlerbehandlungs- und Fehlerkorrekturfunktionen. Eine aktuelle Firmware kann für eine bessere Leistung und weniger Fehler sorgen. Über ein Firmwareupdate können auch neue Funktionen und Verbesserungen hinzugefügt werden.

Die Firmware kann sich an mehreren Stellen befinden. RAID-Controller enthalten Firmware sowie jedes einzelne Laufwerk in einem System oder Array. Rückwandplatinen und externe Gehäuse enthalten ebenfalls Firmware, die sich auf den Betrieb der darin enthaltenen Laufwerke und Arrays auswirken kann.

Eine weitere proaktive Wartungsempfehlung ist die Durchführung einer „Konsistenzprüfung“. Bei "Konsistenz prüfen" handelt es sich um einen manuellen Vorgang, weil er einen Teil der insgesamt verfügbaren Bandbreite des RAID-Controllers nutzt. Die Konsistenzprüfung kann jedoch für einen Zeitpunkt geplant werden, an dem sie die geringsten Auswirkungen auf die Performance hat.

Die Konsistenzprüfung sucht nach fehlerhaften Blöcken auf den Laufwerken, aber noch wichtiger ist, dass die Daten im Array verglichen werden, um sicherzustellen, dass alle Elemente richtig übereinstimmen. Wenn ein Problem erkannt wird, wird bestimmt, wie die Daten beschaffen sein sollten. Um die Fehler zu beheben, werden die Daten mit denen auf anderen Laufwerken im Array verglichen. Die Korrektur von Datenfehlern, solange sie relativ klein sind, ist der beste Weg, um das Risiko von Löchern durch vorhandene Datenfehler in Verbindung mit einem zweiten Fehler oder einem Ausfall zu mindern. Das Vorhandensein von doppelten Fehlern und Löchern kann zu Produktivitätseinbußen führen, da Zeit aufgewendet werden muss, um das Array und die Daten in einen funktionsfähigen Zustand wiederherzustellen, oder sogar zum vollständigen Verlust aller Daten.

Wenn ein doppelter Fehler oder ein Loch vorliegt, kommt es oft zu Datenverlusten. Wenn sich diese Fehler im Leerraum oder im Bereich nicht kritischer Daten befinden, ist der direkte Einfluss auf Daten in einer Produktionsumgebung relativ gering. Das Vorhandensein dieser Fehler kann jedoch bedeuten, dass ein schwerwiegenderes Problem vorhanden ist. Hardwarefehler und veraltete Firmware erfordern möglicherweise sofortige Aufmerksamkeit.

Wenn ein bekannter oder vermuteter doppelter Fehler oder ein Loch vorliegt, führen Sie die folgenden Schritte aus, um das Risiko schwerwiegenderer Probleme zu minimieren:

Führen Sie "Konsistenz prüfen" durch (Array muss optimal sein)
Stellen Sie fest, ob Hardwareprobleme vorliegen
Überprüfen Sie die Controller-Protokolldatei
Führen Sie eine Hardwarediagnose durch
Nehmen Sie ggf. Kontakt zum technischen Support von Dell auf

Wenn diese Schritte durchgeführt wurden, gibt es weitere Aspekte, die es zu berücksichtigen gilt. Löcher können dazu führen, dass Laufwerke im Laufe der Zeit in den Status "Fehlerankündigung" wechseln. Datenfehler, die auf ein Laufwerk verbreitet werden, werden als Medienfehler auf dem Laufwerk gemeldet, auch wenn keine tatsächlichen Hardwareprobleme vorliegen. Jedes Mal, wenn auf die LBA zugegriffen wird, wird ein Fehler gemeldet. Sobald das Fehlerprotokoll voll ist, meldet sich das Laufwerk selbst mit einer Fehlerankündigung.

Eine einzelne LBA mit Loch auf einem Laufwerk kann oft gemeldet werden. Abhängig von der Anzahl der Löcher ist es möglich, dass mehrere Laufwerke in einem Array als Fehlerankündigung gemeldet werden. Das Austauschen des Laufwerks mit Fehlerankündigung führt dazu, dass die vorhandenen Löcher auf das Ersatzlaufwerk verteilt werden, wodurch das Ersatzlaufwerk letztendlich auch mit Fehlerankündigung gekennzeichnet wird. In einem solchen Fall besteht die einzige Korrekturmaßnahme darin, das Loch zu beheben.

In Abbildung 3 ist zu sehen, dass ein Loch auf den Stripes 1 und 2 vorliegt. Durch das Austauschen der Laufwerke wird das Problem nicht behoben, weil es nicht genügend Datenredundanz gibt, um die ursprünglichen Daten wiederherzustellen. Alle Daten in den Stripes mit Löchern gehen verloren (es sei denn, sie wurden in einer zuvor erstellten Sicherungskopie gespeichert). Denken Sie daran, dass Löcher nicht zu Datenverlust führen, ein doppelter Fehler verursacht den Verlust von Daten. Ein Loch ist ein Mittel, um die Redundanz für ein Array wiederherzustellen, das einen doppelten Fehler enthält.

Hinweis: Dieser Prozess wird verwendet, um die meisten Löcher zu beseitigen. Es u. U. nicht notwendig, alle diese Schritte durchzuführen. Wenn sich ein Problem durch das Befolgen dieser Schritte nicht beheben lässt, wenden Sie sich an den technischen Support von Dell, um weitere Unterstützung zu erhalten.

Warnung: Durch das Ausführen der folgenden Schritte werden alle Daten auf dem Array gelöscht. Bitte stellen Sie sicher, dass Sie das Wiederherstellen aus einer Sicherung oder auf andere Weise vorbereitet haben, bevor Sie diese Schritte ausführen. Achten Sie darauf, dass das Ausführen dieser Schritte keine Auswirkungen auf andere Arrays hat.

Verwerfen Sie den beibehaltenen Cache (falls vorhanden)
Löschen Sie Fremdkonfigurationen (falls vorhanden)
Löschen Sie das Array
Verschieben Sie die Position der Laufwerke um eine Position (verschieben Sie mittels Abbildung 1 Laufwerk 0 in Steckplatz 1, Laufwerk 1 in Steckplatz 2 und Laufwerk 2 in Steckplatz 0)
Erstellen Sie das Array wie gewünscht
Führen Sie eine vollständige Initialisierung des Arrays durch (keine schnelle Initialisierung)
Führen Sie eine Konsistenzprüfung für das Array durch

Wenn die Konsistenzprüfung ohne Fehler abgeschlossen wird, können Sie davon ausgehen, dass das Array nun funktionsfähig ist und das Loch entfernt wurde. Auf dem funktionsfähigen Array können jetzt die Daten wiederhergestellt werden.

In schwerwiegenderen Fällen kann das Problem möglicherweise trotz der folgenden Schritte nicht behoben werden und Fehler können weiterhin auftreten. Wenn das Problem durch diese Schritte nicht behoben werden kann, wenden Sie sich an den technischen Support von Dell, um weitere Unterstützung zu erhalten.

Es kann erforderlich sein, die Löcher genauer zu analysieren, um die gemeinsamen Laufwerke zu ermitteln. Beispiel in Abbildung 3: Das Controller-Protokoll würde ein Loch zwischen Laufwerk 0 und 1 und ein Loch zwischen Laufwerk 0 und 2 anzeigen. Festplatte 0 ist das gemeinsame Laufwerk. Befolgen Sie die gleichen Schritte wie oben, aber entfernen Sie zuerst vollständig die gemeinsamen Laufwerke. Entfernen Sie mithilfe von Abbildung 1 Laufwerk 0 und befolgen Sie dann die beschriebenen Schritte. Erstellen Sie das Array mit den übrigen Laufwerken (1 und 2). Sobald der Vorgang abgeschlossen ist und nach einer Konsistenzprüfung festgestellt wurde, dass das Array ordnungsgemäß funktioniert, fügen Sie Festplatte 0 wieder hinzu und führen Sie entweder die Schritte für alle Laufwerke erneut durch oder verwenden Sie die Funktionen RLM (RAID-Level-Migration) und/oder OCE (Online Capacity Expansion), um die verbleibenden Laufwerke wieder zum Array hinzuzufügen.

Alle Laufwerke, die mit einer Fehlerankündigung gekennzeichnet sind, sollten entfernt und nicht in den Wiederherstellungsvorgang einbezogen werden. Wenn Laufwerk 0 eine Fehlerankündigung aufwies, entfernen Sie dieses Laufwerk wieder mittels Abbildung 3 als Beispiel. Führen Sie dann die Schritte wie oben beschrieben durch. Da nur noch zwei Laufwerke verbleiben, ist das erstellte RAID-Array ein RAID 1 anstelle eines RAID 5. Führen Sie nach dem Erwerb einer Ersatzfestplatte 0 (aufgrund der Fehlerankündigung) die Schritte erneut aus, einschließlich aller drei Laufwerke, oder fügen Sie Festplatte 0 mithilfe von RLM in das bestehende Array ein und ändern Sie es von einem RAID 1 mit zwei Laufwerken zu einem RAID 5 mit drei Laufwerken.

Der Vorgang kann etwas abschreckend erscheinen, insbesondere im Hinblick auf potenzielle Datenverluste. Das Sprichwort "Vorsicht ist besser als Nachsicht" ist in diesem Zusammenhang auf jeden Fall wahr. Die Erfahrung zeigt, dass fast alle doppelten Fehler und Löcher durch proaktive Wartungsmaßnahmen bei RAID-Hardware und Arrays hätten vermieden werden können.

Hinweis: Durch ein effektives Monitoring des Systems können Probleme zeitnah erkannt und korrigiert werden. Dadurch wird auch das Risiko schwerwiegender Probleme verringert.

Zugehöriger Artikel
PERC – Reparatur eines RAID-Lochs

Zurück nach oben

原因

解决方案

受影响的产品

Servers

文章编号: 000139251

文章类型: Solution

上次修改时间: 02 7月 2024

版本: 7

Beheben von doppelten Fehlern und Löchern in RAID-Arrays

摘要: RAID-Arrays sind nicht immun gegenüber Datenfehlern. Dieser Artikel enthält Empfehlungen zur Vermeidung und Minderung dieser Probleme.

症状

Kapitel 1: Datenfehler und doppelte Fehler

Kapitel 2: Löcher: Was sind Löcher und wie werden sie verursacht?

Kapitel 3: Vermeidung von Problemen, bevor sie auftreten und Beheben von Löchern, nachdem sie aufgetreten sind

原因

解决方案

受影响的产品

文章属性

从其他戴尔用户那里查找问题的答案

支持服务

文章属性

从其他戴尔用户那里查找问题的答案

支持服务

欢迎

欢迎访问戴尔

Beheben von doppelten Fehlern und Löchern in RAID-Arrays

摘要: RAID-Arrays sind nicht immun gegenüber Datenfehlern. Dieser Artikel enthält Empfehlungen zur Vermeidung und Minderung dieser Probleme.

详细文章

症状

原因

解决方案

受影响的产品

症状

Kapitel 1: Datenfehler und doppelte Fehler

Kapitel 2: Löcher: Was sind Löcher und wie werden sie verursacht?

Kapitel 3: Vermeidung von Problemen, bevor sie auftreten und Beheben von Löchern, nachdem sie aufgetreten sind

原因

解决方案

受影响的产品

文章属性

从其他戴尔用户那里查找问题的答案

支持服务

文章属性

从其他戴尔用户那里查找问题的答案

支持服务