Isilon: So stellen Sie fest, ob sich ein Isilon-Cluster in einem Zeitfenster mit einem Risiko für Datenverlust befindet
Summary: So bestimmen Sie, ob sich ein Isilon-Cluster in einem Zeitfenster mit einem Risiko für Datenverlust befindet.
Symptoms
Einführung
Ein Window of Risk (WOR) tritt auf, wenn genügend Geräte in einem Cluster, Node-Pool oder Laufwerkpool ausgefallen sind, dass das Schutzlevel erreicht ist. Dieser Zustand wird auch als "bei Schutz" oder "Überschutz" bezeichnet. Wenn sich ein Cluster oder Pool in einem WOR befindet, ist noch kein Datenverlust aufgetreten. Wenn jedoch zusätzliche Geräte ausfallen, kann es zu Datenverlust kommen. Ob ein Datenverlust vorliegt oder nicht, hängt von verschiedenen Faktoren ab. Zu diesen Faktoren gehören: zusätzliche Geräte, die ausfallen, bevor FlexProtect abgeschlossen werden kann, oder wenn die ausgefallenen Geräte die einzige Quelle für die betreffenden Daten waren.
In diesem Artikel wird beschrieben, wie Schutzlevel auf dem Cluster funktionieren und wie Sie feststellen können, ob bei Ihrem Cluster ein WOR für Datenverlust vorliegt.
Für die Zwecke der WO-Berechnung bedeutet "ausgefallen" Geräte, die sich in einem "inaktiven" oder "inaktiven" Zustand befinden. Geräte, die "soft_failed" sind, werden nicht auf die Schutzlevel angerechnet. Im Abschnitt "Verfahren" unten erfahren Sie, wie Sie die Anzahl der "ausgefallenen" oder "toten" Geräte ermitteln.
ANMERKUNG
Die Bedingung, bei der mehr Geräte ausfallen, als als als Schutzlevel angegeben ist, wird als "Überschutz" bezeichnet. In diesem Zustand kann der Cluster, Node-Pool/Laufwerkpool nicht mehr alle dort gespeicherten Daten erfolgreich neu erstellen.
Details
OneFS verwendet ein N+M-Data-Protection-Modell. In der N+M-Notation steht N für die Anzahl der Nodes. Das M steht für die Anzahl der gleichzeitigen Nodes, Laufwerke oder Node-Pools/Laufwerkpools, die der Cluster ohne Datenverlust verarbeiten kann. Beispiel: Bei einem N+2-Schutz kann der Cluster oder Pool entweder zwei Laufwerke auf verschiedenen Nodes oder insgesamt zwei Nodes verlieren.
OneFS 6.5 und höher unterstützen auch ein N+M:B-Schutzmodell. In der N+M:B-Notation steht N für die Anzahl der Nodes. M steht für die Anzahl der ausgefallenen oder ausgefallenen Laufwerke. Das B steht für die Anzahl der ausgefallenen oder ausgefallenen Nodes, die der Cluster oder der Node-Pool/Laufwerkpool ohne Datenverlust verarbeiten kann. Beispiel: Bei einem N+3:1-Schutz kann der Cluster oder Pool drei Laufwerke oder einen Node verlieren, ohne dass Daten verloren gehen.
Mehrere ausgefallene oder ausgefallene Laufwerke innerhalb eines einzelnen Nodes stellen für die Zwecke der WOR-Berechnung immer einen einzelnen Node-Ausfall dar (und nicht mehrere Laufwerksausfälle). Hier sind einige Beispiele für die Verwendung eines Clusters mit 8 Nodes bei einem Schutz von N+3:1:
- Beispiel 1: In einem einzigen Cluster fallen drei Laufwerke aus, jedes in einem anderen Node. Dadurch wird das Cluster in einen WOR ("at protection") versetzt.
- Beispiel 2: In einem einzigen Cluster sind zwei Laufwerke im selben Node ausgefallen. Da sich die Laufwerke im selben Node befinden, werden die Ausfälle als Ausfall eines einzelnen Nodes gezählt. In dieser Situation wird das Cluster auch in einen WOR ("at protection") versetzt.
Weitere Informationen zu Data-Protection-Leveln und ihrer Berechnung finden Sie im OneFS-Administrationshandbuch.
VORSICHT!
Wenn Sie vermuten oder feststellen, dass sich Ihr Cluster in einem WO-Zustand befindet, wenden Sie sich an den technischen Support von Dell, um Unterstützung zu erhalten, bevor Sie weitere Maßnahmen ergreifen.
WICHTIG!
Ein WOR kann auftreten, wenn Laufwerke oder Nodes ausfallen. Isilon Engineering empfiehlt jedoch, ausgefallene Laufwerke oder Nodes im Cluster zu behalten, bis der FlexProtect-Vorgang erfolgreich abgeschlossen wurde. Obwohl ein Gerät ausgefallen ist, sind einige oder alle Datenblöcke möglicherweise noch lesbar. Das Laufwerk oder den Node mit dem Cluster verbunden zu lassen, bietet Flexibilität, wenn ein Versuch zur Wiederherstellung von Daten vom ausgefallenen Gerät erforderlich wird.
Cause
Um festzustellen, ob sich der Cluster- oder Node-Pool/Laufwerkpool derzeit in einem WOR befindet, ermitteln Sie zunächst das auf dem Cluster oder Pool konfigurierte Schutzlevel. Ermitteln Sie als Nächstes, wie viele ausgefallene Nodes und Laufwerke vorhanden sind. Für die Zwecke der WO-Berechnung bedeutet "ausgefallen" Geräte, die sich in einem "inaktiven" oder "inaktiven" Zustand befinden. Befolgen Sie die Anweisungen im entsprechenden Abschnitt.
Resolution
Verfahren
OneFS 7.2, 8.0, 9.0 und höher
- Navigieren Sie in der OneFS-Webverwaltungsschnittstelle zu File System > Storage Pools > SmartPools.
- Rufen Sie das aktuelle Schutzlevel in der Tabelle Tiers & Node Pools in der Spalte Requested Protection ab.
- Öffnen Sie eine SSH-Verbindung zum Node und melden Sie sich mit dem Konto "root" an.
- Ermitteln Sie, wie viele Geräte "down" oder "dead" sind, indem Sie den folgenden Befehl ausführen:
isi_group_info Die Ausgabe sieht in etwa wie folgt aus. Wenn ausgefallene oder inaktive Geräte vorhanden sind, werden sie in der Ausgabe als "ausgefallen" oder "inaktiv" angezeigt.
Beispiel für einen ausgefallenen Node: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, down: 6 }
Beispiel für ein heruntergefahrenes Laufwerk: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, down: 2:10, 4:11, soft_failed: 2:10, 4:11 }
Beispiel für ein inaktives Laufwerk: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, tot: 2:10 }
OneFS 7.1
- Navigieren Sie in der OneFS-Webverwaltungsschnittstelle zu File System Management > Storage Pools > SmartPools.
- Rufen Sie das aktuelle Schutzlevel in der Tabelle Node Pools in der Spalte Requested Protection ab.
- Öffnen Sie eine SSH-Verbindung zum Node und melden Sie sich mit dem Konto "root" an.
- Ermitteln Sie, wie viele Geräte "down" oder "dead" sind, indem Sie den folgenden Befehl ausführen:
isi_group_info Die Ausgabe sieht in etwa wie folgt aus. Wenn ausgefallene oder inaktive Geräte vorhanden sind, werden sie in der Ausgabe als "ausgefallen" oder "inaktiv" angezeigt.
Beispiel für einen ausgefallenen Node: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, down: 6 }
Beispiel für ein heruntergefahrenes Laufwerk: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, down: 2:10, 4:11, soft_failed: 2:10, 4:11 }
Beispiel für ein inaktives Laufwerk: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, tot: 2:10 }
Weitere Informationen zur Interpretation der Ausgabe, z. B. wie Sie feststellen können, ob es sich bei den ausgefallenen oder inaktiven Geräten um Laufwerke oder Nodes handelt, finden Sie unter: Grundlegendes zu OneFS-Gruppenänderungen oder Interpretieren von Gruppenänderungen.
OneFS 7.0
- Gehen Sie in der OneFS-Webverwaltungsschnittstelle zu File System Management > SmartPools > Summary.
- Rufen Sie das aktuelle Schutzlevel in der Tabelle Tiers & Node Pools in der Spalte Protection ab.
- Öffnen Sie eine SSH-Verbindung zum Node und melden Sie sich mit dem Konto "root" an.
- Ermitteln Sie, wie viele Geräte "down" oder "dead" sind, indem Sie den folgenden Befehl ausführen:
isi_group_info Die Ausgabe sieht in etwa wie folgt aus. Wenn ausgefallene oder inaktive Geräte vorhanden sind, werden sie in der Ausgabe als "ausgefallen" oder "inaktiv" angezeigt.
Beispiel für einen ausgefallenen Node: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, down: 6 }
Beispiel für ein heruntergefahrenes Laufwerk: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, down: 2:10, 4:11, soft_failed: 2:10, 4:11 }
Beispiel für ein inaktives Laufwerk: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, tot: 2:10 }
OneFS 6.5
- Navigieren Sie in der OneFS-Webverwaltungsschnittstelle zu File System > SmartPools > Disk Pools.
- Rufen Sie das aktuelle Schutzlevel in der Spalte Default Protection ab.
- Öffnen Sie eine SSH-Verbindung zum Node und melden Sie sich mit dem Konto "root" an.
- Ermitteln Sie, wie viele Geräte "down" oder "dead" sind, indem Sie den folgenden Befehl ausführen:
isi_group_info Die Ausgabe sieht in etwa wie folgt aus. Wenn ausgefallene oder inaktive Geräte vorhanden sind, werden sie in der Ausgabe als "ausgefallen" oder "inaktiv" angezeigt.
Beispiel für einen ausgefallenen Node: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, down: 6 }
Beispiel für ein heruntergefahrenes Laufwerk: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, down: 2:10, 4:11, soft_failed: 2:10, 4:11 }
Beispiel für ein inaktives Laufwerk: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, tot: 2:10 }