PowerScale, Isilon, OneFS: Anleitung zum korrekten Herunterfahren eines Clusters
Resumen: Best Practices für das ordnungsgemäße Herunterfahren Ihres PowerScale-Clusters sowie Informationen zu den Risiken im Zusammenhang mit einem unsachgemäßen Herunterfahren des Clusters. Schritt-für-Schritt-Verfahren, um das Cluster ordnungsgemäß herunterzufahren. Einige Schritte sollten 4 bis 8 Wochen vor dem geplanten Upgrade ausgeführt werden. ...
Instrucciones
Einführung
Dieser Artikel beschreibt das Verfahren zum ordnungsgemäßen Herunterfahren Ihres Dell Isilon Clusters und enthält Informationen zu den Risiken im Zusammenhang mit einem unsachgemäßen Herunterfahren des Clusters.
Nodes, die im Cluster nicht ordnungsgemäß heruntergefahren werden, sollten nicht länger als die Lebensdauer der NVRAM-Batterie ohne Systemstrom sein.
Dies dauert je nach Node-Typ etwa drei bis fünf Tage.
Wenn Daten weiterhin in einem Node-Journal gespeichert werden, während der Node länger als die NVRAM-Batterielebensdauer ohne Stromversorgung ist, gehen Daten verloren.
Wenn dies auf mehreren Nodes geschieht, muss der Cluster neu erstellt werden.
Wenden Sie sich an den technischen Support von Dell Isilon, wenn Sie Fragen zu den Verfahren oder Informationen in diesem Artikel haben.
Verfahren
Das Verfahren zum Herunterfahren des Clusters erfordert Root-Zugangsdaten und Zugriff auf die Nodes im Cluster über eine serielle Konsole. Das Verfahren gliedert sich in die folgenden Phasen.
- Phase 1: Durchführen vorbeugender Wartungsmaßnahmen
- Phase 2: Herunterfahren jedes Nodes im Cluster
- Phase 3: Überprüfen, ob die Nodes erfolgreich heruntergefahren wurden
- Phase 4: Trennen der Stromquelle
- Phase 5: Einschalten jedes Nodes im Cluster
- Phase 6: Durchführen einer Integritätsprüfung für das Cluster
Lesen Sie sich das gesamte Verfahren durch, bevor Sie mit dem Herunterfahren beginnen. Dadurch wird sichergestellt, dass Sie den Kontext und die Reihenfolge der einzelnen Schritte verstehen.
Phase 1: Durchführen vorbeugender Wartungsmaßnahmen
Diese Schritte werden ca. 4 bis 8 Wochen vor dem geplanten Herunterfahren durchgeführt. Der Zweck besteht darin, unbekannte oder latente Hardware- bzw. Firmwareprobleme zu identifizieren, die das Herunterfahren behindern können.
Wenn die Umstände ein sofortiges Herunterfahren des gesamten Clusters erfordern, können Sie alle Nodes gleichzeitig über die OneFS-Befehlszeilenschnittstelle oder die OneFS-Webadministrationsschnittstelle herunterfahren.
Dell empfiehlt dringend, alle Schritte in Phase 3 zu befolgen, um die Integrität der Daten im Falle einer Notfallabschaltung zu wahren.
- Laden Sie bei Bedarf Protokolle als Verlaufsreferenz hoch.
# isi diagnostics gather start --gather-mode full
- Führen Sie eine Isilon-Integritätsprüfung durch oder fordern Sie die Durchführung an.
- Dadurch wird die Integrität des Clusters geprüft, um sicherzustellen, dass es sich in einem guten und unterstützbaren Betriebsstatus befindet.
- Die Prüfung kann von KundInnen mithilfe von Folgendem durchgeführt werden: PowerScale: So führen Sie das IOCA-Clusteranalysetool aus
- Die Prüfung kann auch vom Remote Reactive-Team (Kundensupport) ausgeführt werden. Dieser Service steht allen KundInnen mit einer aktiven Wartungsvereinbarung für Cluster mit unterstützten Codeversionen zur Verfügung. Wenn Sie diese Anforderungen erfüllen, eröffnen Sie einen Service-Request (SR) auf der Dell Supportwebsite und fordern Sie eine „Isilon-Integritätsprüfung“ an. Stellen Sie außerdem vollständige Protokolle für die Integritätsprüfung bereit, indem Sie diesen Befehl ausführen
# isi diagnostics gather start --gather-mode full
* Die Integritätsprüfung dient nicht dazu, Clusterprobleme zu beheben oder die Konfiguration, Performance oder den Workflow des Clusters zu überprüfen.
- Führen Sie für jeden Node einen „Kaltstart“ durch, indem Sie die folgenden Schritte ausführen. Für diese Aktivität sollte ein Wartungsfenster geplant werden.
Hinweis: Mit diesem Vorgang können Sie alle Speicherfehler oder Laufwerksfehlermodi identifizieren, die nur erkannt werden, wenn der Node wieder eingeschaltet wird.
- Fahren Sie die Nodes in Ihrem Cluster nacheinander herunter. So fahren Sie jeden Node herunter:
- Stellen Sie eine SSH-Verbindung zu einem beliebigen Node her. Fahren Sie jeden Node herunter, indem Sie den folgenden Befehl ausführen:
isi config shutdown <node_lnn>
- Überprüfen Sie, ob jeder Node ausgeschaltet wurde, indem Sie nachsehen, ob die grüne Betriebsanzeige-LED auf der Rückseite des Nodes aus ist.
- Drücken Sie den Betriebsschalter, um den Node wieder einzuschalten.
- Überprüfen Sie, ob der Node dem Cluster wieder beigetreten ist und ordnungsgemäß funktioniert, indem Sie den Befehl
isi status -qausführen und in der Spalte „Health DASR“ der Ausgabe nach OK suchen. - Wenn bei einem Node Probleme auftreten, die in der Spalte „Health DASR“ angezeigt werden, oder er dem Cluster nicht wieder beitreten kann, beheben Sie diese Probleme, bevor Sie den nächsten Node herunterfahren.
Es wurde ein Beispiel für ein Problem ausgewählt. Node 1 ist dem Cluster wieder erfolgreich beigetreten, die Spalte „Health DASR“ weist jedoch darauf hin, dass Maßnahmen erforderlich sind.
mycluster-1# isi status -q Cluster Name: mycluster Cluster Health: [ ATTN] Cluster Storage: HDD SSD Size: 11G (23G Raw) 0 (0 Raw) VHS Size: 11G Used: 7.9G (69%) 0 (n/a) Avail: 3.5G (31%) 0 (n/a) Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.1.16.141 |-A-- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs) 2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs) 3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs) 4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs) -------------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Überprüfen Sie die Integrität des gesamten Clusters sorgfältig, nachdem Sie jeden Node neu gestartet haben. Stellen Sie eine SSH-Verbindung zu einem beliebigen Node her und führen Sie den folgenden Befehl aus:
isi status -q
isi config reboot <node_lnn>
Dell empfiehlt jedoch dringend, den Kaltstartansatz zu verwenden, um latente Hardwareprobleme effektiver zu identifizieren.
Phase 2: Herunterfahren jedes Nodes im Cluster
Diese Schritte müssen an dem Tag ausgeführt werden, an dem Sie Ihr Isilon-Cluster herunterfahren. Während eines clusterweiten Herunterfahrens können einige Faktoren den Vorgang des Herunterfahrens beeinträchtigen oder verzögern. Beispielsweise können ausstehende Datenschreibvorgänge auf einen Node das Herunterfahren beeinflussen. Der Zweck der Schritte 1 und 2 besteht darin, sicherzustellen, dass alle Clients vom Cluster getrennt sind und die Daten aus Node-Journalen ordnungsgemäß im Dateisystem gespeichert werden, bevor der Befehl zum Herunterfahren ausgeführt wird. Wenn Sie iSCSI-Clients haben, stellen Sie sicher, dass Sie die Clients herunterfahren, bevor der iSCSI-Service deaktiviert wird.
In Schritt 3 wird beschrieben, wie Sie jeden Node im Cluster über eine serielle Konsole sequenziell herunterfahren. Diese Methode wird empfohlen, da Sie damit überprüfen können, ob jeder Node ordnungsgemäß heruntergefahren wurde, bevor Sie mit dem nächsten Node fortfahren, und bei Bedarf Anpassungen vornehmen oder Probleme beheben können, um ein ordnungsgemäßes Herunterfahren des Clusters sicherzustellen. Diese Methode ist jedoch zeitaufwändig, da an jeden Node eine serielle Konsole angeschlossen werden muss, um den Befehl zum Herunterfahren auszuführen. Im Abschnitt Gleichzeitiges Herunterfahren aller Nodes im Cluster wird beschrieben, wie Sie die OneFS-Befehlszeilenschnittstelle oder die OneFS-Webverwaltungsschnittstelle verwenden, um den Cluster herunterzufahren. Diese Methode ist zwar weniger zeitaufwändig als Schritt 3, macht es jedoch auch schwieriger, Nodes zu identifizieren, bei denen während des Herunterfahrens Probleme auftreten.
- Isilon empfiehlt, das Cluster von Clients zu trennen, um sicherzustellen, dass Clients mit vielen Schreibvorgängen das Herunterfahren nicht behindern. Sie erreichen dies, indem Sie die Client-seitigen Services deaktivieren, die in Ihrem Cluster ausgeführt werden. Führen Sie das folgende Verfahren durch, um Client-seitige Services zu deaktivieren:
- Identifizieren Sie die Client-seitigen Services oder Protokolle, die auf dem Cluster ausgeführt werden, indem Sie für jeden Client-seitigen Service die folgenden Befehle ausführen:
isi services apache2 isi services isi_hdfs_d isi services isi_iscsi_d isi services ndmpd isi services nfs isi services smb isi services vsftpd
- B. Dokumentieren Sie die Services, die in Ihrem Cluster basierend auf der Ausgabe jedes Befehls „aktiviert“ sind. Im folgenden Beispiel ist der SMB-Service aktiviert, während der NFS-Service deaktiviert ist:
mycluster-4# isi services smb Service 'smb' is enabled. mycluster-4# isi services nfs Service 'nfs' is disabled. mycluster-4#
- Deaktivieren Sie die Client-seitigen Services. Nach diesem Schritt verlieren alle Clients sofort die Verbindung zum Cluster. Um einen Service zu deaktivieren, führen Sie den folgenden Befehl für den Service aus, den Sie aktiviert haben.
isi services apache2 disable isi services isi_hdfs_d disable isi services isi_iscsi_d disable isi services ndmpd disable isi services nfs disable isi services smb disable isi services vsftpd disable
Wenn Sie iSCSI-Clients haben, stellen Sie sicher, dass die LUNs der iSCSI-Clients vor der Durchführung von Schritt 2 ausgehängt wurden. Führen Sie isi iscsi list aus, um zu bestätigen, dass alle iSCSI-Clients vom Cluster getrennt wurden.
Hinweis: Wenn Sie den iSCSI-Service deaktivieren, stellen Sie sicher, dass Sie die iSCSI-Clients heruntergefahren haben, bevor Sie den folgenden Befehl ausführen:
isi_iscsi_d disable . Eine Verbindungsunterbrechung zu einer eingehängten iSCSI-LUN kann zu Schäden am Client führen, wofür in der Regel eine Wiederherstellung aus einem Backup erforderlich ist.
- Verschieben Sie Datenschreibvorgänge, die in Node-Journalen gespeichert sind, auf das Dateisystem, indem Sie den folgenden Befehl ausführen:
isi_for_array isi_flush. Es wird eine Ausgabe ähnlich der folgenden für jeden Node angezeigt:
Hinweis: Beim Ausführen von isi_flush wird er NICHT angehalten, bis die Leerung auf einem Node abgeschlossen ist oder der Node ausgeschaltet ist oder einen Fehler aufweist. Sie können Strg+C nicht aus der Leerung heraus drücken, falls Probleme auftreten.
mycluster-4# isi_for_array isi_flush mycluster-1: Flushing cache... mycluster-1: Cache flushing complete.
mycluster-4# isi_for_array isi_flush mycluster-1: Flushing cache... vinvalbuf: flush failed, 1 clean and 0 dirty bufs remaining mycluster-2: Flushing cache... fsync: giving up on dirty
Führen Sie isi_for_array isi_flush noch einmal aus. Wenn ein Node nicht geleert werden kann, wenden Sie sich an den technischen Isilon-Support von Dell. Alle Nodes müssen erfolgreich geleert werden, bevor Sie mit dem nächsten Schritt fortfahren können.
- Fahren Sie jeden Node im Cluster sequenziell herunter und überwachen Sie die Ausgabe. Dieser Ansatz wird empfohlen, da Sie damit alle Probleme identifizieren und beheben können, bevor Sie den nächsten Node im Cluster herunterfahren. Fahren Sie jeden Node herunter, indem Sie die folgenden Schritte ausführen:
Achtung: Führen Sie NICHT den Befehl
isi_for_array shutdown -p aus, um das Cluster herunterzufahren.
- Schließen Sie an jeden Node eine serielle Konsole an.
- Führen Sie den folgenden Befehl aus:
isi config shutdown
Powering the system off using ACPI
- C. Überwachen Sie die Konsole und suchen Sie nach hardwarebezogenen Fehlerereignissen. In den folgenden Ausgabevarianten wurden erfolgreiche Node-Journalspeicherungen ausgewählt:
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Attempting to save journal to default location 2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Saving journal to /var/journal/journal.gz 2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: All data saved successfully 2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: Attempting to save journal to default location 2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: A valid backup journal already exists. Not saving. An example of a node journal save failure is highlighted in the output below: 2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: ERROR: Validation failed for backup journal. Shutdown aborted 2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: Failed command output:
Wenn Sie den Fehler erhalten, dass das Node-Journal nicht gespeichert wurde, können Sie das Journal manuell speichern, indem Sie die Schritte in Phase 3 ausführen.
Gleichzeitiges Herunterfahren aller Nodes im Cluster
Bei einem Notfall können Sie alle Nodes im Cluster gleichzeitig herunterfahren. Diese Methode wird jedoch nicht empfohlen, da Sie damit nicht den Status und die Ausgabe jedes Nodes überwachen können, falls ein Problem auftritt. Wenn Sie sich für diese Schritte entscheiden, empfiehlt Dell dringend, alle Schritte in Phase 3 auszuführen, um sicherzustellen, dass alle Nodes ordnungsgemäß heruntergefahren wurden, nachdem Sie die folgenden Verfahren durchgeführt haben.
Warnung: Wenn Sie von einem Node, der Daten aus seinem Journal nicht in das Dateisystem geleert hat, eine Stromquelle entfernen, erhöht sich das Risiko für Datenverluste erheblich. Wenden Sie sich an den technischen Isilon-Support von Dell, wenn Sie Unterstützung beim Herunterfahren benötigen.
# isi config shutdown all
isi_for_array shutdown -p für das Herunterfahren des Clusters über die OneFS-Webadministrationsschnittstelle aus, wenn Sie OneFS 8.0 und höher verwenden.
Phase 3: Überprüfen, ob die Nodes erfolgreich heruntergefahren wurden
Vergewissern Sie sich, dass die Nodes ordnungsgemäß heruntergefahren wurden, indem Sie einen Blick auf die Betriebsanzeige-LED auf der Rückseite des Nodes werfen. Alle Betriebsanzeige-LEDs sollten dunkel oder ausgeschaltet sein. Dies weist darauf hin, dass der Node erfolgreich heruntergefahren wurde.
Wenn die Betriebsanzeige-LED auf der Rückseite des Nodes noch leuchtet, wurde der Node nicht heruntergefahren. Wenn der Node nicht heruntergefahren wurde oder wenn Sie eine Konsolenausgabe erhalten, die angibt, dass das Node-Journal nicht ordnungsgemäß gespeichert wurde (Phase 2, Schritt 3C), müssen Sie das Journal manuell speichern, um sicherzustellen, dass die Daten auf die Festplatte übertragen werden, bevor Sie den Node herunterfahren.
- Um das Journal manuell zu speichern und den Node herunterzufahren, führen Sie die folgenden Schritte aus:
- Wenn der Node auf die Befehlszeilenschnittstelle reagiert, starten Sie den Node neu, indem Sie den folgenden Befehl ausführen:
# isi config reboot
- Wenn der Node nicht auf die Befehlszeilenschnittstelle reagiert, starten Sie den Node manuell neu, indem Sie den Betriebsschalter auf der Rückseite des Nodes gedrückt halten. Dies führt dazu, dass der Node ausgeschaltet wird. Warten Sie 30 Sekunden und drücken Sie dann einmal den Betriebsschalter, um den Node erneut zu starten. Fahren Sie mit dem nächsten Schritt fort.
- Melden Sie sich nach dem Neustart des Nodes wieder an und führen Sie die folgenden Schritte aus, um das Journal zu speichern:
- Versuchen Sie, den Node erneut ordnungsgemäß herunterzufahren, indem Sie den folgenden Befehl ausführen:
# isi config shutdown
- Wenn die Ausgabe weiterhin angibt, dass das Journal nicht gespeichert wurde, speichern Sie das Journal manuell, indem Sie den folgenden Befehl ausführen:
# isi_save_journal
- Wenn das Journal immer noch nicht gespeichert wird, hängen Sie das Dateisystem /ifs aus und erzwingen Sie dann das Speichern des Journals, indem Sie die folgenden Befehle ausführen:
# isi_kill_busy && umount /ifs
- Überprüfen Sie, ob das Journal gespeichert wurde, indem Sie den Befehl isi_checkjournal ausführen.
# isi_checkjournal
- Fahren Sie erst dann mit dem nächsten Schritt fort, wenn die Ausgabe angibt, dass das Journal erfolgreich gespeichert wurde.
Nehmen Sie bei Bedarf Kontakt zum technischen Support von Dell auf.
Phase 4: Trennen der Stromquelle
Erst nachdem das Cluster erfolgreich heruntergefahren und die Nodes ausgeschaltet wurden, kann die Stromquelle vom Cluster entfernt werden.
NVRAM-Batterien
Wenn ein Client eine Datei auf einen Node schreibt, werden die Schreibvorgänge zunächst im nichtflüchtigen RAM (NVRAM) gespeichert, der auf der Journalkarte des Nodes gehostet wird. Einige Zeit später überträgt OneFS diese Schreibvorgänge dann auf die Festplatte. Um die im NVRAM gespeicherten Daten bei einem ungeplanten Stromausfall zu schützen, ist jeder Node mit NVRAM-Batterien ausgestattet (zwei für Redundanz). Ein Node, der ausgeschaltet, aber weiterhin an eine Stromquelle angeschlossen ist, lädt weiterhin seine NVRAM-Batterien auf. Wenn die Stromquelle vom Node getrennt wird, werden die NVRAM-Batterien entladen. Die Batterielebensdauer für die aktuelle Node-Generation (X200, S200, X400 und NL400) beträgt ca. fünf Tage. Für die vorherige Node-Generation beträgt die NVRAM-Batterielebensdauer ca. drei Tage.
Dell Technologies empfiehlt, Nodes ordnungsgemäß herunterzufahren, damit Sie sich während eines Stromausfalls nicht über einen längeren Zeitraum auf die NVRAM-Batterien verlassen müssen.
Wenn die NVRAM-Batterien eines Nodes vollständig entladen sind, startet der Node im schreibgeschützten Modus und verbleibt ca. 30 Minuten in diesem, bis die NVRAM-Batterien vollständig aufgeladen sind. Nachdem die Batterien aufgeladen wurden, kehrt der Node automatisch in den normalen Lese-/Schreibmodus zurück.
Phase 5: Einschalten jedes Nodes im Cluster
Diese Schritte müssen durchgeführt werden, wenn Sie bereit sind, Ihr Isilon-Cluster neu zu starten.
- Stellen Sie die Stromversorgung für jeden Node wieder her.
- Drücken Sie den Betriebsschalter auf der Frontblende oder der Rückseite jedes Nodes, um ihn zu starten.
- Nachdem alle Nodes eingeschaltet wurden, führen Sie den Befehl
isi status -qaus, um die Integrität Ihres Clusters zu überprüfen. Überprüfen Sie, ob für alle Nodes in der Spalte „Health DASR“ OK angezeigt wird und dass sie sich nicht im schreibgeschützten Modus (R) befinden, bevor Sie fortfahren. Für ein fehlerfreies Cluster sollte eine Ausgabe ähnlich der folgenden angezeigt werden:
Cluster Name: mycluster Cluster Health: [ OK ] Cluster Storage: HDD SSD Size: 11G (23G Raw) 0 (0 Raw) VHS Size: 11G Used: 7.9G (69%) 0 (n/a) Avail: 3.5G (31%) 0 (n/a) Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.1.16.141 |-OK- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs) 2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs) 3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs) 4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs) -------------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Verwenden Sie die Liste der aktivierten Services, die in Phase 2, Schritt 1b erstellt wurde, und aktivieren Sie die deaktivierten Services, indem Sie einen oder mehrere der folgenden Befehle ausführen:
isi services apache2 enable isi services isi_hdfs_d enable isi services isi_iscsi_d enable isi services ndmpd enable isi services nfs enable isi services smb enable isi services vsftpd enable
- Überprüfen Sie, ob Ihre Clients eine Verbindung zum Cluster herstellen und ihre gewohnten Workflows ausführen können. Ihr Cluster sollte normal funktionieren.
- Führen Sieeine vollständige Protokollerfassung durch:
# isi_gather_info --esrs
- Führen Sie eine Isilon-Integritätsprüfung durch oder fordern Sie die Durchführung vom Remote Reactive-Team (Kundensupport) an.
Schritte zum Ausführen der Integritätsprüfungen.
PowerScale: So führen Sie das IOCA-Clusteranalysetool aus
- Fordern Sie eine Integritätsprüfung vom Remote Reactive-Supportteam an.
Dieser Service steht allen KundInnen mit einer aktiven Wartungsvereinbarung für Cluster mit unterstützten Codeversionen zur Verfügung.
Wenn Sie diese Anforderungen erfüllen, eröffnen Sie einen Service-Request (SR) auf der Dell Supportwebsite und fordern Sie eine „Isilon-Integritätsprüfung“ an.
* Die Integritätsprüfung dient nicht dazu, Clusterprobleme zu beheben oder die Konfiguration, Performance oder den Workflow des Clusters zu überprüfen.