PowerScale: Verwenden von AutoBalanceLin zum schnellen Verschieben von Daten aus einem vollen Node-Pool
Zusammenfassung: In diesem Artikel wird beschrieben, wie Sie mit dem AutoBalanceLin-Job schnell Speicherplatz freigeben, wenn ein Pool mit einem einzelnen Node voll oder fast zu 100 % ausgelastet ist. Dieses Verfahren sollte nur verwendet werden, wenn alle anderen Methoden zum Freigeben von Speicherplatz in einem Node-Pool erschöpft sind. ...
Weisungen
Es wird allgemein angenommen, dass
AutoBalance und AutoBalanceLin Gleichen Sie Daten nur innerhalb von Node-Pools und nicht zwischen Node-Pools aus. Außerdem wird nur geglaubt, dass smartpools/smartpoolstree Kann Daten zwischen zwei Node-Pools
verschieben.Tests mit OneFS 8.0 und höher belegen, dass dies nicht ganz stimmt. Wenn der Cluster nur über die standardmäßige Dateipool-Policy von
anywhere:anywhere, AutoBalanceLin und AutoBalance Verschiebt Daten über mehrere Node-Pools hinweg.
Dies sollte nur als Notfall-Workaround für Cluster verwendet werden, die über einen vollen Node-Pool verfügen. Bei diesem Prozess werden Daten schnell aus dem vollständigen Node-Pool verschoben.
Frage: Wann sollte man das folgende Verfahren anwenden?
Antwort: Dieses Verfahren wird verwendet, wenn die folgenden Bedingungen zutreffen:
- Der Cluster enthält mehrere Node-Pools und mindestens einer der Node-Pools ist zu 100 % voll.
- Es besteht eine unmittelbare Anforderung, Speicherplatz in einem vollen Node-Pool freizugeben.
- Die genaue Organisation der Daten ist kein unmittelbares Problem.
Schritte:
- Notieren Sie sich alle vorhandenen Dateipool-Policies mit Ausnahme der Standardoption "
any:any' Dateipool-Policy, die auf dem Cluster konfiguriert ist.
Bevor Sie mit diesem Schritt fortfahren:
- Notieren Sie sich die aktuelle Konfiguration der Dateipool-Policy, bevor Sie die Policies entfernen. Wenn die Zeit es zulässt, wird eine vollständige Protokollerfassung empfohlen.
- Standardmäßig sind Isilon-Cluster so konfiguriert, dass Daten in die Standard-Dateipool-Policy geschrieben werden
'anywhere:anywhere'. Überprüfen Sie, ob die Standard-Dateipool-Policy auf diese Standardeinstellungen zurückgesetzt wurde, bevor Sie fortfahren.
anywhere'.
# isi filepool default-policy view
Set Requested Protection: default
Data Access Pattern: concurrency
Enable Coalescer: Yes
Enable Packing: No
Data Storage Target: anywhere
Data SSD Strategy: metadata
Snapshot Storage Target: anywhere
Snapshot SSD Strategy: metadata
Cloud Pool: -
Cloud Compression Enabled: -
Cloud Encryption Enabled: -
Cloud Data Retention: -
Cloud Incremental Backup Retention: -
Cloud Full Backup Retention: -
Cloud Accessibility: -
Cloud Read Ahead: -
Cloud Cache Expiration: -
Cloud Writeback Frequency: -
Cloud Archive Snapshot Files: -
ID: -
- Führen Sie einen
SmartPoolsJob zum Anwenden neuer Verzeichnismarkierungen:
# isi job start smartpools -p 1 --policy medium
Smartpools schneller als üblich mit nur der anywhere:anywhere Standardmäßige Dateipool-Policy vorhanden.
SmartPools Job aufgrund von zu voller Node-Pool:
# isi job jobs start SmartPools Job operation failed: Job 'SmartPools' cannot start because the cluster's free disk space percentage is below 2 (isi_gconfig -t job-config core.free_blocks_pct_threshold_lo threshold) and this job does not free disk space. Free up some space (e.g. run TreeDelete, SnapshotDelete) then try again.: No space left on device
Wenn die obige Fehlermeldung NICHT angezeigt wird , fahren Sie mit Schritt 3 unten fort.
Wenn diese Fehlermeldung angezeigt wird, fahren Sie mit Schritt 2a unten fort.
- Überprüfen Sie erneut, ob Daten vorhanden sind, die Sie löschen können, um Speicherplatz im vollständigen Node-Pool freizugeben. Dies umfasst die Überprüfung auf große Snapshots sowie die Überprüfung auf große System- oder Auditdateien mit den folgenden Befehlen:
Isilon-28# du -sh /ifs/.ifsvar/audit/logs Islon-28# du -sh /ifs/.ifsvar
Wenn Sie genügend Daten löschen können, versuchen Sie, den Befehl SmartPools Job wieder.
Wenn absolut keine Daten vorhanden sind, die gelöscht werden können, wäre der empfohlene Schritt zur Risikominderung wie folgt:
- Ändern Sie die obige Standard-Dateipool-Policy so, dass in den weniger vollen Node-Pool geschrieben wird.
- Identifizieren Sie einen Datenpfad im vollständigen Node-Pool, der die meisten Daten enthält.
- Führen Sie in einer Bildschirmsitzung Folgendes aus:
# isi filepool apply -r <data path> to manually move data under a certain path i.e. # isi filepool apply -r /ifs/data/win_data/test_data verify the job is running: # ps auwx | grep apply root 45237 98.1 0.0 102268 61176 0 R+ 13:34 0:35.04 /usr/libexec/isilon/isi /usr/bin/isi filepool apply -r /ifs/
- Überwachen Sie die Kapazität. Wenn der volle Node-Pool unter 96 % liegt, beginnen Sie mit Schritt 2 oben.
- Führen Sie eine
AutoBalanceLinfür ein paar Stunden und Monitorspeicherplatz. (Im Gegensatz zuAutoBalance, die einen vollständigen Tree Walk durchführt, bevor Daten verschoben werden,AutoBalanceLinSofortiges Restriping von Daten)
# isi job start autobalancelin -p 1 --policy medium
Beachten Sie fast sofort, dass die Daten zwischen den Node-Pools verschoben werden und der volle Node-Pool Speicherplatz frei werden sollte.
AutoBalanceLin muss nicht bis zum Abschluss ausgeführt werden. Überwachen Sie die AutoBalanceLin bis das Ziel der Bereinigung des gesamten Node-Pools erreicht ist, und brechen Sie dann den Job ab. Sie können den Job beispielsweise abbrechen, sobald der volle Node-Pool zu 85 % ausgelastet ist.
Überwachen Sie den Speicherplatz etwa stündlich weiter, bis der Speicherplatz ausreichend ist, indem Sie den folgenden Befehl ausführen:
# isi stat -p -v
AutoBalanceLin Bis zum Abschluss ausführen. Ab einem bestimmten Punkt verschiebt der Job möglicherweise Daten in eine neue Richtung und führt zu unerwünschten Ergebnissen. Beispielsweise wird die Datenverschiebung umgekehrt, was möglicherweise dazu führt, dass der andere Node-Pool nahezu vollständig ausgelastet ist, wenn sich der vorherige Pool leert. Nur ausführen AutobalanceLIN für ein paar Stunden oder bis der Raum bereinigt ist, und dann abbrechen, sobald das Ziel erreicht ist.
Sobald der Cluster eine Entlastung des Speicherplatzes im vollen Node-Pool erreicht hat, brechen Sie die
AutoBalanceLin Job:
# isi job cancel autobalancelin
Weitere Informationen
Ergebnisse der Labortests:
Zwei Node-Pools, gleiche Schutzlevel
Das ist vor:
Node Pool Name: x410_archive Protection: +2d:1n Pool Storage: HDD SSD Storage Size: 85.2T (94.6T Raw) 2.2T (2.2T Raw) VHS Size: 9.4T Used: 29.9T (35%) 35.2G (2%) Avail: 55.3T (65%) 2.1T (98%) Throughput (bps) HDD Storage SSD Storage Name Health| In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 5|10.5.80.190 | OK |881.6| 0|881.6|10.0T/31.5T( 32%)|11.7G/ 738G( 2%) 6|10.5.80.191 |-A-- | 0| 0| 0|10.0T/31.5T( 32%)|11.7G/ 738G( 2%) 7|10.5.80.192 | OK | 0| 0| 0|10.0T/31.5T( 32%)|11.7G/ 738G( 2%) -------------------+-----+-----+-----+-----+-----------------+----------------- x410_archive | OK |110.2| 0|110.2|29.9T/85.2T( 35%)|35.2G/ 2.2T( 2%) Node Pool Name: x410_35tb_800gb-ssd_64gbProtection: +2d:1n Pool Storage: HDD SSD Storage Size: 112.8T (125.3T Raw) 2.9T (2.9T Raw) VHS Size: 12.5T Used: 5.6T (5%) 7.9G (< 1%) Avail: 107.2T (95%) 2.9T (> 99%) Throughput (bps) HDD Storage SSD Storage Name Health| In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.5.80.186 | OK | 2.9M|82.8M|85.6M| 1.4T/31.5T( 4%)| 2.0G/ 738G(< 1%) 2|10.5.80.187 |-A-- | 104k|38.8k| 143k| 1.4T/30.6T( 5%)| 1.9G/ 738G(< 1%) 3|10.5.80.188 | OK |881.6| 0|881.6| 1.4T/31.5T( 4%)| 2.0G/ 738G(< 1%) 4|10.5.80.189 | OK | 0|25.8k|25.8k| 1.4T/31.5T( 4%)| 2.0G/ 738G(< 1%) -------------------+-----+-----+-----+-----+-----------------+----------------- x410_35tb_800gb-ssd|-M---| 371k|10.4M|10.7M| 5.6T/112.8T( 5%)| 7.9G/ 2.9T(< 1%) _64gb | | | | | | X410-2# date Thu Jun 14 16:53:29 CDT 2018 one filepool policy set to default any:any X410-2# isi job start autobalancelin -p 1 --policy medium Started job [7159] in as little as 30 minutes you will see data shift between the two pools, i.e. our first node pool, below, dropped from 32% full to 29% X410-2# date Thu Jun 14 17:24:20 CDT 2018 Node Pool Name: x410_archive Protection: +2d:1n Pool Storage: HDD SSD Storage Size: 85.2T (94.6T Raw) 2.2T (2.2T Raw) VHS Size: 9.4T Used: 27.7T (33%) 34.3G (2%) Avail: 57.5T (67%) 2.1T (98%) Throughput (bps) HDD Storage SSD Storage Name Health| In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 5|10.5.80.190 | OK | 1.1k|25.8k|26.9k| 9.2T/31.5T( 29%)|11.4G/ 738G( 2%) 6|10.5.80.191 |-A-- | 1.1k| 1.2M| 1.2M| 9.2T/31.5T( 29%)|11.4G/ 738G( 2%) 7|10.5.80.192 | OK |28.6k| 5.2k|33.7k| 9.2T/31.5T( 29%)|11.4G/ 738G( 2%) -------------------+-----+-----+-----+-----+-----------------+----------------- x410_archive | OK | 3.8k| 152k| 156k|27.7T/85.2T( 33%)|34.3G/ 2.2T( 2%) Node Pool Name: x410_35tb_800gb-ssd_64gbProtection: +2d:1n Pool Storage: HDD SSD Storage Size: 112.8T (125.3T Raw) 2.9T (2.9T Raw) VHS Size: 12.5T Used: 7.6T (7%) 8.8G (< 1%) Avail: 105.2T (93%) 2.9T (> 99%) Throughput (bps) HDD Storage SSD Storage Name Health| In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.5.80.186 | OK |37.9k| 279k| 316k| 1.9T/31.5T( 6%)| 2.2G/ 738G(< 1%) 2|10.5.80.187 |-A-- | 1.4M|34.8M|36.2M| 1.9T/30.6T( 6%)| 2.2G/ 738G(< 1%) 3|10.5.80.188 | OK | 130k|30.9k| 161k| 1.9T/31.5T( 6%)| 2.2G/ 738G(< 1%) 4|10.5.80.189 | OK | 0| 0| 0| 1.9T/31.5T( 6%)| 2.2G/ 738G(< 1%) -------------------+-----+-----+-----+-----+-----------------+----------------- x410_35tb_800gb-ssd|-M---| 198k| 4.4M| 4.6M| 7.6T/112.8T( 7%)| 8.8G/ 2.9T(< 1%) _64gb | | | | | |
Setzen Sie die Überwachung etwa stündlich fort, bis der Speicherplatz ausreichend ist.
AutoBalanceLin Bis zum Abschluss ausführen. Der Job verschiebt Daten in die entgegengesetzte Richtung, was zu unerwünschten Ergebnissen führen kann. Der belegte Speicherplatz kann umgekehrt werden, was möglicherweise wieder zu einem nahezu vollen Node-Pool führt. Führen Sie den Job nur wenige Stunden lang aus.
Eine Stunde:
X410-2# date Thu Jun 14 17:54:30 CDT 2018 Node Pool Name: x410_archive Protection: +2d:1n Pool Storage: HDD SSD Storage Size: 85.2T (94.6T Raw) 2.2T (2.2T Raw) VHS Size: 9.4T Used: 25.2T (30%) 33.9G (2%) Avail: 60.0T (70%) 2.1T (98%) Throughput (bps) HDD Storage SSD Storage Name Health| In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 5|10.5.80.190 | OK |881.6|20.6k|21.5k| 8.4T/31.5T( 27%)|11.3G/ 738G( 2%) 6|10.5.80.191 |-A-- | 0| 0| 0| 8.4T/31.5T( 27%)|11.3G/ 738G( 2%) 7|10.5.80.192 | OK | 2.2k| 216k| 218k| 8.4T/31.5T( 27%)|11.3G/ 738G( 2%) -------------------+-----+-----+-----+-----+-----------------+----------------- x410_archive | OK |385.7|29.5k|29.9k|25.2T/85.2T( 30%)|33.9G/ 2.2T( 2%) X410-2# date Thu Jun 14 18:54:43 CDT 2018 Node Pool Name: x410_archive Protection: +2d:1n Pool Storage: HDD SSD Storage Size: 85.2T (94.6T Raw) 2.2T (2.2T Raw) VHS Size: 9.4T Used: 21.6T (25%) 26.8G (1%) Avail: 63.6T (75%) 2.1T (99%) Throughput (bps) HDD Storage SSD Storage Name Health| In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 5|10.5.80.190 | OK |22.9k| 1.4M| 1.5M| 7.2T/31.5T( 23%)| 8.9G/ 738G( 1%) 6|10.5.80.191 |-A-- |881.6| 231k| 232k| 7.2T/31.5T( 23%)| 8.9G/ 738G( 1%) 7|10.5.80.192 | OK | 0| 0| 0| 7.2T/31.5T( 23%)| 8.9G/ 738G( 1%) -------------------+-----+-----+-----+-----+-----------------+----------------- x410_archive | OK | 3.0k| 210k| 213k|21.6T/85.2T( 25%)|26.8G/ 2.2T( 1%)
Der Platz wird ausreichend aufgeräumt. Bei der AutoBalanceLIn Der Auftrag kann abgebrochen werden, da die gewünschten Ergebnisse erzielt wurden.