PowerScale:使用 AutoBalanceLin 快速将数据移出完整节点池
摘要: 本文介绍如何在单个节点池已满或几乎达到 100% 容量时使用 AutoBalanceLin 作业快速释放空间。 仅当释放节点池上的磁盘空间的所有其他方法都已用尽时,才应使用此过程。
说明
提醒:以下过程要求删除现有文件池策略,并跨所有节点对数据进行条带化,而不考虑数据所属的工作流。如果没有文件池策略,则不会管理池或层之间的数据。请确保完全了解此过程的影响,因为它可能会导致性能下降。在尝试了解决容量问题的所有其他选项后,仅将此作为最后一项努力。
人们普遍认为,AutoBalance 和 AutoBalanceLin 仅在节点池内平衡数据,而不跨节点池平衡数据。此外,据信只有 smartpools/smartpoolstree 才能在两个节点池之间移动数据。
在 OneFS 8.0 及更高版本上的测试证明,这并不完全正确。如果群集只有默认文件池策略“anywhere:anywhere”,AutoBalanceLin 和 AutoBalance 会跨多个节点池移动数据。
这仅应用作具有一个完整节点池的群集的紧急解决方法。此过程会快速将数据从完整节点池中移出。
问题:何时要使用以下过程?
回答:当存在以下条件时,将使用此过程:
a.群集包含多个节点池,其中一个或多个节点池的容量为
100%。B。当务之急是要释放完整节点池上的磁盘空间。
C。数据的确切组织并不是当务之急。
步骤:
1.记下并删除除“default”以外的所有现有文件池策略any:any群集上配置的文件池策略。
在继续执行此步骤之前:
a) 在删除策略之前记录当前文件池策略配置。如果时间允许,建议进行完整日志收集。
b) 默认情况下,Isilon 群集配置的默认文件池策略设置为将数据写入到 'anywhere:anywhere'。在继续操作之前,请验证默认文件池策略是否已恢复为这些默认设置。
示例:默认文件池策略。请注意,Storage Targets 设置为”anywhere'.# isi filepool default-policy view Set Requested Protection: default Data Access Pattern: concurrency Enable Coalescer: Yes Enable Packing: No Data Storage Target: anywhere Data SSD Strategy: metadata Snapshot Storage Target: anywhere Snapshot SSD Strategy: metadata Cloud Pool: - Cloud Compression Enabled: - Cloud Encryption Enabled: - Cloud Data Retention: - Cloud Incremental Backup Retention: - Cloud Full Backup Retention: - Cloud Accessibility: - Cloud Read Ahead: - Cloud Cache Expiration: - Cloud Writeback Frequency: - Cloud Archive Snapshot Files: - ID: -
2.在USB端口上运行一个 SmartPools 应用新目录标记的作业:
# isi job start smartpools -p 1 --policy medium
Smartpools 作业完成速度比平时更快,仅 anywhere:anywhere 实施了默认文件池策略。
SmartPools 由于节点池太满导致的作业:
# isi job jobs start SmartPools
Job operation failed: Job 'SmartPools' cannot start because the cluster's free disk space percentage is below 2 (isi_gconfig -t job-config core.free_blocks_pct_threshold_lo threshold) and this job does not free disk space. Free up some space (e.g. run TreeDelete, SnapshotDelete) then try again.: No space left on device
如果您 * 未 * 看到上面的错误消息,请跳至下面的步骤 3。
如果您看到此错误消息,请继续执行下面的步骤 2a。
2a. 再次检查以查看是否可以删除任何数据以释放完整节点池上的空间。这包括使用以下命令检查是否有任何大型快照,以及检查是否有任何大型系统或审核文件:
Isilon-28# du -sh /ifs/.ifsvar/audit/logs
Islon-28# du -sh /ifs/.ifsvar
如果您能够删除足够的数据,请尝试运行 SmartPools 再次工作。
如果绝对没有可以删除的数据,则建议的缓解步骤如下:
2b.修改上面默认的Fiel Pool Policy,以写入不太满的节点池。
2c.确定完整节点池上包含大部分数据的数据路径。
2d.在屏幕会话中,运行:
# isi filepool apply -r <data path> to manually move data under a certain path
i.e.
# isi filepool apply -r /ifs/data/win_data/test_data
verify the job is running:
# ps auwx | grep apply
root 45237 98.1 0.0 102268 61176 0 R+ 13:34 0:35.04 /usr/libexec/isilon/isi /usr/bin/isi filepool apply -r /ifs/
2e.监视容量。一旦完整节点池低于 96%,则从上面的步骤 2 重新开始。
3.运行 AutoBalanceLin 作业几个小时,并监视空间。(注意:与 AutoBalance 不同,AutoBalance 在移动任何数据之前执行完整的树遍历,而 AutoBalanceLin 会立即重新条带化数据)
# isi job start autobalancelin -p 1 --policy medium
观察一下,数据会在节点池之间移动,整个节点池应释放磁盘空间。
AutoBalanceLin 不必运行到完成。监控 AutoBalanceLin 作业,直到实现清理完整节点池的目标,然后取消作业。例如,您可以在完整节点池容量降至 85% 后取消作业。
使用以下命令,继续每隔一小时左右监视一次空间,直至空间达到足够的水平:
# isi stat -p -v
AutoBalanceLin 运行到完成。在某个时间点,作业可能会将数据向新方向移动,并且可能会开始产生不良结果。例如,它会反转数据移动,可能导致另一个节点池在前一个池清空时接近满容量。仅运行 AutobalanceLIN 几个小时,或者直到空间被清理干净,然后在达到目标后取消。
群集在完整节点池上实现空间缓解后,取消
AutoBalanceLin 工作:
# isi job cancel autobalancelin
其他信息
实验室测试结果
两个节点池,相等的保护级别
这是之前:
Node Pool Name: x410_archive Protection: +2d:1n Pool Storage: HDD SSD Storage Size: 85.2T (94.6T Raw) 2.2T (2.2T Raw) VHS Size: 9.4T Used: 29.9T (35%) 35.2G (2%) Avail: 55.3T (65%) 2.1T (98%) Throughput (bps) HDD Storage SSD Storage Name Health| In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 5|10.5.80.190 | OK |881.6| 0|881.6|10.0T/31.5T( 32%)|11.7G/ 738G( 2%) 6|10.5.80.191 |-A-- | 0| 0| 0|10.0T/31.5T( 32%)|11.7G/ 738G( 2%) 7|10.5.80.192 | OK | 0| 0| 0|10.0T/31.5T( 32%)|11.7G/ 738G( 2%) -------------------+-----+-----+-----+-----+-----------------+----------------- x410_archive | OK |110.2| 0|110.2|29.9T/85.2T( 35%)|35.2G/ 2.2T( 2%) Node Pool Name: x410_35tb_800gb-ssd_64gbProtection: +2d:1n Pool Storage: HDD SSD Storage Size: 112.8T (125.3T Raw) 2.9T (2.9T Raw) VHS Size: 12.5T Used: 5.6T (5%) 7.9G (< 1%) Avail: 107.2T (95%) 2.9T (> 99%) Throughput (bps) HDD Storage SSD Storage Name Health| In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.5.80.186 | OK | 2.9M|82.8M|85.6M| 1.4T/31.5T( 4%)| 2.0G/ 738G(< 1%) 2|10.5.80.187 |-A-- | 104k|38.8k| 143k| 1.4T/30.6T( 5%)| 1.9G/ 738G(< 1%) 3|10.5.80.188 | OK |881.6| 0|881.6| 1.4T/31.5T( 4%)| 2.0G/ 738G(< 1%) 4|10.5.80.189 | OK | 0|25.8k|25.8k| 1.4T/31.5T( 4%)| 2.0G/ 738G(< 1%) -------------------+-----+-----+-----+-----+-----------------+----------------- x410_35tb_800gb-ssd|-M---| 371k|10.4M|10.7M| 5.6T/112.8T( 5%)| 7.9G/ 2.9T(< 1%) _64gb | | | | | | X410-2# date Thu Jun 14 16:53:29 CDT 2018 one filepool policy set to default any:any X410-2# isi job start autobalancelin -p 1 --policy medium Started job [7159] in as little as 30 minutes you will see data shift between the two pools, i.e. our first node pool, below, dropped from 32% full to 29% X410-2# date Thu Jun 14 17:24:20 CDT 2018 Node Pool Name: x410_archive Protection: +2d:1n Pool Storage: HDD SSD Storage Size: 85.2T (94.6T Raw) 2.2T (2.2T Raw) VHS Size: 9.4T Used: 27.7T (33%) 34.3G (2%) Avail: 57.5T (67%) 2.1T (98%) Throughput (bps) HDD Storage SSD Storage Name Health| In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 5|10.5.80.190 | OK | 1.1k|25.8k|26.9k| 9.2T/31.5T( 29%)|11.4G/ 738G( 2%) 6|10.5.80.191 |-A-- | 1.1k| 1.2M| 1.2M| 9.2T/31.5T( 29%)|11.4G/ 738G( 2%) 7|10.5.80.192 | OK |28.6k| 5.2k|33.7k| 9.2T/31.5T( 29%)|11.4G/ 738G( 2%) -------------------+-----+-----+-----+-----+-----------------+----------------- x410_archive | OK | 3.8k| 152k| 156k|27.7T/85.2T( 33%)|34.3G/ 2.2T( 2%) Node Pool Name: x410_35tb_800gb-ssd_64gbProtection: +2d:1n Pool Storage: HDD SSD Storage Size: 112.8T (125.3T Raw) 2.9T (2.9T Raw) VHS Size: 12.5T Used: 7.6T (7%) 8.8G (< 1%) Avail: 105.2T (93%) 2.9T (> 99%) Throughput (bps) HDD Storage SSD Storage Name Health| In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.5.80.186 | OK |37.9k| 279k| 316k| 1.9T/31.5T( 6%)| 2.2G/ 738G(< 1%) 2|10.5.80.187 |-A-- | 1.4M|34.8M|36.2M| 1.9T/30.6T( 6%)| 2.2G/ 738G(< 1%) 3|10.5.80.188 | OK | 130k|30.9k| 161k| 1.9T/31.5T( 6%)| 2.2G/ 738G(< 1%) 4|10.5.80.189 | OK | 0| 0| 0| 1.9T/31.5T( 6%)| 2.2G/ 738G(< 1%) -------------------+-----+-----+-----+-----+-----------------+----------------- x410_35tb_800gb-ssd|-M---| 198k| 4.4M| 4.6M| 7.6T/112.8T( 7%)| 8.8G/ 2.9T(< 1%) _64gb | | | | | |
继续每隔一小时左右监视一次,直到磁盘空间处于足够的水平。
一小时点:
X410-2# date Thu Jun 14 17:54:30 CDT 2018 Node Pool Name: x410_archive Protection: +2d:1n Pool Storage: HDD SSD Storage Size: 85.2T (94.6T Raw) 2.2T (2.2T Raw) VHS Size: 9.4T Used: 25.2T (30%) 33.9G (2%) Avail: 60.0T (70%) 2.1T (98%) Throughput (bps) HDD Storage SSD Storage Name Health| In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 5|10.5.80.190 | OK |881.6|20.6k|21.5k| 8.4T/31.5T( 27%)|11.3G/ 738G( 2%) 6|10.5.80.191 |-A-- | 0| 0| 0| 8.4T/31.5T( 27%)|11.3G/ 738G( 2%) 7|10.5.80.192 | OK | 2.2k| 216k| 218k| 8.4T/31.5T( 27%)|11.3G/ 738G( 2%) -------------------+-----+-----+-----+-----+-----------------+----------------- x410_archive | OK |385.7|29.5k|29.9k|25.2T/85.2T( 30%)|33.9G/ 2.2T( 2%) X410-2# date Thu Jun 14 18:54:43 CDT 2018 Node Pool Name: x410_archive Protection: +2d:1n Pool Storage: HDD SSD Storage Size: 85.2T (94.6T Raw) 2.2T (2.2T Raw) VHS Size: 9.4T Used: 21.6T (25%) 26.8G (1%) Avail: 63.6T (75%) 2.1T (99%) Throughput (bps) HDD Storage SSD Storage Name Health| In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 5|10.5.80.190 | OK |22.9k| 1.4M| 1.5M| 7.2T/31.5T( 23%)| 8.9G/ 738G( 1%) 6|10.5.80.191 |-A-- |881.6| 231k| 232k| 7.2T/31.5T( 23%)| 8.9G/ 738G( 1%) 7|10.5.80.192 | OK | 0| 0| 0| 7.2T/31.5T( 23%)| 8.9G/ 738G( 1%) -------------------+-----+-----+-----+-----+-----------------+----------------- x410_archive | OK | 3.0k| 210k| 213k|21.6T/85.2T( 25%)|26.8G/ 2.2T( 1%)
空间已得到充分清理。而 AutoBalanceLIn 由于已达到预期结果,因此可以取消作业。