PowerScale:使用 AutoBalanceLin 快速将数据移出完整节点池
Summary: 本文介绍如何在单个节点池已满或几乎达到 100% 容量时使用 AutoBalanceLin 作业快速释放空间。 仅当释放节点池上磁盘空间的所有其他方法都已用尽时,才应使用此过程。
Instructions
提醒:以下过程要求删除现有文件池策略,并跨所有节点对数据进行条带化,而不考虑数据所属的工作流。
如果没有文件池策略,则不会管理池或层之间的数据。
请确保完全了解此过程的影响,因为它可能会导致性能下降。
在尝试了解决容量问题的所有其他选项后,仅将此作为最后一项努力。
人们普遍认为,AutoBalance 和 AutoBalanceLin 仅在节点池内平衡数据,而不跨节点池平衡数据。此外,据信只有 smartpools/smartpoolstree 才能在两个节点池之间移动数据。
在 OneFS 8.0 及更高版本上的测试证明,这并不完全正确。如果群集只有默认文件池策略“anywhere:anywhere”,AutoBalanceLin 和 AutoBalance 会跨 多个节点池移动数据。
这仅应用作具有一个完整节点池的群集的紧急解决方法。此过程会快速将数据从完整节点池中移出。
问题:何时要使用以下过程?
答:当存在以下条件时,将使用此过程:
a.群集包含多个节点池,其中一个或多个节点池的容量为
100%。b.当务之急是要释放完整节点池上的磁盘空间。
c.数据的确切组织并不是当务之急。
步骤:
1) 记下并删除所有现有文件池策略,群集随附的“default”“any:any”文件池策略除外。
在继续执行此步骤之前:
a) 在删除策略之前记录当前文件池策略配置。如果时间允许,建议进行完整日志收集。
b) 默认情况下,Isilon 群集配置的默认文件池策略设置为将数据写入“anywhere:anywhere”。在继续作之前,请验证默认文件池策略是否已恢复为这些默认设置。
Example: Default File Pool Policy. Observe that the Storage Targets are set to 'anywhere'.
# isi filepool default-policy view
Set Requested Protection: default
Data Access Pattern: concurrency
Enable Coalescer: Yes
Enable Packing: No
Data Storage Target: anywhere
Data SSD Strategy: metadata
Snapshot Storage Target: anywhere
Snapshot SSD Strategy: metadata
Cloud Pool: -
Cloud Compression Enabled: -
Cloud Encryption Enabled: -
Cloud Data Retention: -
Cloud Incremental Backup Retention: -
Cloud Full Backup Retention: -
Cloud Accessibility: -
Cloud Read Ahead: -
Cloud Cache Expiration: -
Cloud Writeback Frequency: -
Cloud Archive Snapshot Files: -
ID: -
2) 运行 SmartPools 作业以应用新的目录标记:
# isi job start smartpools -p 1 --policy medium
提醒:预计 Smartpools 作业的完成速度会比平时快,只有 anywhere:anywhere 默认文件池策略就位。
3) 运行 AutoBalanceLin 作业几个小时,并监视空间。(注意:与 AutoBalance 不同,AutoBalance 在移动任何数据之前执行完整的树遍历,而 AutoBalanceLin 会立即重新条带化数据)
# isi job start autobalancelin -p 1 --policy medium
观察一下,数据会在节点池之间移动,整个节点池应释放磁盘空间。
注意:对于此步骤,AutoBalanceLin 不必运行到完成。监视 AutoBalanceLin 作业,直到实现清理完整节点池的目标,然后取消作业。例如,您可以在完整节点池容量降至 85% 后取消作业。
注意:监视群集利用率,并在空间受到不利影响时确认其他作业已取消或暂停。
使用以下命令,继续每隔一小时左右监视一次空间,直至空间达到足够的水平:
# isi stat -p -v
提醒:同样,不建议让 AutoBalanceLin 运行完成。在某个时间点,作业可能会将数据向新方向移动,并且可能会开始产生不良结果。例如,它会反转数据移动,可能导致另一个节点池在前一个池清空时接近满容量。只运行 AutobalanceLIN 几个小时,或者直到空间被清理干净,然后在达到目标后取消。
群集在完整节点池上实现空间释放后,取消 AutoBalanceLin 作业:
# isi job cancel autobalancelin
提醒:为了获得最佳结果,节点池之间的保护级别应相等。
Additional Information
实验室测试结果
两个节点池,相等的保护级别
这是之前:
Node Pool Name: x410_archive Protection: +2d:1n Pool Storage: HDD SSD Storage Size: 85.2T (94.6T Raw) 2.2T (2.2T Raw) VHS Size: 9.4T Used: 29.9T (35%) 35.2G (2%) Avail: 55.3T (65%) 2.1T (98%) Throughput (bps) HDD Storage SSD Storage Name Health| In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 5|10.5.80.190 | OK |881.6| 0|881.6|10.0T/31.5T( 32%)|11.7G/ 738G( 2%) 6|10.5.80.191 |-A-- | 0| 0| 0|10.0T/31.5T( 32%)|11.7G/ 738G( 2%) 7|10.5.80.192 | OK | 0| 0| 0|10.0T/31.5T( 32%)|11.7G/ 738G( 2%) -------------------+-----+-----+-----+-----+-----------------+----------------- x410_archive | OK |110.2| 0|110.2|29.9T/85.2T( 35%)|35.2G/ 2.2T( 2%) Node Pool Name: x410_35tb_800gb-ssd_64gbProtection: +2d:1n Pool Storage: HDD SSD Storage Size: 112.8T (125.3T Raw) 2.9T (2.9T Raw) VHS Size: 12.5T Used: 5.6T (5%) 7.9G (< 1%) Avail: 107.2T (95%) 2.9T (> 99%) Throughput (bps) HDD Storage SSD Storage Name Health| In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.5.80.186 | OK | 2.9M|82.8M|85.6M| 1.4T/31.5T( 4%)| 2.0G/ 738G(< 1%) 2|10.5.80.187 |-A-- | 104k|38.8k| 143k| 1.4T/30.6T( 5%)| 1.9G/ 738G(< 1%) 3|10.5.80.188 | OK |881.6| 0|881.6| 1.4T/31.5T( 4%)| 2.0G/ 738G(< 1%) 4|10.5.80.189 | OK | 0|25.8k|25.8k| 1.4T/31.5T( 4%)| 2.0G/ 738G(< 1%) -------------------+-----+-----+-----+-----+-----------------+----------------- x410_35tb_800gb-ssd|-M---| 371k|10.4M|10.7M| 5.6T/112.8T( 5%)| 7.9G/ 2.9T(< 1%) _64gb | | | | | | X410-2# date Thu Jun 14 16:53:29 CDT 2018 one filepool policy set to default any:any X410-2# isi job start autobalancelin -p 1 --policy medium Started job [7159] in as little as 30 minutes you will see data shift between the two pools, i.e. our first node pool, below, dropped from 32% full to 29% X410-2# date Thu Jun 14 17:24:20 CDT 2018 Node Pool Name: x410_archive Protection: +2d:1n Pool Storage: HDD SSD Storage Size: 85.2T (94.6T Raw) 2.2T (2.2T Raw) VHS Size: 9.4T Used: 27.7T (33%) 34.3G (2%) Avail: 57.5T (67%) 2.1T (98%) Throughput (bps) HDD Storage SSD Storage Name Health| In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 5|10.5.80.190 | OK | 1.1k|25.8k|26.9k| 9.2T/31.5T( 29%)|11.4G/ 738G( 2%) 6|10.5.80.191 |-A-- | 1.1k| 1.2M| 1.2M| 9.2T/31.5T( 29%)|11.4G/ 738G( 2%) 7|10.5.80.192 | OK |28.6k| 5.2k|33.7k| 9.2T/31.5T( 29%)|11.4G/ 738G( 2%) -------------------+-----+-----+-----+-----+-----------------+----------------- x410_archive | OK | 3.8k| 152k| 156k|27.7T/85.2T( 33%)|34.3G/ 2.2T( 2%) Node Pool Name: x410_35tb_800gb-ssd_64gbProtection: +2d:1n Pool Storage: HDD SSD Storage Size: 112.8T (125.3T Raw) 2.9T (2.9T Raw) VHS Size: 12.5T Used: 7.6T (7%) 8.8G (< 1%) Avail: 105.2T (93%) 2.9T (> 99%) Throughput (bps) HDD Storage SSD Storage Name Health| In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.5.80.186 | OK |37.9k| 279k| 316k| 1.9T/31.5T( 6%)| 2.2G/ 738G(< 1%) 2|10.5.80.187 |-A-- | 1.4M|34.8M|36.2M| 1.9T/30.6T( 6%)| 2.2G/ 738G(< 1%) 3|10.5.80.188 | OK | 130k|30.9k| 161k| 1.9T/31.5T( 6%)| 2.2G/ 738G(< 1%) 4|10.5.80.189 | OK | 0| 0| 0| 1.9T/31.5T( 6%)| 2.2G/ 738G(< 1%) -------------------+-----+-----+-----+-----+-----------------+----------------- x410_35tb_800gb-ssd|-M---| 198k| 4.4M| 4.6M| 7.6T/112.8T( 7%)| 8.8G/ 2.9T(< 1%) _64gb | | | | | |
继续每隔一小时左右监视一次,直到磁盘空间处于足够的水平。
注意:不要让 AutoBalanceLin 运行完成。作业将数据向相反的方向移动,这可能会开始产生不良结果。占用的磁盘空间可能会反向,可能导致节点池再次接近满。仅运行作业几个小时。
一小时点:
X410-2# date Thu Jun 14 17:54:30 CDT 2018 Node Pool Name: x410_archive Protection: +2d:1n Pool Storage: HDD SSD Storage Size: 85.2T (94.6T Raw) 2.2T (2.2T Raw) VHS Size: 9.4T Used: 25.2T (30%) 33.9G (2%) Avail: 60.0T (70%) 2.1T (98%) Throughput (bps) HDD Storage SSD Storage Name Health| In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 5|10.5.80.190 | OK |881.6|20.6k|21.5k| 8.4T/31.5T( 27%)|11.3G/ 738G( 2%) 6|10.5.80.191 |-A-- | 0| 0| 0| 8.4T/31.5T( 27%)|11.3G/ 738G( 2%) 7|10.5.80.192 | OK | 2.2k| 216k| 218k| 8.4T/31.5T( 27%)|11.3G/ 738G( 2%) -------------------+-----+-----+-----+-----+-----------------+----------------- x410_archive | OK |385.7|29.5k|29.9k|25.2T/85.2T( 30%)|33.9G/ 2.2T( 2%) X410-2# date Thu Jun 14 18:54:43 CDT 2018 Node Pool Name: x410_archive Protection: +2d:1n Pool Storage: HDD SSD Storage Size: 85.2T (94.6T Raw) 2.2T (2.2T Raw) VHS Size: 9.4T Used: 21.6T (25%) 26.8G (1%) Avail: 63.6T (75%) 2.1T (99%) Throughput (bps) HDD Storage SSD Storage Name Health| In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 5|10.5.80.190 | OK |22.9k| 1.4M| 1.5M| 7.2T/31.5T( 23%)| 8.9G/ 738G( 1%) 6|10.5.80.191 |-A-- |881.6| 231k| 232k| 7.2T/31.5T( 23%)| 8.9G/ 738G( 1%) 7|10.5.80.192 | OK | 0| 0| 0| 7.2T/31.5T( 23%)| 8.9G/ 738G( 1%) -------------------+-----+-----+-----+-----+-----------------+----------------- x410_archive | OK | 3.0k| 210k| 213k|21.6T/85.2T( 25%)|26.8G/ 2.2T( 1%)
空间已得到充分清理。由于已获得所需结果,因此可以取消 AutoBalanceLIn 作业。