PowerScale:使用 AutoBalanceLin 快速将数据移出完整节点池

摘要: 本文介绍如何在单个节点池已满或几乎达到 100% 容量时使用 AutoBalanceLin 作业快速释放空间。 仅当释放节点池上的磁盘空间的所有其他方法都已用尽时,才应使用此过程。

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

说明

提醒:以下过程要求删除现有文件池策略,并跨所有节点对数据进行条带化,而不考虑数据所属的工作流。如果没有文件池策略,则不会管理池或层之间的数据。请确保完全了解此过程的影响,因为它可能会导致性能下降。在尝试了解决容量问题的所有其他选项后,仅将此作为最后一项努力。

人们普遍认为,AutoBalance 和 AutoBalanceLin 仅在节点池内平衡数据,而不跨节点池平衡数据。此外,据信只有 smartpools/smartpoolstree 才能在两个节点池之间移动数据。
在 OneFS 8.0 及更高版本上的测试证明,这并不完全正确。如果群集只有默认文件池策略“anywhere:anywhere”,AutoBalanceLin 和 AutoBalance 会跨多个节点池移动数据。

这仅应用作具有一个完整节点池的群集的紧急解决方法。此过程会快速将数据从完整节点池中移出。

问题:何时要使用以下过程?

回答:当存在以下条件时,将使用此过程:

a.群集包含多个节点池,其中一个或多个节点池的容量为
100%。B。当务之急是要释放完整节点池上的磁盘空间。
C。数据的确切组织并不是当务之急。

步骤:

1.记下并删除除“default”以外的所有现有文件池策略any:any群集上配置的文件池策略。
 
         在继续执行此步骤之前:

               a) 在删除策略之前记录当前文件池策略配置。如果时间允许,建议进行完整日志收集。

               b) 默认情况下,Isilon 群集配置的默认文件池策略设置为将数据写入到 'anywhere:anywhere'。在继续操作之前,请验证默认文件池策略是否已恢复为这些默认设置。  

示例:默认文件池策略。请注意,Storage Targets 设置为”anywhere'. 

# isi filepool default-policy view
          Set Requested Protection: default
               Data Access Pattern: concurrency
                  Enable Coalescer: Yes
                    Enable Packing: No
               Data Storage Target: anywhere
                 Data SSD Strategy: metadata
           Snapshot Storage Target: anywhere
             Snapshot SSD Strategy: metadata
                        Cloud Pool: -
         Cloud Compression Enabled: -
          Cloud Encryption Enabled: -
              Cloud Data Retention: -
Cloud Incremental Backup Retention: -
       Cloud Full Backup Retention: -
               Cloud Accessibility: -
                  Cloud Read Ahead: -
            Cloud Cache Expiration: -
         Cloud Writeback Frequency: -
      Cloud Archive Snapshot Files: -
                                ID: -

 
  2.在USB端口上运行一个 SmartPools 应用新目录标记的作业:
 

# isi job start smartpools -p 1 --policy medium

 

提醒:期待 Smartpools 作业完成速度比平时更快,仅 anywhere:anywhere 实施了默认文件池策略。

 
提醒:由于更高版本的 OneFS 中的新设计,当您尝试运行 SmartPools 由于节点池太满导致的作业:

 

# isi job jobs start SmartPools

Job operation failed: Job 'SmartPools' cannot start because the cluster's free disk space percentage is below 2 (isi_gconfig -t job-config core.free_blocks_pct_threshold_lo threshold) and this job does not free disk space. Free up some space (e.g. run TreeDelete, SnapshotDelete) then try again.: No space left on device

 

如果您 * 未 * 看到上面的错误消息,请跳至下面的步骤 3。

如果您看到此错误消息,请继续执行下面的步骤 2a。

2a.  再次检查以查看是否可以删除任何数据以释放完整节点池上的空间。这包括使用以下命令检查是否有任何大型快照,以及检查是否有任何大型系统或审核文件:

Isilon-28# du -sh /ifs/.ifsvar/audit/logs
 
Islon-28# du -sh /ifs/.ifsvar

 

如果您能够删除足够的数据,请尝试运行 SmartPools 再次工作。

如果绝对没有可以删除的数据,则建议的缓解步骤如下:

2b.修改上面默认的Fiel Pool Policy,以写入不太满的节点池。 

2c.确定完整节点池上包含大部分数据的数据路径。

2d.在屏幕会话中,运行:   

 

# isi filepool apply -r <data path>   to manually move data under a certain path

i.e.

# isi filepool apply -r /ifs/data/win_data/test_data

verify the job is running:

# ps auwx | grep apply
root   45237   98.1  0.0 102268  61176  0  R+   13:34          0:35.04 /usr/libexec/isilon/isi /usr/bin/isi filepool apply -r /ifs/

 

2e.监视容量。一旦完整节点池低于 96%,则从上面的步骤 2 重新开始。

3.运行 AutoBalanceLin 作业几个小时,并监视空间。(注意:与 AutoBalance 不同,AutoBalance 在移动任何数据之前执行完整的树遍历,而 AutoBalanceLin 会立即重新条带化数据)

# isi job start autobalancelin -p 1 --policy medium

 
观察一下,数据会在节点池之间移动,整个节点池应释放磁盘空间。

提醒:对于此步骤, AutoBalanceLin 不必运行到完成。监控 AutoBalanceLin 作业,直到实现清理完整节点池的目标,然后取消作业。例如,您可以在完整节点池容量降至 85% 后取消作业。
提醒:监视群集利用率,并在空间受到不利影响时确认其他作业已取消或暂停。

使用以下命令,继续每隔一小时左右监视一次空间,直至空间达到足够的水平:

 # isi stat -p -v

  

 

提醒:同样,不建议让 AutoBalanceLin 运行到完成。在某个时间点,作业可能会将数据向新方向移动,并且可能会开始产生不良结果。例如,它会反转数据移动,可能导致另一个节点池在前一个池清空时接近满容量。仅运行 AutobalanceLIN 几个小时,或者直到空间被清理干净,然后在达到目标后取消。

群集在完整节点池上实现空间缓解后,取消 AutoBalanceLin 工作:
 
# isi job cancel autobalancelin

 

提醒: 为了获得最佳结果,节点池之间的保护级别应相等。 

 

其他信息

实验室测试结果

两个节点池,相等的保护级别

这是之前:

 

Node Pool Name: x410_archive          Protection:        +2d:1n
Pool Storage:     HDD                 SSD Storage
Size:             85.2T (94.6T Raw)   2.2T (2.2T Raw)
VHS Size:         9.4T
Used:             29.9T (35%)         35.2G (2%)
Avail:            55.3T (65%)         2.1T (98%)

                           Throughput (bps)  HDD Storage      SSD Storage
Name               Health|  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
  5|10.5.80.190    | OK  |881.6|    0|881.6|10.0T/31.5T( 32%)|11.7G/ 738G(  2%)
  6|10.5.80.191    |-A-- |    0|    0|    0|10.0T/31.5T( 32%)|11.7G/ 738G(  2%)
  7|10.5.80.192    | OK  |    0|    0|    0|10.0T/31.5T( 32%)|11.7G/ 738G(  2%)
-------------------+-----+-----+-----+-----+-----------------+-----------------
x410_archive       |  OK |110.2|    0|110.2|29.9T/85.2T( 35%)|35.2G/ 2.2T(  2%)

Node Pool Name: x410_35tb_800gb-ssd_64gbProtection:        +2d:1n
Pool Storage:     HDD                 SSD Storage
Size:             112.8T (125.3T Raw) 2.9T (2.9T Raw)
VHS Size:         12.5T
Used:             5.6T (5%)           7.9G (< 1%)
Avail:            107.2T (95%)        2.9T (> 99%)

                           Throughput (bps)  HDD Storage      SSD Storage
Name               Health|  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.5.80.186    | OK  | 2.9M|82.8M|85.6M| 1.4T/31.5T(  4%)| 2.0G/ 738G(< 1%)
  2|10.5.80.187    |-A-- | 104k|38.8k| 143k| 1.4T/30.6T(  5%)| 1.9G/ 738G(< 1%)
  3|10.5.80.188    | OK  |881.6|    0|881.6| 1.4T/31.5T(  4%)| 2.0G/ 738G(< 1%)
  4|10.5.80.189    | OK  |    0|25.8k|25.8k| 1.4T/31.5T(  4%)| 2.0G/ 738G(< 1%)
-------------------+-----+-----+-----+-----+-----------------+-----------------
x410_35tb_800gb-ssd|-M---| 371k|10.4M|10.7M| 5.6T/112.8T(  5%)| 7.9G/ 2.9T(< 1%)
  _64gb            |     |     |     |     |                 |







X410-2# date
Thu Jun 14 16:53:29 CDT 2018


one filepool policy set to default any:any


X410-2# isi job start autobalancelin -p 1 --policy medium
Started job [7159]


in as little as 30 minutes you will see data shift between the two pools, i.e. our first node pool, below, dropped from 32% full to 29%


X410-2# date
Thu Jun 14 17:24:20 CDT 2018





Node Pool Name: x410_archive          Protection:        +2d:1n
Pool Storage:     HDD                 SSD Storage
Size:             85.2T (94.6T Raw)   2.2T (2.2T Raw)
VHS Size:         9.4T
Used:             27.7T (33%)         34.3G (2%)
Avail:            57.5T (67%)         2.1T (98%)

                           Throughput (bps)  HDD Storage      SSD Storage
Name               Health|  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
  5|10.5.80.190    | OK  | 1.1k|25.8k|26.9k| 9.2T/31.5T( 29%)|11.4G/ 738G(  2%)
  6|10.5.80.191    |-A-- | 1.1k| 1.2M| 1.2M| 9.2T/31.5T( 29%)|11.4G/ 738G(  2%)
  7|10.5.80.192    | OK  |28.6k| 5.2k|33.7k| 9.2T/31.5T( 29%)|11.4G/ 738G(  2%)
-------------------+-----+-----+-----+-----+-----------------+-----------------
x410_archive       |  OK | 3.8k| 152k| 156k|27.7T/85.2T( 33%)|34.3G/ 2.2T(  2%)

Node Pool Name: x410_35tb_800gb-ssd_64gbProtection:        +2d:1n
Pool Storage:     HDD                 SSD Storage
Size:             112.8T (125.3T Raw) 2.9T (2.9T Raw)
VHS Size:         12.5T
Used:             7.6T (7%)           8.8G (< 1%)
Avail:            105.2T (93%)        2.9T (> 99%)

                           Throughput (bps)  HDD Storage      SSD Storage
Name               Health|  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.5.80.186    | OK  |37.9k| 279k| 316k| 1.9T/31.5T(  6%)| 2.2G/ 738G(< 1%)
  2|10.5.80.187    |-A-- | 1.4M|34.8M|36.2M| 1.9T/30.6T(  6%)| 2.2G/ 738G(< 1%)
  3|10.5.80.188    | OK  | 130k|30.9k| 161k| 1.9T/31.5T(  6%)| 2.2G/ 738G(< 1%)
  4|10.5.80.189    | OK  |    0|    0|    0| 1.9T/31.5T(  6%)| 2.2G/ 738G(< 1%)
-------------------+-----+-----+-----+-----+-----------------+-----------------
x410_35tb_800gb-ssd|-M---| 198k| 4.4M| 4.6M| 7.6T/112.8T(  7%)| 8.8G/ 2.9T(< 1%)
  _64gb            |     |     |     |     |                 |


继续每隔一小时左右监视一次,直到磁盘空间处于足够的水平。

提醒:不要让 AutoBalanceLin 运行完成。作业将数据向相反的方向移动,这可能会开始产生不良结果。占用的磁盘空间可能会反向,可能导致节点池再次接近满。仅运行作业几个小时。

一小时点:
X410-2# date
Thu Jun 14 17:54:30 CDT 2018





Node Pool Name: x410_archive          Protection:        +2d:1n
Pool Storage:     HDD                 SSD Storage
Size:             85.2T (94.6T Raw)   2.2T (2.2T Raw)
VHS Size:         9.4T
Used:             25.2T (30%)         33.9G (2%)
Avail:            60.0T (70%)         2.1T (98%)

                           Throughput (bps)  HDD Storage      SSD Storage
Name               Health|  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
  5|10.5.80.190    | OK  |881.6|20.6k|21.5k| 8.4T/31.5T( 27%)|11.3G/ 738G(  2%)
  6|10.5.80.191    |-A-- |    0|    0|    0| 8.4T/31.5T( 27%)|11.3G/ 738G(  2%)
  7|10.5.80.192    | OK  | 2.2k| 216k| 218k| 8.4T/31.5T( 27%)|11.3G/ 738G(  2%)
-------------------+-----+-----+-----+-----+-----------------+-----------------
x410_archive       |  OK |385.7|29.5k|29.9k|25.2T/85.2T( 30%)|33.9G/ 2.2T(  2%)


X410-2# date
Thu Jun 14 18:54:43 CDT 2018





Node Pool Name: x410_archive          Protection:        +2d:1n
Pool Storage:     HDD                 SSD Storage
Size:             85.2T (94.6T Raw)   2.2T (2.2T Raw)
VHS Size:         9.4T
Used:             21.6T (25%)         26.8G (1%)
Avail:            63.6T (75%)         2.1T (99%)

                           Throughput (bps)  HDD Storage      SSD Storage
Name               Health|  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
  5|10.5.80.190    | OK  |22.9k| 1.4M| 1.5M| 7.2T/31.5T( 23%)| 8.9G/ 738G(  1%)
  6|10.5.80.191    |-A-- |881.6| 231k| 232k| 7.2T/31.5T( 23%)| 8.9G/ 738G(  1%)
  7|10.5.80.192    | OK  |    0|    0|    0| 7.2T/31.5T( 23%)| 8.9G/ 738G(  1%)
-------------------+-----+-----+-----+-----+-----------------+-----------------
x410_archive       |  OK | 3.0k| 210k| 213k|21.6T/85.2T( 25%)|26.8G/ 2.2T(  1%)


空间已得到充分清理。而 AutoBalanceLIn 由于已达到预期结果,因此可以取消作业。
 

受影响的产品

Isilon X400
文章属性
文章编号: 000009283
文章类型: How To
上次修改时间: 01 6月 2026
版本:  7
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。